Man könnte sich helfen, wenn man alle Datensätze der einen Datei mit
einem gemeinsamen Merkmal in einem geeigneten Datenfeld kennzeichnet.
Dann liessen sich "identische" Datensätze unterscheiden.Hat jemand ein vergleichbares Problem schon gelöst?
Hallo Jörg,
es ist richtig, dass durchgängig alles als Datensatz bezeichnet wird und habe auch schon mal mit dem Gedanken gespielt (wie Gerd es empfiehlt) dem Übersetzer dazu und einigen anderen Sachen mal eine Mail zu schreiben, aber bisher nicht gemacht.
Ich verwende auch BK und phpGedView und habe das Problem mit doppelten Datensätzen schon mehrmals bearbeiten müssen.
Es gibt das Tool Genmatcher und PAF von den Mormonen, das eine solche Funktion beinhaltet.
Mit Genmatcher kam ich nicht zurecht, ich habe nicht verstanden wie das funktioniert.
Also nahm ich mir PAF vor. PAF bietet die Funktion zwei Gedcoms zu vereinen und stellt jeden doppelten Record auf dem Bildschirm dar. Jetzt kann man entscheiden welchen man verwirft und welchen man behalten will. Jenen der mehr Daten beinhaltet oder jenen der am ehesten die richtigen Daten hat. klick klick und man springt weiter zum nächsten Datensatz. Bei tausend Datensätzen ein ziemliche Arbeit, aber ich schätze, dass nur ein Bruchteil der Tausend modifiziert wurde.
Ich musste seinerzeit meine 2500 mit 4300 von jemand anders verbinden. Es überlappten etwas um die 45 Datensätze. Ich meine mich zu erinneren, dass man PAF diese Arbeit auch alleine machen kann. Man muss nur vorher die Übernahmekriterien definieren.
Meine ganz persönliche Meinung dazu:
Das Problem Datensätze zu vereinen ist vielschichtig. Eine Software die das automatisch macht, müsste über eine Art heuristischen Algorithmus verfügen, um abzuwägen, welcher Datensatz die wahrscheinlich aktuellere Daten hat. Ich glaube nicht, dass an dieser Stelle auf den gesunden Menschenverstand verzichtet werden sollte und bevorzuge den manuellen Abgleich und die manuelle Übernahme.
Zum eigentlichen Problem:
Ich arbeite in der IT und bei den Kunden ist immer irgendwo eine Datenbank im Einsatz. Das schlimmste wovor die Kunden Angst haben, sind doppelte Daten die auseinander laufen.
Deshalb habe ich mir selbst eine Art Change Managenment auferlegt:
1.) Der Upload auf meine Homepage erfolgt nur von BK zu PGV, nie anders herum.
BK hat eine gute Optionsauswahl und ich will steuern, was auf der Homepage einzusehen ist. Denn eines merke man sich, NUR WAS NICHT AUF DER HOMEPAGE LIEGT IST WIRKLICH SICHER.
2.) Registrierte Anwender dürfen in PGV Änderungen vornehmen.
3.) Die Änderungen muss ich als Admin erst freigeben und wandern dann erst in die Datenbank rein.
4.) Ich übernehme diese Änderungen manuell in BK vor der Freigabe.
Wenn man dabei bleibt, sind es nicht immer sehr viele.
5.) Danach lade ich einen neuen Gedcom hoch ins PGV.
Einfach nur der Ordnung halber. Manche Anwender sind doch gar zu eifrig und stellen Daten ins PGV die man besser nicht online hält. Durch einen neuerlichen Export aus BK mit den aktualisierten Daten drin, kann ich den Datenschutz gewährleisten.
6.) Ich lade generell die kpl. Datenbank hoch, keinen Split.
Die daraus entstehenden Probleme sind bekannt
Ich hoffe ich konnte Dir mit meinem Erfahrungsbericht etwas weiterhelfen.