4) Vergleichen von 2 Gedcom-Dateien "Duplikats-Differenz-Vergleich"

Heinz_Kohler · 2. April 2005 um 09:39

Hallo,

nach mehreren R�ckmeldungen und weil zu viele Missverst�ndnisse
aufgetreten sind, habe ich mich entschlossen, nochmals das Thema ein
letztes Mal anzugehen.
Damit das ganze etwas verst�ndlicher wird, lasse ich es in
Geschichtsform mitlaufen.
Tut mir Leid, das es etwas zu lang und sehr theoretisch wird (Gleich
wieder l�schen die Mail).

Problem:
Es tauschen sich immer mehr Forscher mit Gedcom-Daten aus.
Die einzelnen Forscher wollen jeweils ihre Forschungen weiter vertiefen.

Manche Forscher legen mehr wert auf die Ahnen und andere auf die
Nachfahren.
Das ist aber auch gut so.
Das Problem bei einem Austausch will im Normalfall jeder seine
Forschungen dabei verbessern. Die Forscher wollen wissen was hat die
andere Gedcom-Datei, was f�r ihn von Interesse w�re.

Das Herauszufinden ist das gro�e Problem.

Iststand:
Viele Programme bieten die Suche nach Duplikaten an (nach oder w�hrend,
mit den Methoden beim Verschmelzen, Zusammenf�gen, Anh�ngen usw.).
Was man sich dabei einfangen kann, wenn einfach komplette Gedcoms
verschmelzt werden, wissen die meisten von uns.
Die daraus hervorgehenden Duplikats-Listen sind auch teilweise so
umfangreich (Tausende von Duplikaten usw.), das wir es lieber bleiben
lassen (So geht es zum Beispiel mir).

Vorschlag und Probleml�sungsansatz:
Zuerst sollte ein Vergleich der Datens�tze geschehen, der alle Duplikate

zwischen "Datei A" und "Datei B" ermittelt.
Hier gibt es wiederum eine gro�e Anzahl von M�glichkeiten welche alle zu

einer unterschiedlichen Anzahl von Duplikaten f�hrt.
Die Einsatzfaktoren entscheiden sich f�r das Finden der Duplikate in den

verschiedenen Dateien. Beispiele f�r Einsatzfaktoren: Geburtstag,
Kompletter Name und Geburtstag, Vorname und Geburtstag, Nachname und
Geburtstag. usw. (weitere Einsatzfaktorenbeispiele, welche in jegliche
Kombination verwendet werden k�nnen: Taufe, Heirat, Tod, Bestattung,
Ort, usw.) Jetzt will damit aufh�ren.

Mir pers�nlich gef�llt der Geburtstag am liebsten, der ist im Normalfall

am meisten (nach dem Namen in einer Genealogie vorhanden.
Des weiteren ist der Name im Normalfall immer vorhanden (und wenn der
Name auch NN lautet).
Eine Variante des Namens w�re der Soundex, um auch hier wieder �hnliche
Namens-Schreibweisen herauszufiltern.
Je mehr Einsatzfaktoren genommen werden, desto geringer fallen die
Ergebnisse aus (aber es wird auch komplizierter).

Entscheiden wir uns mal f�r die Duplikatssuche nach Namen und Geburtstag

�ber die 2 Eingangsdateien A und B.

Also erhalten wir nur die Duplikats-Daten mit dem gleichen Namen und
genau dem gleichen Geburtstag aus Den Eingangsdateien A und B. Diese
Duplikate kommen in der Duplikats-Tabelle A und Duplikats-Tabelle B (als

Zeile).

Jetzt mu� den Duplikats-Personen in den Duplikats-Tabellen noch die
Familienmitglieder in die weiteren Spalten zugef�hrt werden (Vorschlag
meinerseits: Vater und Mutter (jeweils 1), Partner (5), Kinder (25)
Klammerzahlen bedeutet Personenanzahl und Spaltenanzahl).
In diesen Spalten w�rden nur die Geburtstage (mein Vorschlag war
Geburtstage) der Eltern, Partner und Kinder eingetragen. Wobei zu
beachten ist, da� die Partner und Kindergeburtstage aufsteigend sortiert

sein m�ssen.

Wenn diese Arbeit erledigt ist, sind wir schon fast am Ziel.

Jetzt ist ein Duplikatsvergleich der Duplikats-Tabelle A und mit der
Duplikats-Tabelle B vorzunehmen (Theoretisch k�nnte die komplette Zeile
in einen String zusammengef�gt werden, dann mu� nur ein Wert gegenseitig

verglichen werden).
Alle jetzt gefundenen Duplikate sind in beiden Gedcom-Dateien gleich.
(Haben die Eltern, Partner und Kinder, alle mit dem gleichen Geburtstag.

Ja sogar die Anzahl der Partner und Kinder stimmt in beiden
Gedcom-Dateien �berein).
Diese Duplikate k�nnen wir jetzt l�schen, denn der Rest, also die
Differenzen ist f�r uns als Familienforscher interessant. Genau diesen
Unterschied (Differenz) wollen wir wissen.

Der Name dieses Verfahrens k�nnte also lauten: Gedcomvergleich �ber 2
Dateien mit der Duplikats-Differenz Methode mit Namen und Geburtstag
(oder einfacher: "Duplikats-Differenz-Vergleich (Geburtstag)").

Der Bonus dazu w�re noch zu wissen welche Quantit�t (St�ckzahl)
dahintersteht.
Beispiel: Die Person hat noch weitere 50 Vorfahren in Gedcomdatei B oder

weitere 10 Nachfahren in Gedcomdatei B usw..
Wie gesagt, das w�re der Bonus.
Anmerkung: dazu habe ich noch keine einfache logische und gute Idee
(evt. kommt nach was).

Die L�sung ist keine 100% Gesamtl�sung. Sie ist aber eine 100% L�sung
mit den genannten Einsatzfaktoren.
Nat�rlich k�nnen nach der Optimierung der Datens�tze wieder neue
Duplikatspaare neu entstehen lassen, welche wieder erweitert werden
k�nnten. Das ist mir alles klar.

Stefan_Mettenbrink1 · 2. April 2005 um 10:50

Die Lösung ist keine 100% Gesamtlösung. Sie ist aber eine 100% Lösung
mit den genannten Einsatzfaktoren.

Die Problmatik ist ja, dass unterschiedliche Gedocmdateien unterschiedlich viele Daten zur selben Person haben können. So hat der einer erst die Person und das Geburtsdatum (nur teilweise), der andere hat schon zwei Partner, 8 Kinder und einen haufen zusätzlicher Informationen.

Eine Automatik ist in diesem Fall entweder sehr komplex und umfangreich oder schlicht eine Hilfe.

MfG, Metti.

Michael_Rauck · 2. April 2005 um 16:24

Sehr geehrter Herr Köhler,

auch wenn es ein bisschen anders als das von Ihnen Gesuchte ist:

Als Online-Dienst, und nicht als lokales Programm gibt es:
http://www.gencircles.com/ Dieses System vergleicht nach Kriterien den
eigenen eingesandten Datensatz mit allen anderen.

Als Offline-Dienst gibt es einmal im Jahr einen bei der Gesellschaft für
Familienkunde in Franken. Ich denke, dass eine Mitgliedschaft nicht
Bedingung ist.
http://www.gf-franken.de/gff_db.html/

Beide haben den Vorteil, dass nicht nur zwei, sondern relativ viele Dateien
verglichen werden.

Viele Grüße aus München
Michael Rauck