Hallo,
nach mehreren R�ckmeldungen und weil zu viele Missverst�ndnisse
aufgetreten sind, habe ich mich entschlossen, nochmals das Thema ein
letztes Mal anzugehen.
Damit das ganze etwas verst�ndlicher wird, lasse ich es in
Geschichtsform mitlaufen.
Tut mir Leid, das es etwas zu lang und sehr theoretisch wird (Gleich
wieder l�schen die Mail).
Problem:
Es tauschen sich immer mehr Forscher mit Gedcom-Daten aus.
Die einzelnen Forscher wollen jeweils ihre Forschungen weiter vertiefen.
Manche Forscher legen mehr wert auf die Ahnen und andere auf die
Nachfahren.
Das ist aber auch gut so.
Das Problem bei einem Austausch will im Normalfall jeder seine
Forschungen dabei verbessern. Die Forscher wollen wissen was hat die
andere Gedcom-Datei, was f�r ihn von Interesse w�re.
Das Herauszufinden ist das gro�e Problem.
Iststand:
Viele Programme bieten die Suche nach Duplikaten an (nach oder w�hrend,
mit den Methoden beim Verschmelzen, Zusammenf�gen, Anh�ngen usw.).
Was man sich dabei einfangen kann, wenn einfach komplette Gedcoms
verschmelzt werden, wissen die meisten von uns.
Die daraus hervorgehenden Duplikats-Listen sind auch teilweise so
umfangreich (Tausende von Duplikaten usw.), das wir es lieber bleiben
lassen (So geht es zum Beispiel mir).
Vorschlag und Probleml�sungsansatz:
Zuerst sollte ein Vergleich der Datens�tze geschehen, der alle Duplikate
zwischen "Datei A" und "Datei B" ermittelt.
Hier gibt es wiederum eine gro�e Anzahl von M�glichkeiten welche alle zu
einer unterschiedlichen Anzahl von Duplikaten f�hrt.
Die Einsatzfaktoren entscheiden sich f�r das Finden der Duplikate in den
verschiedenen Dateien. Beispiele f�r Einsatzfaktoren: Geburtstag,
Kompletter Name und Geburtstag, Vorname und Geburtstag, Nachname und
Geburtstag. usw. (weitere Einsatzfaktorenbeispiele, welche in jegliche
Kombination verwendet werden k�nnen: Taufe, Heirat, Tod, Bestattung,
Ort, usw.) Jetzt will damit aufh�ren.
Mir pers�nlich gef�llt der Geburtstag am liebsten, der ist im Normalfall
am meisten (nach dem Namen in einer Genealogie vorhanden.
Des weiteren ist der Name im Normalfall immer vorhanden (und wenn der
Name auch NN lautet).
Eine Variante des Namens w�re der Soundex, um auch hier wieder �hnliche
Namens-Schreibweisen herauszufiltern.
Je mehr Einsatzfaktoren genommen werden, desto geringer fallen die
Ergebnisse aus (aber es wird auch komplizierter).
Entscheiden wir uns mal f�r die Duplikatssuche nach Namen und Geburtstag
�ber die 2 Eingangsdateien A und B.
Also erhalten wir nur die Duplikats-Daten mit dem gleichen Namen und
genau dem gleichen Geburtstag aus Den Eingangsdateien A und B. Diese
Duplikate kommen in der Duplikats-Tabelle A und Duplikats-Tabelle B (als
Zeile).
Jetzt mu� den Duplikats-Personen in den Duplikats-Tabellen noch die
Familienmitglieder in die weiteren Spalten zugef�hrt werden (Vorschlag
meinerseits: Vater und Mutter (jeweils 1), Partner (5), Kinder (25)
Klammerzahlen bedeutet Personenanzahl und Spaltenanzahl).
In diesen Spalten w�rden nur die Geburtstage (mein Vorschlag war
Geburtstage) der Eltern, Partner und Kinder eingetragen. Wobei zu
beachten ist, da� die Partner und Kindergeburtstage aufsteigend sortiert
sein m�ssen.
Wenn diese Arbeit erledigt ist, sind wir schon fast am Ziel.
Jetzt ist ein Duplikatsvergleich der Duplikats-Tabelle A und mit der
Duplikats-Tabelle B vorzunehmen (Theoretisch k�nnte die komplette Zeile
in einen String zusammengef�gt werden, dann mu� nur ein Wert gegenseitig
verglichen werden).
Alle jetzt gefundenen Duplikate sind in beiden Gedcom-Dateien gleich.
(Haben die Eltern, Partner und Kinder, alle mit dem gleichen Geburtstag.
Ja sogar die Anzahl der Partner und Kinder stimmt in beiden
Gedcom-Dateien �berein).
Diese Duplikate k�nnen wir jetzt l�schen, denn der Rest, also die
Differenzen ist f�r uns als Familienforscher interessant. Genau diesen
Unterschied (Differenz) wollen wir wissen.
Der Name dieses Verfahrens k�nnte also lauten: Gedcomvergleich �ber 2
Dateien mit der Duplikats-Differenz Methode mit Namen und Geburtstag
(oder einfacher: "Duplikats-Differenz-Vergleich (Geburtstag)").
Der Bonus dazu w�re noch zu wissen welche Quantit�t (St�ckzahl)
dahintersteht.
Beispiel: Die Person hat noch weitere 50 Vorfahren in Gedcomdatei B oder
weitere 10 Nachfahren in Gedcomdatei B usw..
Wie gesagt, das w�re der Bonus.
Anmerkung: dazu habe ich noch keine einfache logische und gute Idee
(evt. kommt nach was).
Die L�sung ist keine 100% Gesamtl�sung. Sie ist aber eine 100% L�sung
mit den genannten Einsatzfaktoren.
Nat�rlich k�nnen nach der Optimierung der Datens�tze wieder neue
Duplikatspaare neu entstehen lassen, welche wieder erweitert werden
k�nnten. Das ist mir alles klar.