Neuer Import für GEDBAS

Originally published at: Neuer Import für GEDBAS • Verein für Computergenealogie e.V. (CompGen)

Bei GEDBAS, der Datenbank für genealogisch verknüpfte Daten des Vereins für Computergenealogie (CompGen), gab es hinter den Kulissen einen größeren Umbau. Das Verfahren zum Einlesen von GEDCOM-Dateien wurde geändert. Schon mehrfach hatte ich darüber berichtet. dass eine Gigantomanie bei der Größe der GEDCOM-Dateien zu beobachten ist. Dieser Trend hält mittlerweile über zehn Jahre an und nimmt eher zu als ab. Ob dahinter das Motto “Meins, meins!” (man muss es sich im Ton der Möwen aus dem Film “Findet Nemo” vorstellen) oder “Ich habe den größten! (Stammbaum)” steckt – ich weiß ich nicht. Mit seriöser genealogischer Forschung hat es aber meiner Meinung nach nicht viel zu tun, wenn ein Datenbestand innerhalb von einer Woche um 15.000 Personen anwächst. Oder ich bin einfach langsam beim Kirchenbuchauswerten geworden…

Warum muss der GEDBAS-Import geändert werden?

Das ist aber die Realität und daran musste ich nun auch GEDBAS anpassen. Es tauchten immer wieder GEDCOM-Dateien mit einer Größe von 100 MB und mehr auf, die mehrere 100.000 Personen beinhalten. Zu allem Überfluss scheinen auch noch die Leute mit den größten Dateien ihre Daten am häufigsten zu aktualisieren – manche mehrfach am Tag. Das bedeutete bisher das Löschen von tausenden Personeneinträgen, das Einlesen der GEDCOM-Datei, der Ablauf des Datenschutz-Algorithmus, das Abspeichern der Daten in der Datenbank, das Erzeugen eines Suchindex und am Ende ggf. noch das Benachrichtigen über (vermeintlich) neue Daten über die Alerts der Metasuche. So kam es immer öfter dazu, dass der Import von GEDBAS “verstopft” war, weil ein paar dicke Brocken auf den Import wartete und viele “normal” große Dateien dadurch warten mussten.

Neuer Import übernimmt nur geänderte Daten

Nun habe ich den Import so umgebaut, dass möglichst nur Änderungen an der GEDCOM-Datei übernommen werden. Also hinzugefügte Einträge, geänderte Einträge und gelöschte Einträge. Im Idealfall führt das zu einem Fall, den ich im Logfile beobachtet habe: die beim Update hochgeladene GEDCOM-Datei enthält 115.000 Personen, bei der Änderung wurden aber eigentlich nur vier Personen hinzugefügt und eine geändert. So ein Update läuft nun in wenigen Sekunden durch, statt unsere Systeme lange zu belasten.

Ganz perfekt ist die Lösung allerdings nicht. Das liegt an einer Eigenheit der GEDCOM-Spezifikation. Die Identifikatoren von Personen, Familien und Quellen können sich nämlich der Spezifikation zufolge jederzeit ändern. War unter dem Identifikator I50 eben noch Max Mustermann verzeichnet, kann beim nächsten Hochladen unter I50 plötzlich Tina Tester verzeichnet sein. Dann würde mein Algorithmus viele Änderungen bemerken, obwohl sich eigentlich an den Informationen gar nichts geändert hat. Zum Glück behalten aber die meisten Genealogieprogramme trotzdem beim GEDCOM-Export die Identifikatoren von Personen, Familien und Quellen bei, so dass der Import von GEDBAS in der Praxis gut funktioniert.

Ganz wichtig ist jedoch, dass man beim Aktualisieren einer Datei in GEDBAS auch die Funktion “Aktualisierung” verwendet. Löscht man die bisherige Datei und lädt anschließend eine neue Datei (unter neuer Nummer) hoch, funktioniert die effiziente Aktualisierung natürlich nicht.

4 „Gefällt mir“

Moin,

Danke für den interessanten Blogpost.

Ich hab aber eine kleine Anmerkungen im allgemeinen. Der Blogeintrag wurde ja von Jesper erstellt und wenn man auf den Link zum Blog klickt bekommt man die Info.
Hier aber auf Discourse fehlt die Info ( oder bin ich zu blöd). Ich fand es, wo Jesper aus seiner Perspektive geschrieben hat, etwas irritierend, wer „ich“ ist.
Könntet ihr bitte diese Info mit in die Discourse Nachricht übernehmen.

Gruß Christian

P.S. sind GEDCOMs mit 100 000 Personen noch seriös?

Danke Jesper, die Gigantomanin hat bereits wieder geschrieben. Denke du hast eine Kopie der Mail erhalten. :wink:

Hallo Christian1, am Ende des Beitrags das graue Feld „Zeige ganzen Beitrag…“ anklicken, dann kommt auch der Autor zum Vorschein.
Gruß
Günter

Moin Günter,

Jein!
Stimmt du hast recht so kann man online auf Discourse sehen dass Jesper das geschrieben hat. Nicht jedoch in der Mail.

Wie du siehst endet die Mail dort ohne Info wer der Urheber ist. Thunderbird zeigt das genauso an.

Schmankerl neben bei das gigantomanische Ausrufezeichen bekomme ich nur auf dem iPhone in der Mail angezeigt oder aber auf dem Mac in der Mail und im Web nicht aber im Web via iPhone. Ich gehe davon aus, dass das eigentlich nicht in der Nachricht ist sondern mal wieder nur ne Macspezialität oder?

Schöne Grüße Christian ohne 1

Verdammt nochmal.Warum ist das alles so kompliziert. Erst muss man suchen und proben wie, wo man eine gedcom file hoch laden kann dann wollte ich meine alten Daten aktualisieren so wie hier beschrieben wurde aber nichts sagt mir etwas von einem Zusammenschmelzen der neuen und der alten Daten. Immer landet man bei Beschreibungen and der Suche nach Namen aber hochladen ist wieder was anders. Das ist schwer zu finden.

Moin Christian,

doch, das „gigantomanische Ausrufezeichen“ IST Teil der Nachricht und erscheint - eigentlich ganz klein und bescheiden - neben dem letzten Absatz des Beitrages im Original-Blogbeitrag https://www.compgen.de/2023/04/neuer-import-fuer-gedbas/

wohin auch ein Klick auf die oberste Zeile der (Discourse-)Mail weiterleitet:
Originally published at: Neuer Import für GEDBAS • Verein für Computergenealogie e.V. (CompGen)

Aber das wußtest Du wahrscheinlich schon

Grüße
Klaus