Kann man gedruckte Ortsfamilienbücher mit KI auswerten?

Originally published at: Kann man gedruckte Ortsfamilienbücher mit KI auswerten? • Verein für Computergenealogie e.V. (CompGen)

Dass Ortsfamilienbücher exzellente Forschungsgrundlagen für die Geschichts-, Wirtschafts- und Sozialwissenschaften liefern, haben Georg Fertig, Robert Stelter und Christian Boose bereits im Oktober 2022 hier im Blog des Vereins für Computergenealogie (CompGen) ausführlich beschrieben. Aber kann man auch gedruckte Ortsfamilienbücher (OFB) mit künstlicher Intelligenz (KI) oder anderen Methoden auswerten? Dieser Frage gehen Robert Stelter und Rafael Biehler in ihrer kürzlich veröffentlichten Arbeit nach.

Vergleich von drei Methoden an drei Ortsfamilienbüchern

In der Arbeit werden die Ergebnisse von KI-gesteuerter, Python-Code-basierter und manueller Datenabfrage anhand von Stichproben von 30 zufällig gewählten Familien aus drei Ortsfamilienbüchern verglichen. Die ausgewählten Ortsfamilienbücher unterscheiden sich in Erscheinungsjahr, geographischer Lage, Familienzahl und Religionszugehörigkeit, ordnen aber die Familien immer nach den Männern. Jede Familie hat eine eindeutige ID, bei Mehrfachehen werden neue IDs vergeben.

  • Ortssippenbuch der Gemeinde Ottersdorf im Ried, Stadtteil von Rastatt 1700–1913 von E. Hahner und E. Burster (2000)
  • Ortssippenbuch Schafhausen mit vielen Evangelischen aus Dätzingen und Weil der Stadt 1525–1997 von E.C. Haag (1997)
  • Familienbuch Zschortau bei Leipzig von E.-N. Kunath (2009)

Die Strukturen in der Darstellung der Familien sind unterschiedlich, weswegen die Abfragen für jedes Buch angepasst werden müssen. Ob eine KI-Anwendung sich auf diese Varianten anpassen kann, ist die große Frage.

In der manuellen Methode wurden zunächst die Stichproben in Familien- und Personendateien extrahiert. Diese Tabellen definieren die Zielmarke. Die Abfrage mit einem Python-Code erfolgte in fünf Stufen. Das Problem der Geschlechtsbestimmung von Kindern und Einzelpersonen wurde mit Hilfe der OFBscientificDatabase gelöst.

Drei verschiedene KI-Modelle wurden getestet: GPT-3.5 Turbo, GPT-4.0 und Mixtral 8x7B, das heruntergeladen und lokal ausgeführt werden kann. Die KI wurde aufgefordert, Python-Objekte zu erstellen. Die Prompts sind in Anhang der Arbeit angeführt.

Ergebnisse

Die Bewertung der Verfahren im Vergleich zur manuellen Erfassung zeigt klar, dass der Python-basierte Code am besten funktionierte. Über 90 % der Werte wurden korrekt ermittelt. Die KI-Methoden mit GPT-3.5 schnitt am schlechtesten ab, GPT-4.0 besser. Die Zahl der Kinder wurde nicht immer korrekt ermittelt. Bei Datum und Ort der Heirat gab es Fehlmeldungen. Die drei Fälle lassen jedoch nicht den Schluss zu, dass der Python-Code auch für andere Ortsfamilienbücher ebenso gut funktioniert, die Qualität der Ergebnisse für die Verwendung der Daten ausreicht und die Ergebnisse auch auf andere historische Quellen übertragbar ist. Für die Anwendung der KI-Modelle sind Spezialisten und viel Erfahrung nötig.

Zur Prüfung des klassischen Python-Codes wurden weitere Test mit sechs weiteren Ortsfamilienbüchern (Brodau, Werbelin, Eisingen, Königsbach, Stein und Hardheim) durchgeführt. Grundsätzlich gab es keine Qualitätsunterschiede. Lediglich die Berufe wurden schlechter erfasst.

1 „Gefällt mir“

Interessant fand ich auch die Hinweise zum jeweiligen Aufwand (gemessen in Arbeitsstunden oder in Geld). Klar ist, dass das manuelle Erfassen den größten Aufwand bedingt.

Das erstmalige Erstellen des Python Codes war natürlich aufwändig, aber das spielt keine Rolle, wenn man dann große Datenmengen erfasst. Die Anpassung des Python-Codes auf ein spezifisches OFB lag im Bereich von etwa 20 Arbeitsstunden. Aber auch der Einsatz einer KI muss jeweils spezifisch an ein OFB angepasst werden.

Während der Computerzeit-Aufwand beim Einsatz von Python-Code gut skaliert, steigen die Kosten für KI-Modelle schnell stark an und können über 1.000$ liegen. Da die Fehlerrate der KIs höher ist als beim eingesetzten Python-Code, ist auch der anschließende Korrekturaufwand bei den KIs höher. Derzeit spricht also beim Erfassen von gedruckten OFBs alles für den Einsatz von Python-Code.

Nun zu meiner Einschätzung: Es ist zu erwarten, dass es bei den KI-Modellen noch zu starken Preissenkungen kommen wird. Dadurch wird der Skalierungseffekt weniger wichtig werden. Die Autoren haben bei ihrer Arbeit die getesteten KIs out-of-the-Box verwendet. Wenn man eine KI auf das Erfassen von OFBs trainieren würde, dann würden diese sicherlich noch deutlich bessere Ergebnisse bringen. Aber dazu bedarf es, wie in dem Papier angemerkt, spezieller KI-Experten. Wenn also die Aufgabe nicht lautet: „Erfasse 10 OFBs“, sondern „Erfasse alle gedruckten OFBs“, dann könnte so eine speziell trainierte Ki bereits jetzt die Nase vorne haben.

Derzeit haben KIs starke Vorteile beim Erfassen unstrukturierter Daten in größeren Textmengen („Suche in 100 Seiten Text die zehn für mich relevanten Daten“), aber klare Nachteile beim akkuraten Erfassen von Massendaten („Liste die 100 Datensätze, die auf zwei Seiten stehen“).

In dem Papier wurde nicht auf das Transkribieren eingegangen. Vorausgesetzt wurde ein bereits digital erfasster Text. Diesen Arbeitsschritt könnte man etwa mit einer KI wie Transkribus erledigen. Das Endergebnis der Autoren waren Personen- und Familientabellen. Diese kann man mit einem Programm wie GedTool leicht in eine für uns als Genealogen passende GEDCOM-Datei wandeln. Ein KI wie ChatGPT kann aber auch das Transkribieren und die Erzeugung von GEDCOM in einem Schritt miterledigen, was den Gesamtaufwand bei kleineren Projekten wiederum reduzieren kann.