KI-generierte Stammbäume bei FamilySearch

Originally published at: KI-generierte Stammbäume bei FamilySearch • Verein für Computergenealogie e.V. (CompGen)

Eine Künstliche Intelligenz hat für FamilySearch einen Stammbaum mit über 9,3 Millionen Menschen automatisch erstellt. Dazu wurden von der KI mehr als 35 Millionen Quellen-Datensätze interpretiert, die Ereignisse zu Personen enthalten, die in Argentinien lebten. Dieser Baum wurde am 20. Mai 2023 veröffentlicht. Doch bereits zuvor gab es KI-generierte Stammbäume bei FamilySearch. Nun kann man sie nach Informationen über Vorfahren durchsuchen und darin navigieren.

KI revolutioniert das Erstellen von Stammbäumen

Einmal mehr ist dies ein Zeichen dafür, dass sich in der Genealogie eine revolutionär neue Arbeitsweise auftut. Wo bisher in einem Genealogenleben vielleicht einige tausend Personen erforscht werden konnten, kann nun eine KI etwas Ähnliches in wenigen Stunden leisten.

Bereits im Februar 2023 hatte FamilySearch fünf andere Stammbäume bereitgestellt, die auf die gleiche Art erzeugt worden sind. Etwa ein Stammbaum über frühere Bewohner der Abruzzen in Italien mit fast 1,3 Millionen Personen. Die anderen Stammbäume wurden zu Bewohnern von Gebieten in Mexiko, Brasilien, den Philippinen und Australien erstellt. Bislang ist dazu aber weltweit so gut wie nichts publiziert worden und auf den Seiten von FamilySearch sind diese Stammbäume etwas versteckt.

Es ist möglich, die neuen Stammbäume zu betrachten und die Ereignisse und Beziehungen zu analysieren, die die KI zusammengestellt hat. Man kann auch die zugrunde liegenden Quellen ansehen, auf denen die Stammbäume basieren.

Diese von einer KI erzeugten Stammbäume sind vom Weltbaum „FamilySearch FamilyTree“ getrennt. Man kann aber die Quellen aus den automatisch erzeugten Stammbäumen auch den Personen bzw. Ereignissen im Weltbaum zuordnen und so manuell die Informationen im Weltbaum ergänzen und verbessern.

Überprüfung der KI-generierten Stammbäume bei FamilySearch

Es gibt ein kurzes YouTube-Video „FamilySearch Computer-Generated Trees Will Revolutionize Genealogy“ zu dieser völlig neuen Dimension der Ahnenforschung. Die Autorin Devon Noel Lee hat die Qualität der Stammbäume getestet und die Genauigkeit der Daten beurteilt. Sie ist begeistert und stellt fest, dass die Stammbaumstrukturen sehr hilfreich sind, dass aber nicht alles perfekt ist. Sie fordert die Nutzer daher auf, die Daten anhand der Quellen sorgfältig zu überprüfen, bevor man sie übernimmt.

Zukunft der Genealogie

Aus vorliegenden Quellen lassen sich nun zukünftig durch eine KI automatisch Stammbäume erzeugen. Dann können die darin verknüpften Quellen nach einer Überprüfung in einem manuellen Schritt auch mit dem Weltbaum verbunden werden. Dieses Vorgehen ist gegenüber der derzeitigen Arbeitsweise bereits jetzt erheblich schneller. Sollte der Prozess der Qualitätsprüfung und Übernahme zukünftig noch besser unterstützt werden, wird das die Erweiterung des Weltbaumes von FamilySearch erheblich beschleunigen. Und auch alle anderen großen Genealogiedienste werden mittelfristig ähnliche Funktionen anbieten müssen, wenn sie am Markt überleben wollen.


Redaktionelle Anmerkung: Dieser Blog-Beitrag wurde mit Unterstützung von ChatGPT produziert.
Wer das nachvollziehen möchte, kann gerne hier nachlesen. In diesem Fall konnte die KI nicht viel zum Inhalt beisteuern, aber es ist bemerkenswert, wie ChatGPT aus dem etwas konfusen, transkribierten YouTube-Video sinnvolle Inhalte herausgelesen hat!

3 „Gefällt mir“

Diese Bäume werden genauso wenig überprüft werden, wie bei der bisherigen Übernahme auf den großen Plattformen etwas überprüft wird. „Korrekturen“ werden abseits der Aktualisierung durch den Betreiber ebenso keine Berücksichtigung finden. Am Ende interessiert es einfach nicht.

Was bleibt, wenn mir ein Mega-Stammbaum generiert wird, der quantitativ nicht mehr überprüfbar ist und dafür auch die Fähigkeiten zunehmend verloren gehen (in Hinblick auf Schriften, historisches Kontextwissen, soziales Gefüge)? Es ist wahrscheinlich nur noch eine Frage von Monaten, bis sich über die Anbieter auch ganze Familienbücher mit Prosa generieren lassen, die eloquent geschrieben sind, aber eben ohne übergeordnetes Wissen und Verständnis aus den begrenzten Fakten Text ohne Ende produzieren.

Genealogie, das war doch was mit Entdecken, Sammeln, Austausch.

Irgendwann vor 10-15 Jahren befanden wir uns da - obwohl viele heute verfügbaren Dokumente noch nicht digitalisiert waren - auf einem soziotechnischem Höhepunkt: Reger Austausch über Foren und Mailinglisten, Blogs, private Webseiten, Veröffentlichungen, eine Vielzahl an Software. Das ist alles im Sinkflug und „KI“ (man kann das auch ganz langweilig mal durch „Algorithmus“ oder „Programm“ ersetzen) wird das Hobby langfristig nicht attraktiver machen.

3 „Gefällt mir“

Hallo Christoph_M, KI wird sich auch in der Genealogie verbreiten. Es gab unlängst einen interessanten Beitrag, in dem ChatGPT aus einem Text letztendlich einen kurzen Stammbaum erstellt. War sehr beeindruckend. Ich habe dann mit einer kleinen Gedcom-Datei einen Versuch gemacht, war auch beeindruckend, was ChatGPT sich da zusammen gedichtet hat. Auch eine einfache Frage zur Rettenburg in Unterwössen brachte Erkenntnisse zu KI. Ein schlauer Genealoge hat mal geschrieben: „Genealogie ohne Quellen ist Mythologie“. Dem kann ich nur zustimmen. Ein Stammbaum bei dem ich nicht feststellen kann wo die Daten herkommen, ist für mich wertlos. Bislang sind die Daten von family-search schon mit Vorsicht zu genießen. Ohne Überprüfung einer Quelle habe ich da noch nie was übernommen.
Gruß Heinz (Keizer)

1 „Gefällt mir“

Bitte erst einmal lesen und dann schreiben! Alle Angaben in den KI-generierten Bäumen sind mit Quellen hinterlegt! Das Überprüfen vor dem Übernehmen ist natürlich wichtig!

Hallo Hermann,

vor ein paar Tagen habe ich in einer juristischen Zeitschrift über einen
Fall mit Einsatz von KI gelesen.

Die Rede des Anwalts vor Gericht war beeindruckend, eine Fülle von
Gerichtsurteilen incl. Aktenzeichen zur Unterstützung seines Antrags.

Irgendjemand ist dann auf die dumme Idee gekommen, die zitierten Fälle
nachlesen zu wollen - keiner hat existiert.

Bei einem Forscher, mit dem ich schon lange zusammenarbeite, kann ich
Daten vielleicht ohne Einzelfallprüfung übernehmen. Bei einem Fremden
Forscher oder einer Datensammlung made by KI? Never, Sir! Und dann ein
Megastammbaum?

Herbert (Kuba)

1 „Gefällt mir“

Wie kommen Sie zu dieser Aussage? Ich kenne die Weltbäume bei FamilySearch FamilyTree, bei WikiTree und bei bei Geni. Bei allen gibt es viele Aktivitäten der Nutzer die Daten bzw. Behauptungen mit Quellen zu belegen und so für eine immer bessere Qualität zu sorgen. Besonders das Konzept bei WikiTree funktioniert ganz hervorragend, wie Sie auch der heute erschienenen COMPUTERGENEALOGIE entnehmen können.

Wenn Sie sich auf die veröffentlichten Einzelstammbäume einzelner Forscher beziehen, etwa bei MyHeritage, haben sie sicher recht, da gibt es gute und auch viele schlecht recherchierte Stammbäume.

Erst einmal: eine KI basiert eben nicht auf einem Algorithmus, deshalb hat sie ganz andere Qualitäten. Aber das ist nicht wirklich wichtig.

Ihre pessimistische Einschätzung zu der Zukunft unserer Ahnenforschung sehe ich anders, denn die neuen Möglichkeiten erlauben es uns ganz neue Arten von Quellen zu erschließen. Alte Gerichtsprotokolle, Grundbücher und Chroniken erlauben es uns zukünftig ein noch viel lebendigeres Bild vom Leben unserer Vorfahren zu zeichnen als es die spröden Daten aus den Kirchenbüchern schon heute vermögen.

Hallo Herbert,

ja, von dem Fall des Anwalts, der erfundene Musterfälle vor Gericht vorgetragen hat, habe ich auch gehört. Extrem unprofessionell. Er hat ChatGPT verwendet. Diese KI ist so trainiert worden, dass sie auf nahezu jede Frage eine Atwort liefert, auch wenn diese ggf. frei erfunden werden muss. Man sagt, dass diese KI dann „halluziniert“. So ist sie gebaut.

Aber man kann KIs auch ganz anders bauen. Die KI, die für FamilySearch die riesigen Stammbäume gebaut hat, war sicher nicht ChatGPT.

Und man kann ChatGPT auch ganz anderes einsetzen, nämlich als wunderbares Werkzeug zur Textanalyse und zur Erzeugung von Berichten und sogar zur Erstellung von GEDCOM-Code. Darüber habe ich kürzlich in einem CompGen-Vortrag berichtet, der demnächst in unserem YouTube-Kanal veröffentlcht werden wird. ChatGPT zu Fakten über konkrete Ahnen oder Orte zu befragen, ist keine gute Idee, denn darüber weiß diese KI (noch) zu wenig.

1 „Gefällt mir“

Da diese Quellen größtenteils weder online verfügbar noch transkribiert sind, müßte dies ja wohl als erstes erfolgen. Letzteres könnte unterbleiben, wenn KI alle alte Handschriften lesen könnte. Vielleicht bekommen wir ja auch nur ein lebendiges Bild vom Leben unserer Vorfahren wie KI es sich vorstellt. Die „spröden Daten“ aus den Kirchenbüchern sollten doch auch heute schon nur das Gerüst sein, dem wir aus anderen Quellen Informationen hinzufügen. Da mag KI ja hilfreich sein. Aber doch wohl nur bei Daten, die online verfügbar sind.

1 „Gefällt mir“

Klar, wenn eine Quelle nicht online verfügbar ist, dann tut sich die menschliche Intelligenz schwer und die künstliche muss komplett passen.

Nein, wenn die Abbildung einer Quelle nicht online ist, geht nichts. Das „Lesen“ alter Handschriften ist an sich kein Problem; solche KIs gibt es schon lange (etwa Transkribus). Was noch fehlt ist aber zum Beispiel das Nachtraining einer solchen KI auf die spezifische Handschrift etwa eines Pfarrers. So wie wir Menschen uns auch in die individuelle Schreibwesie des Pfarrers in einem Kirchenbuch einlesen müssen, müsste das auch eine KI tun, aber entsprechende Ansätze dazu kenne ich nicht. Nach dem Transkribieren kommt dann aber die Erkennung der Informationselemente, wie Namen, Daten oder Orte. Uns Menschen hilft da die Ortskenntnis, wir wissen häufig, wie die wichtigsten Familien in einem Ort hießen, wir kennen die Nachbarorte und den historischen Kontext. Das hilft. Also müssen wir einer KI genau diese Daten auch zur Verfügung stellen, etwa indem wir das GOV für ChatGPT öffnen. Das würde die Leistung der KI deutlich steigern.

1 „Gefällt mir“

Ich habe gerade ein dazu passendes Zitat in einer Ahnenliste gefunden:

„Wir sind ebensowohl überzeugt, dass es die Pflicht des Geschichtsforschers sei,
Stammbäume frischweg zu pflanzen, selbst auf die Gefahr hin, dass später sich finde,
man habe Kirschen auf einen Birnbaum gezweigt.“
(Carl Borromäus Alois Fickler 1858)

Guten Tag Herr Hartentaler,

mein Versuch aus einer GEDCOM-Datei mit 3 Generationen und der Grösse der Datei mit 38 KB einen „Bericht“ zu erstellen, scheitert.
ChatGPT sagt mir :“ Die Datei ist zu gross“
Was mache ich falsch oder wie muss ich da vorgehen.

Danke für die Hilfe und Grüsse

Frank Schwinghammer

Frank Schwinghammer

Auf dem Katzenkopf 34
74523 Schwäbisch Hall

fschwinghammersha@t-online.de

38 kB erscheint mir für 3 Generationen groß. Haben Sie wirklich nur INDI und FAM Datensätze drin? SOUR, OBJE braucht man ja nicht für einen erzählenden Bericht.

Nutzen Sie ChatGPT 4?

Danke.
Ich verwende 3.5.
Wie ich in der Datei sehe , sind SOUR enthalten.
Darf ich die Gedcom-Datei Ihnen schicken?

Frank Schwinghammer

Auf dem Katzenkopf 34
74523 Schwäbisch Hall

fschwinghammersha@t-online.de

Ja, gerne per Direktnachricht, zB hier in Discourse.

Leider kann ich mich mit meinem seitherigen Passwort nicht mehr einloggen.
Auch mehrfacher Versuch ein neues Psswort beantraggt, bekam ich keine Antwort.Deshalb konnte ich bis jetzt die -datei nicht schicken.
Gibt es eine andere Möglichkeit?

Danke und Gruss

Frank Schwinghammer

Frank Schwinghammer

Auf dem Katzenkopf 34
74523 Schwäbisch Hall

fschwinghammersha@t-online.de

Danke für die Datei. Ich konnte sie problemlos in webtrees einlesen. Ich habe die enthaltenen Notizen, Quellen und REPO-Einträge entfernt. Ich habe die nicht-standardgemäßen GEDCOM-Tags in den FAM-Datensätzen

  • 2 _FREL Natural
  • 2 _MREL Natural

entfernt.

Ich habe alle Zeilen mit Koordinaten entfernt, da sie fehlerhaften GEDCOM-Code enthalten:

3 MAP
4 LATI N47,5667
4 LONG E7,6

Es müssen Dezimalpunkte und keine Kommas verwendet werden.

Dann habe ich weiteren fehlerhaften Code wie

1 BAPM 11 Uhr 50

und

1 EVEN @ AnneE1955
2 TYPE Bei Ancestry.de

und die illegalen INDI:ADDR entfernt.

Ich denke, dass FTM (Family Tree Maker) reichlich viel Schrott exportiert. Ich vermute, dass dadurch ChatGPT ins Straucheln geraten ist.

Mein Prompt war dann:

Erstelle als Genealoge aus dem folgenden GEDCOM-Code einen Bericht in erzählender Form aus der Sicht von Frank.

Auch nach allen Korrekturen war ich nicht in der Lage einen stimmenden Bericht für die vier Generationen zu erzeugen. Nach der Reduktion auf drei Generationen hat es einwandfrei geklappt.

Nachtrag: mit ChatGPT 3.5 haben maximal 3 Generationen und rund 110 Zeilen GEDCOM funktioniert; nun mit ChatGPT 4 haben auch vier Generationen mit rund 350 Zeilen GEDCOM geklappt.

1 „Gefällt mir“

Im forum.ahnenforschung-net hat dieser Blog-Beitrag hier ebenfalls viele interessante Diskussionsbeiträge zur Folge gehabt, wie ich eben erst festgestellt habe.