ChatGPT “spricht” GEDCOM - Revolutionäre Möglichkeiten für die Genealogie

Bernhard.Mosolf · 26. Mai 2023 um 09:50

Ausgangspunkt dieses Themas war der Blogbeitrag ChatGPT “spricht” GEDCOM - Revolutionäre Möglichkeiten für die Genealogie
Die sich anschließende Diskussion findet man nun hier wieder.

Silvia_Diessner · 8. Mai 2023 um 06:02

Moin,

das ist genial!
Erst kürzlich habe ich mehrere Ortschroniken digitalisiert. Wenn ich den Artikel richtig verstehe (kann es noch gar nicht glauben ), dann kann ChatGPT alle darin enthaltenen Personen mit den dazugehörigen Ereignissen auflisten. Verwandtschaftliche Beziehungen dürfte es weniger geben, aber eine Exceltabelle genügt vollkommen. Als csv abspeichern, in Gedcom konvertieren, zur bestehenden Gedcom hinzufügen, fertig!

Wie gut ist Transkribus mit ganzen Kirchenbüchern?
Muss ich mir ein neues Hobby suchen?

Sorry für den Smiliealarm, aber ich bin gerade echt begeistert über die Möglichkeiten der neuen Technik. Eines der nächsten Zoom-Meetings könnte sich mit den Details beschäftigen. Was genau muss ich in welcher Reihenfolge tun, um ChatGPT Ergebnisse zu entlocken? Ich nutze die KI bisher nur privat.

Grüße
Silvia

Heinz_Keizer1 · 8. Mai 2023 um 07:06

Hallo,
ich kann diese Euphorie nicht ganz teilen. Habe vor vor ca. 14 Tagen ChatGPT mal getestet und nach „Balsberg“ gefragt. Es kannte nur „Balsberg“ bei Zürich, nicht aber den Balsberg bei Unterwössen. Nun ja, der kommt zwar auch in digital zugänglicher Literatur vor, ist aber unbedeutend. Dann habe ich nach „Rettenburg“ bei Unterwössen gefragt. Da habe ich mehr Informationen bekommen, die aber zu 90 % falsch oder Unsinn waren. Für mich ist ChatGPT derzeit keine Option. Werde das weiter beobachten.
Gruß
Heinz (Keizer)

Hermann_Hartenthaler · 8. Mai 2023 um 07:13

Stimmt. An Ortschroniken hatte ich noch gar nicht gedacht. Aber ja, hier auf meinem Tisch liegt auch eine aus der ich hin und wieder etwas entnehme. Nun kann man das wohl bald systematisch erschließen.

An den Weg über eine Excel-Tabelle hatte ich erst auch gedacht, aber wie gesagt ChatGPT bietet direkt GEDCOM an. Es ist so einfach. Ich werde heute noch meine Prompts hier einstellen. Dann kannst Du es nachvollziehen.

Ein neues Hobby brauchen wir uns aber, glaube ich, noch nicht zu suchen. Der spannendste Teil ist für mich das Zusammenpuzzeln der Informationsbruchstücke. Und das wird bleiben. In meiner Ortschronik taucht sicher 10 mal der Name Josef Baumgärtner auf, drei Menschen tragen diesen Namen. Also welche Information gehört zu wem? Das ist und bleibt wohl eine Herausforderung für mich.

Hermann_Hartenthaler · 8. Mai 2023 um 08:33

Das stimmt, ChatGPT kennt nur Fakten, die in dem Material, mit dem die KI trainiert worden ist, vielfach vorkommen. Wie auch. ChatGPT hat keinen Zugang zu Ortsdatenbanken.

ChatGPT ist ein äußerst mächtiges Werkzeug zum Umgang mit Texten, aber es ist keine wissensbasierte KI. Man kann diese KI Texte analysieren lassen, kann sie Gedichte verfassen lassen, aber Geografie und Mathematik sind nicht ihre Stärken.

Heinz_Keizer1 · 8. Mai 2023 um 09:00

Das mit dem Balsberg habe ich ihm ja nachgesehen, aber den Unsinn über die Rettenburg nicht. Das hatte mit Geographie nichts zu tun. Wenn es wenigstens Quellenangaben gäbe, könnte man das nachvollziehen. Beim Ursprungsbeitrag ging es ja um was anderes. Aber ich bin gegenüber ChatGPT skeptisch.

Grduß
Heinz

Hermann_Hartenthaler · 8. Mai 2023 um 09:18

Das ist sinnvoll. ChatGPT kann gut fabulieren, aber kann Fakten und Fiktion nicht auseinander halten und erfindet lieber Quellen als echte Quellen zu nennen. Aber man kann ChatGPT bitten bei einer Textanalyse auf das Halluzinieren zu verzichten und dann klappt das auch super.

KlausPGraf · 8. Mai 2023 um 10:32

Hallo Hermann,
hast Du denn auch schon mal die „Gegenprobe“ gemacht, also ob ChatGPT aus GEDCOM- bzw. Excel-Daten einen - sinnvollen, faktenbasierten - Text, etwa für Biographien oder Familienchroniken, machen kann?
Das in Deinem Versuch hinzu gedichtete / halluzinierte Schulerlebnis Deines Großvaters lässt da ja eher „Märchen“ erwarten.
Gruß
Klaus

Silvia_Diessner · 8. Mai 2023 um 12:25

Das wäre großartig. Ich werde das sicher mit einer Seite aus einer Chronik ausprobieren.
Und ja, es stimmt, die Puzzlearbeit und die AHA-Erlebenisse, wenn eine Familie sinnvoll geordnet ist, bleibt uns (vorerst?) erhalten.

Hermann_Hartenthaler · 8. Mai 2023 um 12:34

Ich selbst habe es noch nicht ausprobiert, aber ich habe Beispiele dazu gefunden (siehe etwa Writing Reports from GEDCOM Data). Das klappt sehr gut. Man bekommt eine richtige Geschichte in erzählender Form. Wenn man will mit erfunden Dingen angereichert oder eben auch nur basierend auf dem, was in der GEDCOM steht. Und man kann den Erzählstil an seine Präferenzen anpassen, eher sachlich nüchtern oder eher emotional. Oder auch in der Form einer Ich-Erzählung, was ich sehr schön finde.

Was ich probiert habe: ich nehme den Text, den etwa ein webtrees-Modul im erzählenden, aber etwas hölzernen, Stil produziert und packe ihn in ChatGPT und lass die Geschichte sprachlich aufpolieren. Das ist eindrucksvoll, aber noch nicht perfekt. Aber man könnte das webtrees-Modul so anpassen, dass es den selbst erzeugten Text vor der Ausgabe noch schnell per Web-API an ChatGPT schickt und dann das so verbesserte Ergebnis ausgibt.

Hermann_Hartenthaler · 8. Mai 2023 um 12:42

Es gibt übrigens auch eine englisch-sprachige Facebook-Gruppe zum Thema „Genealogie und KI“.

Hermann_Hartenthaler · 8. Mai 2023 um 13:08

Was übrigens auch noch spannend bei den KI’s ist: man kann sie kombinieren und hintereinander hängen, also das Ergebnis der einen KI in die nächste als Input einfüttern.

Als Beispiel:

ich habe eine alte Sprachaufzeichnung in der mein Großvater spricht; daraus kann man die charakteristischen Merkmale seiner Stimme/Sprechweise inkl. seines oberösterreichischen Dialekts ermitteln (KI 1)
nun nehme man KI 2 und gebe ihr GEDCOM aus dem Stammbaum mit den dort zur Verfügung stehenden Informationen, erzeuge einen erzählenden Bericht in der Ich-Form
nun füttere man die KI 1 mit der Ich-Erzählung und lasse sie eine Audio-Ausgabe produzieren und schon erzählt die Stimme meines längst verstorbenen Großvaters seine eigene Lebensgeschichte. Gruselig nett.

Silvia_Diessner · 8. Mai 2023 um 13:59

Ja, vollkommen gaga.
Du nutzt die KI offenbar schon länger und sehr viel intensiver. Ich bin bisher über Rezepte und Alltagsfragen nicht hinaus gekommen.

Ich würde mich wirklich freuen, wenn hier ein Austausch und gegenseitiges Helfen mit der neuen Technik entsteht.

Ist es denn in naher Zukunft tatsächlich denkbar, dass bspw. eine ganze Chronik sinnvoll ausgewertet wird? Sicherlich nur mit der Bezahl-Version. Was kostet diese? Vielleicht etabliert sich da so was Ähnliches wie Archion? Eine Firma, Institution, Verein (CompGen?) erwirbt eine Lizenz und erteilt Unterlizenzen, also einen zeitlich befristeten Zugang zur Bezahl-KI. Keine Ahnung, ob sowas im Geschäftsmodell von AI vorgesehen ist, aber interessant wäre es schon. Oder es wird irgendwann so preiswert, dass es jeder wie ein ganz normales Programm kaufen kann.

Also die KI sagt dazu folgendes:

Was kostet du?

ChatGPT

Als KI-Modell habe ich keine Kosten im herkömmlichen Sinne. Ich bin ein Produkt von OpenAI und mein Zugang kann über verschiedene Abonnementpläne oder Lizenzen erworben werden. Unternehmen und Entwickler können mit OpenAI Kontakt aufnehmen, um Informationen über die Preisgestaltung und die zur Verfügung stehenden Pläne zu erhalten.

Wenn du mich als Chatbot nutzt, hast du möglicherweise Zugriff auf mich über eine Plattform oder Anwendung, die möglicherweise Gebühren erhebt. In diesem Fall solltest du dich an den Anbieter der Plattform oder Anwendung wenden, um Informationen über deren Preise zu erhalten.

Es ist wichtig anzumerken, dass ich, als ein freier OpenAI-Chatbot, kostenlos über die OpenAI-Plattform zur Verfügung gestellt werde.

Thomas_Diessel · 8. Mai 2023 um 17:40

Das ist ein interessanter Versuch. Aber das fehlende Faktenwissen von ChatGPT mit „halluziniert“ nebenbei zu behandeln, ist zu wenig. Dies disqualifiziert ChatGPT für die Ahnenforschung, zumindest für diesen Anwendungsfall. Interessant wären allenfalls Ansätze zur Erkennung von bislang unentdeckten Verbindung. Dann kann aber ChatGPT aber auch nur Vorschläge machen, die dann von Menschen überprüft werden müsse.
Ich fürchte nun, daß naive Ahnenforscher mit solchen ChatGPT-Genealogien die öffentlichen Datenbanken befüllen und so die Datenqualität reduzieren.

Hermann_Hartenthaler · 8. Mai 2023 um 18:30

Ich stimme dir generell zu, aber diese Aussagen von Dir ist einfach falsch. Man kann ChatGPT einfach bitten bei einer Textanalyse nicht zu halluzinieren und dann passiert das, nach allem was ich weiß, auch nicht.

Trotzdem muss man die Ergebnisse ansehen. In meinem Versuch hat ChatGPT „überlesen“ oder nicht verstanden, dass in der Biografie steht, dass der älteste Bruder „von der Mutter ledig in die Ehe eingebracht“ worden ist. ChatGPT hat ihn als ehelich angelegt anstatt eine neue Familie für ihn zu erzeugen. Trotzdem ist das Tool aus meiner Sicht eine große Hilfe.

Hermann_Hartenthaler · 8. Mai 2023 um 19:13

Das konnte ich natürlich nicht stehen lassen und habe versucht es zu korrigieren.

Mein Prompt im alten Chat:

Du hast bei der Analyse der Biografie meines Großvaters korrekt erkannt, dass sein ältester Bruder Franz „von der Mutter ledig in die Ehe eingebracht worden ist“. Verstehst Du, dass „ledig einbringen“ bedeutet, dass die Mutter vor der Beziehung zu ihrem Ehemann eine Beziehung zu einem anderen Mann hatte aus der dieser Sohn Franz stammt?

ChatGPT

Ja, ich verstehe den Ausdruck „von der Mutter ledig in die Ehe eingebracht“ so, dass die Mutter vor ihrer Beziehung mit dem Ehemann eine Beziehung zu einem anderen Mann hatte, aus der der älteste Bruder Franz hervorgegangen ist. Der Ausdruck „ledig“ bedeutet in diesem Kontext, dass die Mutter zum Zeitpunkt der Geburt von Franz nicht mit dem späteren Ehemann verheiratet war. Es scheint, dass die Mutter Franz in die Ehe mit dem Ehemann gebracht hat, was bedeutet, dass der Ehemann bereit war, Franz als sein eigenes Kind anzunehmen und ihn als Teil der Familie aufzuziehen, obwohl er nicht biologisch mit ihm verwandt war.

Ich

Genau! Wenn Du dann aber GEDCOM erzeugst und Franz als ehelich dem späteren Vater zuordnest, ist das falsch. Du musste eine weitere Familie mit „0 @F2@ FAM“ anlegen und dort die Mutter und den Sohn Franz zuordnen.

ChatGPT

Entschuldigung für das Missverständnis. Du hast Recht, um die Beziehung zwischen der Mutter und ihrem ältesten Sohn Franz korrekt in der GEDCOM-Datei darzustellen, muss eine separate Familie für sie erstellt werden. Hier ist die überarbeitete Version der GEDCOM-Daten, die die korrekte Struktur berücksichtigt:

0 HEAD
1 SOUR MyGenealogyApp
2 NAME OpenAI Genealogy Generator
2 VERS 1.0
3 VEND OpenAI
4 DATA GEDCOM

0 @I1@ INDI
1 NAME Rudolf /Hartenthaler/
1 SEX M
1 BIRT
2 DATE 23 FEB 1907
2 PLAC Kleinmünchen 123
1 FAMC @F1@

0 @I2@ INDI
1 NAME Maria /Hartenthaler/
1 SEX F
1 BIRT
2 DATE <MOTHER_BIRTH_DATE>
2 PLAC <MOTHER_BIRTH_PLACE>

0 @I3@ INDI
1 NAME Josef /Hartenthaler/
1 SEX M
1 BIRT
2 DATE <MOTHER_BIRTH_DATE>
2 PLAC <MOTHER_BIRTH_PLACE>

0 @I4@ INDI
1 NAME Franz /Hartenthaler/
1 SEX M
1 BIRT
2 DATE <FRANZ_BIRTH_DATE>
2 PLAC <FRANZ_BIRTH_PLACE>
1 FAMC @F2@

0 @F1@ FAM
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I3@

0 @F2@ FAM
1 MARR
2 DATE <MOTHER_AND_HUSBAND_MARRIAGE_DATE>
2 PLAC <MOTHER_AND_HUSBAND_MARRIAGE_PLACE>
1 HUSB @I1@
1 WIFE @I2@
1 CHIL @I4@

0 TRLR

Bitte beachte, dass einige Informationen wie die Geburtsdaten und -orte der Mutter und von Franz fehlen, da sie im vorherigen Text nicht angegeben wurden. Du solltest diese Informationen entsprechend ergänzen.

Ok, ein Versuch war es wert. Da stimmt jetzt aber im GEDCOM sehr vieles nicht mehr. Ich habe es dann kurz danach aufgegeben. Eigentlich muß man jetzt einen neuen Chat beginnen und von vorne anfangen. Mal sehen, ob ChatGPT etwas dazu gelernt oder den gleichen Fehler wieder macht. Irgendwann mehr dazu.

Hermann_Hartenthaler · 8. Mai 2023 um 19:40

Wie versprochen hier meine Prompts zur Analyse der Biografie meines Großvaters. Wichtig ist, dass man einen neuen Chat startet. ChatGPT greift im Dialog auf das zurück, was zuvor besprochen worden ist. Wir brauchen hier aber eine grüne Wiese.

Prompt

Bitte erstelle aus dem folgenden Text eine erste Tabelle mit den wichtigsten Daten und Fakten. Die Spalten sollen sein: Wer, Wann, Was. Bitte verwende dabei nur den vorliegenden Text. Erstelle zusätzlich eine zweite Tabelle mit allen vorkommenden Personen. Gib dabei das Verhältnis zum Ich-Erzähler an und die Eigenschaft oder das Ereignis, das genannt wird.

Dann habe ich den transkribierten Text dahinter kopiert (am besten mit Shift-Return eine neue Zeile anfangen und dann den Text einfügen.

Ok, es funktioniert prinzipiell, aber nun will ich ja in Richtung GEDCOM vorankommen, also:

Prompt

Bitte erstelle aus dem folgenden Text eine Tabelle mit den wichtigsten Daten und Fakten zu allen vorkommenden Personen. Die Spalten sollen sein: Wer, Verhältnis zum Ich-Erzähler, Wann, Was. Bitte verwende dabei nur den vorliegenden Text.

Wichtig ist immer der Hinweis, dass man kein „Halluzinieren“ wünscht.

Ok, das passt.

Prompt

Wandle diese Tabelle in das GEDCOM-Format um.

0 @I1@ INDI
1 NAME Ich-Erzähler
1 BIRT
2 DATE 23 FEB 1907
2 PLAC Kleinmünchen 123
1 FAMC @F1@

0 @I2@ INDI
1 NAME Vater
1 OCCU Arbeiter
1 FAMS @F1@

0 @I3@ INDI
1 NAME Mutter
1 OCCU Maurerhelferin
1 FAMS @F1@

0 @I4@ INDI
1 NAME Franz
1 FAMC @F1@

0 @I5@ INDI
1 NAME Maria
1 FAMC @F1@

0 @I6@ INDI
1 NAME Josef
1 FAMC @F1@

0 @F1@ FAM
1 HUSB @I2@
1 WIFE @I3@
1 CHIL @I1@
1 CHIL @I4@
1 CHIL @I5@
1 CHIL @I6@

Da der Kopf und das Ende der GEDCOM-Struktur noch fehlen:

Prompt

Füge zu den oben erzeugten GEDCOM-Daten noch den Kopf und das Ende einer GEDCOM-Datei hinzu.

Selbstverständlich, hier ist eine vollständige GEDCOM-Datei, die die zuvor erstellten genealogischen Daten enthält, einschließlich Header und Trailer:

0 HEAD
1 SOUR ChatGPT
2 VERS 1.0
2 NAME OpenAI
1 DATE 6 MAY 2023
2 TIME 12:00:00
1 SUBM @U1@
1 GEDC
2 VERS 5.5
2 FORM LINEAGE-LINKED
1 CHAR UTF-8
1 LANG German
1 FILE Hartenthaler.ged
1 CORP OpenAI
0 @U1@ SUBM
1 NAME ChatGPT
1 ADDR https://openai.com/
2 CTRY USA
0 @I1@ INDI
1 NAME Ich-Erzähler
1 BIRT
2 DATE 23 FEB 1907
2 PLAC Kleinmünchen 123
1 FAMC @F1@

0 @I2@ INDI
1 NAME Vater
1 OCCU Arbeiter
1 FAMS @F1@

0 @I3@ INDI
1 NAME Mutter
1 OCCU Maurerhelferin
1 FAMS @F1@

0 @I4@ INDI
1 NAME Franz
1 FAMC @F1@

0 @I5@ INDI
1 NAME Maria
1 FAMC @F1@

0 @I6@ INDI
1 NAME Josef
1 FAMC @F1@

0 @F1@ FAM
1 HUSB @I2@
1 WIFE @I3@
1 CHIL @I1@
1 CHIL @I4@
1 CHIL @I5@
1 CHIL @I6@
0 TRLR

Die erzeugte GEDCOM-Datei ist weitgehend standardkonform. Es werden aber Leerzeilen erzeugt, die im Standard nicht vorgesehen sind. Das Programm webtrees importiert die Datei aber ohne Murren und verwirft die Leerzeilen. Von webtrees wird nur eine Zeile im Kopf der Datei bemängelt: HEAD:CORP ist ein Tippfehler, der hier ChatGPT unterlaufen ist: es müsste HEAD:COPR lauten (für Copyright).

Wahrscheinlich kann man die Prompts 2 , 3 und 4 zu einem zusammenfassen. Dann geht es in einem Rutsch. Kein Hexenwerk.

Den erzeugten GEDCOM-Code kann man mit einem Klick auf das kleine Copy-Icon in die Zwischenablage kopieren, dann in einem Editor einfügen und als .ged Datei abspeichern. Im Genealogieprogramm einlesen. Fertig.

Silvia_Diessner · 8. Mai 2023 um 21:02

Diese Befürchtung teile ich nicht. Es erfordert schon noch einigen Aufwand von einer bspw. Biografie zu einer fertigen Gedcom zu kommen. Die Qualität der Daten schwankt auch heute schon sehr stark, so dass eine ungeprüfte Übernahme eher keine gute Idee ist.

Herlichen Dank!
Jetzt habe ich verstanden, welche Fragen man ChatGPT stellen muss, um solche Ergebnisse zu erzielen. Dass aber die einfache Aufforderung, die Tabelle in eine Gedcom umzuwandeln, tatsächlich fehlerfrei funktioniert, ist für mich schon ein bisschen Hexenwerk.

Hermann_Hartenthaler · 8. Mai 2023 um 21:45

Genau deshalb war ich ja so was von den Socken, als ich es ausprobiert habe. Nur deshalb ist der Blog-Artikel hier entstanden.

Hermann_Hartenthaler · 9. Mai 2023 um 16:13

@Silvia_Diessner bist Du schon dazu gekommen mit einer Seite aus einer Deiner Ortschroniken mit ChatGPT zu arbeiten? Sollen wir es gemeinsam angehen?

Gerade lese ich, dass es Jesper @jzedlitz gelungen ist, eine serielle Quelle mit einer anderen KI erfolgreich auszuwerten. Jesper versteht davon viel mehr als ich, daher freut mich sein Urteil: