ChatGPT “spricht” GEDCOM - Revolutionäre Möglichkeiten für die Genealogie

Hallo zusammen, habe mal einen Versuch mit meinen Daten gemacht. Kann das Ergebnis hier nicht veröffentlichen, da noch lebende Personen betroffen sind. Für einen ersten Versuch nicht mal so schlecht, wenn man davon absieht, dass ChatGPT unseren Schwiegersohn zu einem unehelichen Kind meiner Frau gemacht hat.

1 „Gefällt mir“

Ich würde keine vertraulichen Daten an eine KI weitergeben. Die Nutzungsbedingungen sehen üblicherweise vor, dass die übergebenen Daten für das weitere Training der KI genutzt werden dürfen. Das heißt, dass die KI die vertraulichen Informationen lernt. Und jeder andere Nutzer, der die KI fragt, kann diese vertraulichen Informationen dann ggf. abfragen.

2 „Gefällt mir“

Was verstehen sie unter vertraulichen Daten?

Gruß Georg Klein

1 „Gefällt mir“

Zum Beispiel Daten von lebenden Personen.

Viele Grüße
Peter (Schulz)

1 „Gefällt mir“

Ja, Daten von lebenden Personen gehören für mich als Ahnen- und Familienforscher dazu. Aber auch Daten zur DNA, zu genetischen Krankheiten bei den Vorfahren.

Oder im kommerziellen Umfeld Angaben zu Firmengeheimnissen, etc.

Im allgemeinen privaten Umfeld sind das für mich etwa Finanzdaten, Kontonummern, Passwörter, …

2 „Gefällt mir“

Ein Beitrag wurde in ein neues Thema verschoben: Ein Kurs am HPI

2 Beiträge wurden in ein neues Thema verschoben: Was versteht ChatGTP wirklich?

Angeregt durch einen Vortrag im Rahmen der Konferenz „Digital History 2023“ in Berlin gestern,

  • Sofia Baroncini, Marilena Daquino, Francesca Tomasi:
    Are domain-specific theoretical approaches valuable for the application of new computational methods? The case study of Erwin Panofsky’s artworks interpretations and the semantic web

habe ich ChatGPT um eine kunsthistorisch fundierte Bildbeschreibung eines Gemäldes gebeten. Ich kenne mich damit kaum aus, aber die unten stehende Antwort hat mich beeindruckt und deckt sich mit dem, was ich im Vortrag der Referentin gelernt habe. Dieses Beispiel hat keinen Bezug zur Genealogie, aber der nächste Vortrag in dieser Session drehte sich um eine KI-Anwendung in der Heraldik und hatte da dann schon eine inhaltliche Nähe zu unseren Themen.

Mein Prompt

Bitte interpretiere das Bild „Tityos“ von Michelangelo Buonarroti indem Du der Theorie von Panofsky folgst.

ChatGPT

Unter Anwendung der Panofsky-Theorie zur Kunstinterpretation können wir das Gemälde „Tityos“ von Michelangelo Buonarroti analysieren.

Auf der ikonographischen Ebene zeigt das Gemälde die mythologische Figur Tityos, der für seine Sünde bestraft wird. Der ikonographische Ansatz besteht darin, die dargestellten Symbole, Motive und Figuren zu identifizieren und ihre Bedeutung zu erforschen. In diesem Fall verkörpert Tityos die Figur des sündigen Menschen, der göttliche Strafe erleidet. Der Geier, der seine Leber frisst, repräsentiert die Strafe und die ewige Qual.

Auf der ikonologischen Ebene können wir die Beziehung zwischen den symbolischen Elementen untersuchen, um die tiefere Bedeutung und Botschaft des Gemäldes zu verstehen. In der griechischen Mythologie wird Tityos bestraft, weil er versuchte, eine Göttin zu vergewaltigen. Diese Darstellung kann als Warnung vor den Konsequenzen unmoralischen Verhaltens und göttlicher Vergeltung interpretiert werden. Das Gemälde könnte somit moralische und ethische Überlegungen hervorrufen und den Betrachter zur Reflexion anregen.

Auf der stilgeschichtlichen Ebene können wir die stilistischen Merkmale des Gemäldes analysieren. Michelangelo ist bekannt für seinen kraftvollen Stil, seine muskulösen Figuren und die Präsenz von Anatomiedetails. Das Gemälde zeigt eine meisterhafte Beherrschung der menschlichen Figur und eine eindringliche Darstellung von Emotionen. Dieser Stil spiegelt Michelangelos Fähigkeiten als Bildhauer wider und unterstreicht seine einzigartige künstlerische Vision.

Zusammenfassend lässt sich sagen, dass das Gemälde „Tityos“ von Michelangelo Buonarroti auf der ikonographischen Ebene die mythologische Geschichte darstellt, während es auf der ikonologischen Ebene moralische und ethische Überlegungen anregt. Auf der stilgeschichtlichen Ebene zeigt das Gemälde Michelangelos künstlerische Fähigkeiten und seinen individuellen Stil. Durch die Anwendung der Panofsky-Theorie können wir eine umfassende Interpretation des Gemäldes erhalten und seine Bedeutung im Kontext von Kunst, Mythologie und Ethik erfassen.

Hallo,

vielleicht interessiert Euch diese Veröffentlichung des Büros für Technikfolgenabschätzung beim Bundestag, auch wenn es nicht um GEDCOM etc. geht.

ChatGPT und andere Computermodelle zur Sprachverarbeitung – Grundlagen, Anwendungs-
potenziale und mögliche Auswirkungen

Schöne Grüße,
Renate

2 „Gefällt mir“

Vielen Dank für diesen Link, @Renate_CG ! Ich habe das Papier gerade ganz durchgelesen und finde es sehr gut recherchiert und geschrieben. Viele Themen werden angesprochen, auf Grund der rasanten Entwicklung aber natürlich teilweise nur angerissen. Viele gute Informationen und eine sehr umfangreiche Literatursammlung!

Was etwas zu kurz kommt, ist der Einsatz von ChatGPT als Werkzeug zur Textanalyse und als Hilfsmittel bei der Erstellung von Code (etwa GEDCOM), so wie ich es im ursprünglichen Blog-Beitrag beschrieben habe. Da fallen dann etliche Risiken weg.

1 „Gefällt mir“

Heute ist die Aufzeichnung meines Vortrags "ChatGPT in der Genealogie mit praktischen Beispielen” vom letzten CompGen-Meeting bei YouTube eingespielt worden.

3 „Gefällt mir“

Hallo Silvia, Hermann und Interessierte,

irgendwo (Compgen-Mailingliste) habe ich gelesen, es sei geglückt, eine längere Ortschronik mit Hilfe von ChatGPT in GEDCOM bzw. in Tabellenform umzusetzen.

Leider habe ich den konkreten Bericht darüber nicht gefunden. Weiter oben in diesem Thread wird berichtet, dass das grundsätzlich mit einzelnen Seiten oder den etwa 2000 Zeichen, die ChatGPT mit einer Anfrage verarbeitet, funktioniert.

Meine Frage: Hat es irgendwo in der Masse, also im Praxis-Einsatz, funktioniert. Selbst mit der kostenpflichtigen Version mit ChatGPT 4.0 besteht ja die Mengenbeschränkung fort. Meine Erfahrung ist auch: Je mehr Komplexität man ChatGPT in einer einzigen Anfrage „unterjubelt“, um so eher passieren Fehler.

Übrigens ist es auch keine Alternative, mit PDF-Zusätzen, sei es PDFGear, ChatPDF oder Plugins zur kostenlosen Version zu arbeiten: Da findet ChatGPT zwar sehr beeindruckend auch seitenübergreifende Zusammenhänge, aber eine Personenliste extrahieren etc. geht nur schlecht. Es scheint, dass bei solchen PDF-Tools immer nur die drei PDF-Seiten mit den für die Anfrage relevantesten Treffern verarbeitet werden, alles andere wird ignoriert.

Ich möchte dabei die Möglichkeiten keineswegs schlecht reden. Gerne lasse ich mich eines Besseren belehren (und sich werden die Möglichkeiten in Zukunft besser werden) und würde Erfahrungen austauschen. Aber hat wirklich jemand eine ganze, mehr als wenige Seiten umfassende Ortschronik, OFB, Ahnenliste o. ä. mit praxistauglichem Arbeitsaufwand mit KI umsetzen können?

Viele Grüße
Christopher (Ernestus)

1 „Gefällt mir“

Hallo Christopher,

ich hatte da etwas vorgearbeitet, aber Silvia hat das dann in drei oder vier Tagen durchgezogen.
Es ging um eine gescannte Chronik, die Texte aus mehreren Jahrhunderten enthielt. Das pdf mit etwa 350 Seiten war „durchsuchbar“, aber es hat sich herausgestellt, dass die OCR-Qualität teilweise lausig war. Viele Stellen waren kaum leserlich (Unmengen von Schmierzeichen). Insgesamt ging es darum zu über 1.000 Personen, die in der Chronik vorkommen, einige Lebensdaten herauszudestillieren. Es hat funktioniert ChatGPT immer ein paar Seiten zur Auswertung vorzuwerfen. Man kann die OCR-Fehler gut korrigieren lassen, kann Worttrennfugen und Seitenkopf und -Fuß entfernen. Dann kann man für diese Seiten die Personen ermitteln und als Tabelle darstellen lassen. Nie mehr als vielleicht 10 Seiten mit vielleicht 30 Personen maximal. Die Tabellen kam man direkt nach GEDCOM wandeln, aber Silvia hat sie - glaube ich - in Excel gesammelt und dann am Ende mit GedTool nach GEDCOM gewandelt.

Mein Fazit: es geht (noch) nicht 300 Seiten lausig transkribierten Text in einem Zug nach 1.000 Personen und zugehörigen Fakten durchsuchen zu lassen. Aber man kann es in wenigen Tagen schaffen. Toll zu sehen, wie ein OFB so in kurzer Zeit um so viele Personen wachsen kann. Klar bleibt dann immer noch viel Aufwand die Qualität zu sichern, doppelte Personen zu verschmelzen etc. Wenn man es zuvor versucht hätte, hätte man für das selbe Ergebnis etwa 10 mal so lange gebraucht - oder man hätte 10 mal so viele Personen zur Auswertung gebraucht. Das ist die durch ChatGPT derzeit erreichbare Effizienzsteigerung.

Was gut geht: man kann ChatGPT gezielt nach Ereignissen befragen, die irgendwo in den 300 Seiten an genau einer Stelle vorkommen. Man bekommt dann eine gut verständliche und korrekte Darstellung des Ereignisses.

Hallo Hermann,

schlechte OCR-Qualität kann sicher ein Problem sein, aber ich habe mich an einer Stammfolge und Ahnenlisten versucht, die aus der eigenen Familie stammen und daher als Word-Dokument bzw. vollständiges PDF vorliegen. Meine ersten Versuchen mit ChatGPT waren etwas ernüchternd, obwohl es eben prinzipiell funktioniert. Man muss die Daten in sehr kleinen „Häppchen“ verarbeiten lassen und ständig auf die Qualität achten. Gerne „vergisst“ ChatGPT auch mal Personen, verändert die vorgegebene Tabellenstruktur leicht, lässt Angaben wie Paten, Adressen, umfangreiche Berufsangaben auch mal gerne weg (obwohl anders vorgegeben) usw. Die Nacharbeiten, wenn man das zu spät bemerkt, sind erheblich.

Zumindest sollte man wohl bei jedem Prompt die Aufgabenbeschreibung komplett wiederholen (also nicht: „und hier die nächsten Rohdaten: …“).

Dass inzwischen 50 statt 25 Anfragen beim kostenpflichtigen ChatGPT innerhalb von 3 Stunden möglich sind, macht ein kontinuierliches Arbeiten (vor allem wenn man beruftstätig oder sonst zeitlich gebunden ist) deutlich einfacher.

Sicher ist die Methode mit ChatGPT erheblich schneller als alles abzutippen, ganz klar. Nur frage ich mich ernsthaft, ob nicht geschickte Such-/Ersetz-Strategien (wobei ChatGPT auch hier durchaus z. B. beim Erstellen von RegEx-Ausdrücken Arbeit abnehmen kann) und Tabellenoperationen am Ende der schnellere und sicherere Weg sind. Das ist wirklich eine für mich offene Frage, deshalb beobachte ich interessiert weitere Erfahrungen.

Viele Grüße
Christopher (Ernestus)

1 „Gefällt mir“

Die Lösung ist sicherlich der seit einigen Wochen verfügbare „Code Interpreter“ Modus von ChatGPT (in der Bezahlversion). Da kann man automatisiert ein beliebig langes Dokument in Häppchen zerschneiden, ChatGPT zur Interpretation vorwerfen, und die Ergebnisse in einer Tabelle sammeln. Dazu entwirft ChatGPT selber ein Programm und führt es auch gleich aus. In dem Programm kann man dann natürlich auch reguläre Ausdrücke etc nutzen. Aber im Gegensatz zur Standardversion kann der Code Interpreter kein GEDCOM erzeugen, man muss ihm das erst beibringen und daran bin ich bislang gescheitert.

Danke für den interessanten Hinweis, dass der Code Interpreter auch Daten-Dateien verarbeiten kann und dann praktisch den Code dafür selbst erzeugt.

Dass der Code Interpreter nicht gleich GEDCOM erzeugen kann, finde ich nicht problematisch, da es professionelle Tools dafür gibt, aus entsprechend formatierten Tabellen GEDCOM zu erzeugen, z. B. Ahnenblatt oder GedTool.

Hallo Christopher,

sorry für die späte Antwort, ich habe erst jetzt die letzten Posts gelesen.

Es ist so, wie Hermann schrieb. Ich habe eine komplette Chronik mit ChatGPT ausgewertet. Macht ein paar Tage Arbeit, hat aber - zumindest für mich - gute Ergebnisse gebracht.
Wichtig ist, dass man möglichst nur drei bis vier Seiten einliest, und vor allem auch keine zu komplexen Fragen stellt. Ich habe nur nach Name, Jahr der Erwähnung und dem Beruf gefragt und mir diese Daten in einer Exceltabelle darstellen lassen.
Im Ergebnis hatte ich eine Gedcom mit ca. 1100 Personen, die ich dem bestehenden Ortsfamilienbuch hinzugefügt habe. Nun besteht die Aufgabe darin, doppelte Personen zu verschmelzen. Es stellt sich aber heraus, dass die ChatGPT-Datei viele neue Personen enthält, die so noch nicht vorhanden waren (bspw. weil vor Beginn der Kirchenbücher). Außerdem gibt es auch zu vorhandenen Personen viele wertvolle neue Informationen. Bspw. enthält die Chronik alle 100 Brauhausbesitzer im Jahr 1795.
Sicherlich kann man grundsätzlich eine Chronik dahingehend auch manuell auswerten, ich finde diese Variante abeer deutlich komfortabler.

1 „Gefällt mir“

Es gibt ein herausragendes neues Video von Steve Little (in Englisch) bei YouTube, speziell für Einsteiger bzgl. KI:

WebTrees Symposium: „A.I. and Genealogy: The Basics and a Bit Beyond“

Hallo Silvia,

vielen Dank für Deine Antwort. Das erklärt auch, warum wir etwas unterschiedliche Erfahrungen gemacht haben. Deine GEDCOM enthält, wenn ich es richtig sehe, jeweils nur eine Einzelinformation (Erwähnung) pro Person. Ab einer gewissen Komplexität (z. B. Personen mit Kindern, deren Ehepartnern, den Schwiegereltern und vielleicht noch weiteren Ehepartnern) kommt ChatGPT leicht aus dem Tritt und dann wird der Aufwand fürs manuelle Nacharbeiten doch nicht unbeträchtlich. Auch Dein Hinweis auf die Mengenbegrenzung (höchstens 3-4 Seiten) je Anfrage ist schon wichtig, das deckt sich mit meinen Erfahrungen. Zurzeit gibt es ja (in der Bezahlversion) die Begrenzung auf 25 Prompts in 3 Stunden nicht mehr, aber als das noch galt, war mit notwendigen Rückfragen und Nachbesserungsaufforderungen schnell am Limit und dann musste sich erst mal wieder mit anderen Dingen beschäftigen.

Mit der Variante, mit „Advanced Data Analysis“ (vormals „Code Interpreter“) den Code für ein Programm schreiben zu lassen, was dann auch etwas größere Textmengen verarbeitet, habe ich mich aus Zeitmangel noch nicht beschäftigen können.

Hier mal ein Beispiel wie meine Abfragen bezüglich der ausgewerteten Chronik aussahen. Der Text ist teils ziemlich kryptisch, das Ergebnis dennoch ganz passabel.