ChatGPT wird multimodal

Derzeit werden neue Funktionen von ChatGPT freigeschaltet, die dieser KI Augen, Ohren und Stimme geben. In den ChatGPT-Apps auf Android- und iOS-Smartphones kann man nun mit ChatGPT sprechen und bekommt die Antworten dann auch wieder per Sprache. Nichts wirklich aufregendes, denn Nutzer von Smartphones sind den Dialog per Sprache schon von diversen Anwendungen her seit langem gewohnt.

Bedeutender für die Genealogie ist, dass man zukünftig nicht nur Text (ggf. in gesprochener Form) als Eingabe für ChatGPT verwenden kann, sondern, dass die KI nun auch Bilder entgegennimmt und diese interpretiert. Wo bisher vor der Auswertung eines Bildes erst einmal die dort abgebildeten Texte per OCR erkannt werden mussten, kann dies nun ChatGPT gleich selber übernehmen. Wie gut das funktioniert, müssen die Tests noch zeigen. Leider warte ich noch auf die Freischaltung dieser neuen Funktion, aber es gibt erste sehr vielversprechende Tests aus den USA von Stephen Little.

In seinem Artikel berichtet er u.a. über einen Test, bei dem ChatGPT genealogische Daten aus der Abbildung einer Stammtafel extrahiert und diese dann in eine Liste speichert. Bei einem Fächerdiagramm gab es anfangs Schwierigkeiten mit der Erkennung der gekrümmt dargestellten Namen und Daten in den inneren Sektoren des Fächerdiagramms. Bei einem linearen Stammbaumdiagramm gelang es gut, die Daten zu extrahieren und in eine Ahnenliste umzusetzen.

Die Fähigkeit, Bilder in genealogisch nützliche Daten umzuwandeln, ist ein weiterer wichtiger Meilenstein in der Nutzung von KI in der Genealogie. Wenn ihr in eurem Archiv noch gedruckte oder gar handgemalte Stammbäumen habt, deren Erfassung euch bisher zu aufwändig erschien, dann ist jetzt die Zeit diese herauszukramen. Demnächst wird man sie sehr effizient in GEDCOM wandeln können.