Gescannten Text (PDF) weiterverarbeiten

Liebe KI-Kennende,

ein in Fraktur gedrucktes Buch mit einer Familiengeschichte wurde gescannt, die Scans liegen als PDF vor.

Die Familiendaten sollen in ein Genealogieprogramm eingetragen oder als GEDCOM-Datei importiert werden.

Könnte es mit KI leichter gehen, als die 200-250 Personen mit sämtlichen Angaben abzutippen?
Wie kann welche KI bei den einzelnen Schritten helfen, also

  • OCR - vermutlich Transkribus,
  • Personen und die jeweiligen Angaben aus dem Text heraussuchen,
  • GEDCOM erstellen.

Mit der GEDCOM wird es wohl schwierig (siehe Kirchenbuch als PDF in GEDCOM Format umwandeln), aber die Personen herauszusuchen und aufzulisten wäre schon eine Hilfe.

Das Buch enthält auch eine handschriftliche Ahnentafel im Posterformat, die jeweils in Ausschnitten fotografiert wurde.

Schöne Grüße,
Renate

Kannst Du Beispiele hier rein stellen? Mit PDF können viele KI recht gut umgehen.

Diese Aufgabe ist viel einfacher für eine KI, da die Dichte der Information geringer ist. Ein paar Personen in einem langen Text zu finden, ist weniger “anstrengend” als ein Kirchenbuch auszuwerten.

Ich würde es erst einmal ohne den Umweg mit Transkribus versuchen. Einfach direkt das pdf auswerten lassen. Wenn das nicht geht, dann kann man immer noch transkribieren, aber eigentlich brauchst Du den transkribierten Text ja gar nicht, wenn Du nur das GEDCOM brauchst. Sinnvoll wäre eine Liste der Personen mit ihren Daten und der Seitennummer wo sie vorkommen. Wenn nicht alle Seiten in einem Wutsch ausgewertet werden können, muss man immer so etwa 10 Seiten auswerten. Aus der Personenliste kann man dann GEDCOM erzeugen. Dann kann man die Fehler in einem Genealogieprogramm von Hand ausbügeln.

Daher ja das Beispiel. Fraktur sollte keinerlei Problem darstellen, sag ich jetzt so einfach. :clown_face:

Würdet Ihr das ausprobieren? Ihr nennt ja keine KI, mit der ich es
ausprobieren kann. Ich hab da auch keinerlei Erfahrung.

Grüße,
Renate

Nimm irgendeine KI, so groß sind die Unterschiede nicht. Ich würde ChatGPT nehmen, da weiß ich dass GEDCOM gut funktioniert und da habe ich ein Abo. Aber aus didaktischen Gründen würde ich Dir empfehlen es erst einmal selber zu versuchen, ChatGPT ist ganz gutmütig. Melde dich, wenn du irgendwo nicht weiterkommst. Du kannst aber auch immer ChatGPT fragen: “wie könnte ich hier weiterkommen?”