Einsatz von Künstlicher Intelligenz bei BillionGraves verbessert die Erfassung von Grabsteininschriften

Originally published at: Einsatz von Künstlicher Intelligenz bei BillionGraves verbessert die Erfassung von Grabsteininschriften • Verein für Computergenealogie e.V. (CompGen)

Die Digitalisierung von Informationen auf Grabsteinen ist durch den Einsatz von KI-Technologien deutlich effizienter geworden. Beim Verein für Computergenealogie e.V. (CompGen) und dessen Aktivität „Grabsteine“ wird seit 2007 systematisch an der Erfassung der Inschriften aller Grabsteine auf Friedhöfen gearbeitet. Ähnliche Aktivitäten gibt es weltweit, darunter auch BillionGraves. Dieser Dienst nutzt nun auch Künstliche Intelligenz bei der Transkription der Inschriften.

Problem: Begrenzte Kapazitäten bei der Transkription von Grabsteininschriften

BillionGraves unterstützt mit Hunderttausenden von Nutzern die Erfassung von einzelnen Grabsteinen oder kompletten Friedhöfen. Die Arbeitsschritte umfassen

  • Fotografieren der Grabsteine
  • Transkribieren der Fotos
  • Sichern der Forschungsdaten

Die Menschen, die diese Arbeitsschritte ausführen, haben sich meist auf einen dieser Schritte spezialisiert. Es gibt diejenigen, die gerne auf Friedhöfen draußen unterwegs sind und Gräber fotografieren. Es gibt andere, die die gemachten Fotos transkribieren. Und wieder andere, die das Management der Daten übernehmen. In der Anfangszeit von BillionGraves waren nur wenige Fotografen unterwegs. Viele fleißige Helfer haben die Inschriften als Text erfasst. Dieses Verhältnis hat sich inzwischen umgekehrt, was zu einem Rückstau von über 2 Millionen noch nicht erfasster Fotos geführt hat.

KI-gestützte Transkription als Lösung

Wie in einem schön bebilderten Blog-Beitrag beschrieben wird, hat nun ein Team bei BillionGraves eine Künstliche Intelligenz darauf trainiert, die Transkription von Grabsteininschriften zu übernehmen. In den ersten Wochen konnten so eine halbe Million Fotos verarbeitet werden. Etwa 80% der Transkriptionen waren korrekt, der Rest bedarf manueller Nachbearbeitung. Dazu gibt es bei BillionGraves ein Werkzeug, das ähnlich wie das bei CompGen eingesetzte Daten-Eingabe-System (DES) arbeitet, so dass die Korrektur durch engagierte Nutzer sehr gut unterstützt wird.

Neue Rollenverteilung und Aufruf zur Qualitätssicherung

Die gewaltige Effizienzsteigerung bei der Transkription wird zu einer neuen Rollenverteilung bei den Unterstützern von BillionGraves führen. Diejenigen, die bisher diese Arbeit geleistet haben, werden das weiterhin tun können, aber die KI wird sie wahrscheinlich bald weitgehend ersetzen. Mehr denn je ist nun die Qualitätskontrolle gefragt. Daher ruft BillionGraves nun dazu auf, sich der Qualitätsprüfung anzunehmen oder gleich das Smartphone in die Hand zu nehmen und selbst Fotos auf Friedhöfen zu machen. Derzeit kümmert sich die KI bei BillionGraves um alle Bilder, die länger als 45 Tage nicht bearbeitet worden sind, aber wie könnte die Zukunft aussehen? Dann kann ich auf dem Friedhof einen Grabstein in der App fotografieren und das Bild hochladen. Eine Sekunde später hat die KI die Daten transkribiert und erfasst. Ich prüfe das, gebe es frei, und im Handumdrehen ist alles auch in FamilySearch und MyHeritage verknüpft, denn mit diesen Plattformen arbeitet BillionGraves bereits zusammen.

Mich beeindruckt der Workflow, den BillionGraves aufgebaut hat. Von der App über die Transkription per KI bis zur Integration in FamilySearch und MyHeritage. Der Einsatz von KI hat gravierende Auswirkungen auf die Helfer bei BillionGraves, die dort bislang die Transkriptionen durchgeführt haben. Aber welche Auswirkungen kann das auf die Aktivitäten bei uns, bei CompGen, in Bezug auf die Aktivitäten zur Erfassung von Grabsteinen und deren Inschriften haben?

Das Dilemma ist aus meiner Sicht: ein großes Unternehmen wie BillionGraves nimmt genug Geld in die Hand und setzt KI zur Effizienzsteigerung auf. Damit schaffen sie erheblich mehr, wir werden das auch mit Tausenden von Helfern nicht erreichen können. Und BillionGraves wird dadurch dieses Thema noch mehr dominieren. Bisher war das Transkribieren der Punkt, wo bei BillionGraves die Ressourcen limitiert waren, zukünftig ist es das Fotografieren der Gräber. Da haben wir in Deutschland derzeit sicher noch einen Heimvorteil. Aber wie lange? Wenn ich als Genealoge an die Daten der Grabsteininschriften ran will, ist es mir relativ egal, ob die von CompGen oder BillionGraves kommen (oder von Find A Grave / Ancestry). Wobei ich BillionGraves vielleicht noch nicht einmal direkt zu Gesicht bekomme, denn ich komme auch über FamilySearch oder MyHeritage an die Daten. Die Großen der Branche spielen sich gegenseitig in die Karten, die Kleinen werden keinen Stich mehr machen. Die Daten, die bisher der Allgemeinheit gehören, werden sich zukünftig in der Hand einiger weniger kommerziell orientierter Monopole befinden. Wollen wir das?

Aus meiner Sicht brauchen wir eine KI-Strategie für CompGen. Es gibt in dieser Phase des Umbruchs durch die Möglichkeiten der KI viele Chancen und viele Risiken.

  • eine Chance für den Genealogen ist, dass er durch KI schneller und vollständiger an die Grabinschriften rankommen kann als je zuvor
  • ein Risiko ist, dass er dafür irgendwann einen Preis wird zahlen müssen, wenn die Daten nicht mehr frei verfügbar sind, sondern in der Hand weniger Unternehmen sein werden.

Es gibt Optionen für uns

  • nichts unternehmen, die Dinge hinnehmen wie sie laufen, und weitermachen wie bisher, solange das geht
  • selber überlegen, wie man bei CompGen KI nutzen könnte um Dinge, wie die Transkription von Grabinschriften, effizienter zu erledigen und so zumindest in einem Teilbereich noch autark sein zu können
  • Kooperationen auf allen Ebenen suchen, um die eigene Position zu stärken
  • Angebote schaffen, die zu „KI und deren Folgen“ informieren und schulen, um so die kommenden Dinge transparent und aufgeklärt auf breiterer Basis diskutieren und beeinflussen zu können,

Ich bin auf Eure Meinung dazu sehr gespannt!
Hermann

Mir ist nicht klar, wie eine OCR-Software mit so schlechter Erkennungsrate zu einer solchen Euphorie für KI führt. Mein in die Jahre gekommenes, fast 20 Jahre altes Programm liefert mir ein Ergebnis von fast 100% (deutsch und tschechisch). Die Integration der „Ergebnisse“ von BillionGraves in familysearch liefert lediglich große Mengen an Einzeldaten, die zugebenermaßen zum Teil auf Familienkreise hindeuten können. Die „KI“ von BillionGraves ist vermutlich nicht in der Lage, die genauen Beziehungen zwischen den Namen auf einem Grabstein zu erkennen - wie auch? - das wäre sicherlich ein Mehrwert.

Der Einsatz von OCR als Vorbereitung von Erfassungsprojekten wurde von CompGen meines Wissens bei den Verlustlisten erstmals in großem Umfang eingesetzt. Was hat BillionGraves CompGen da an Ideen und Vorgehensweisen voraus?

Bleibt die Entwicklung einer App, die das Fotografieren und direkte Hochladen von Grabsteinfotos erlaubt. So etwas gibt es bereits massenhaft für andere Zwecke (z.B. Natur und Naturschutz) mit entsprechender wissenschaftlichen Auswertung.

Bei der vor wenigen Wochen stattgefundenen Tagung zur GND wurde mehr als deutlich, wie sehr KI für diese Bereiche der Wissenschaft noch in den Kinderschuhen steckt und der Gehirnschmalz Einzelner von Nöten ist.

Bei aller Euphorie und den Möglichkeiten von KI sollte man auf dem Teppich bleiben, die Entwicklungen kritisch begleiten und Sensationsmeldungen auf die nackten Sachverhalte hin überprüfen.

Ernst-Peter (Winter)

Ernst-Peter, Du hast ein Erkennungsprogramm, das auf einem Foto eines Grabsteins fast 100% korrekte Ergebnisse leifert??? Das muss ein Missverständnis sein. BillionGraves redet davon, dass 80% aller Grabsteinfotos zu 100% korrekt erkannt werden, d.h. dass alle Zeichen korrekt sind und alle Felder korrekt zugeordnet werden (Vornamen, Geschlecht, Geburts- und Todesdatum, …). Das ist etwas völlig anderes als Deine „fast 100% korrekt“ und auch etwas ganz anderes als die bei OCR üblicherweise angegebene Zeichenerkennungsrate.

Das ist richtig. Es werden keine Beziehungen zwischen den Personen, die in einem Grab zusammen beerdigt sind, erkannt. Es sei denn, das steht explizit auf dem Grabstein geschrieben. Etwa bei „Adam Maier und seine Frau Eva“. Das wird dann wohl als Kommentar abgelegt.

Das Besondere an der Transkription bei BillionGraves ist die Erkennung wo auf dem Grabstein was steht. Also die Erkennung was ist ein Name, was ist ein Sinnspruch, wo steht das Todesdatum, wie viele Personen sind hier begraben, … Bei DES wird ein festes Raster vorgegeben und den Rest machen die Menschen, die transkribieren.

Genau das habe ich getan. Ich habe auch einige Grabsteinfotos von ChatGPT auswerten lassen. Diese KI ist darauf ja nicht trainiert worden, liefert aber dennoch brauchbare Auswertungen. Das sind aber Einzelfotos. Eine KI zu trainieren und dann Hundertausende von Fotos auszuwerten, ist eine ganz andere Hausnummer.

Hermann (Hartenthaler)

Im Blogbeitrag wird leider nicht erwähnt, dass neben der Erkennung der Texte auch eine inhaltliche Zuordnung vorgenommen wird.

Allerdings ist auch das nicht so neu, wie die Fachtagung „Genealogie PLUS: Partnership, Open Access und maschinengestützte Indexierung“ im HLA Marburg am 24./25.11.2016 zeigte. Dort wurde genau diese inhaltliche Auswertung sogar an einer handschriftlichen Quelle aufgezeigt. BillionGraves wendet diese Technik nun auf eine andere Quellengattung - Grabsteine - an.

Die Knackpunkte scheinen aber immer noch gleich zu sein: trotz vorhergehender, eingehender Analyse der Quellengattung bleiben Unsicherheiten, die sich aus der Sache selbst ergeben.

  • Ist der identifizierte Name Vor-, Familien-, Ortsname oder Berufsbezeichnung?

  • Ist ein Text, der den vorgegebenen Inhalten nicht zugeordnet werden kann, wirklich ein Sinnspruch oder enthält er andere interessante Informationen („Gastwirtswitwe aus Pankraz“; „unser vielgeliebtes Kind, das viel zu früh aus dem Leben gerissen wurde“).

Einen Bericht zur oben genannten Tagung findet sich übrigens im CompGen-Blog unter https://www.compgen.de/2016/11/rueckblick-zur-tagung-genealogie-plus-in-marburg/.

Und natürlich war CompGen auch bei dieser Tagung bereits aktiv am Puls der Zeit beteiligt.

Ernst-Peter Winter

1 „Gefällt mir“

Spannend was Thekla Kluttig da bereits vor sieben Jahren von der Tagung in Marburg berichtete. Der Durchbruch fand dann erst vor einem Jahr statt.

Hallo Ernst-Peter,

wir spiegeln den Blog hier, um mit Menschen ins Gespräch zu kommen. Da schon mal ein dickes Dankeschön an Dich.

Und soll dies nicht möglich sein? Finden wir keinen Programmierer, der uns eine App dazu entwickelt?

Oder sollten wir dazu einen Blogbeitrag machen?

Bis denne…
Bernhard

Hallo Bernhard,

Bleibt die Entwicklung einer App, die das Fotografieren
und direkte Hochladen von Grabsteinfotos erlaubt. So
etwas gibt es bereits massenhaft für andere Zwecke (z.B.
Natur und Naturschutz) mit entsprechender
wissenschaftlichen Auswertung.

Und soll dies nicht möglich sein? Finden wir keinen
Programmierer, der uns eine App dazu entwickelt?

Wahrscheinlich wäre eine bestehende App mit wenigen
Programmzeilen auch für das Hochladen von Grabsteinfotos zu
modifizieren und man müsste das Rad nicht neu erfinden.

Herzliche Grüße
Ernst-Peter

Der Durchbruch fand dann
erst vor einem Jahr statt.

Welcher Durchbruch?

2 Beiträge wurden in ein neues Thema verschoben: Eine App für die Grabsteine