Originally published at: https://www.compgen.de/2024/12/kuenstliche-intelligenz-im-dienst-des-genealogen/
Archivierungseinrichtungen in den Niederlanden investieren viel Arbeit in die Digitalisierung von Teilen ihrer Archivbestände, wie Chroniken, Notariatsarchive, Archive der Generalstaaten sowie der Vereinigten Ostindischen Kompanie (VOC) und der Westindischen Kompanie (WIC).
Dies ermöglicht es, dass immer mehr Scans online verfügbar sind und eingesehen werden können, unter anderem auf der Website Open Archives. Dabei wird künstliche Intelligenz (auch KI genannt) eingesetzt – eine großartige Entwicklung für Genealogen!
Automatische Transkriptionen
Als Beispiel nehmen wir einen Scan aus dem Archiv der Alten Westindischen Kompanie (Nationaal Archief, 1.05.01.01), konkret Folio 53 aus Inventar 42: „Kommissionen, Instruktionen, Bedingungen für Kolonisten. Akten […] von und an Salzschiffe“.
Für diejenigen, die solche alten Handschriften nicht lesen können, bietet die automatische Handschrifterkennung – eine Form der künstlichen Intelligenz – eine Lösung.
Diverse Archivierungseinrichtungen arbeiten gemeinsam an Modellen, um die automatische Handschrifterkennung zu verbessern, indem sie Scans und von Menschen erstellte Transkriptionen speziellen Computerprogrammen zur Verfügung stellen, damit diese daraus lernen können. Ein häufig von Archivierungseinrichtungen genutzter Dienst ist Transkribus, der auch einfach (kostenlos) über Transkribus.ai verwendet werden kann.
Die aktuellen Modelle erkennen eine Vielzahl von Handschriften und können den angezeigten Scan in folgende Transkription umwandeln:
- Compareerde voor Bewinthebberen der westjndisen
- Comp.e de onderschreven persoonen, Soo voor hem
- selven als sijne mede reeders, versouckende als opt andr
- met
- bladt ende rechter zijde Acte van Concessie om het
- Schip genaemt den volphijn schipper Adriaen sends
- te mogen varen onder de linuten vande westjndische
- en hout
- Comp.e omme aldaer sout, te becomen, De welcke hen
- midts desen werden versunt, onder de conditien ende
- borchtochten aen dander zijde gementioneert
- Actum den 24 Novemb 1621 tot Middelburch
- Cornelis Ccunelaer
- Puthorno vernis
Durch die Umwandlung von Scans in Text können diese Transkriptionen volltextlich durchsucht werden, beispielsweise nach Namen oder Orten. Open Archives macht auf diese Weise Millionen von Scans verschiedener Archiveinrichtungen durchsuchbar.
Automatische Zusammenfassungen
Erfahrene Forscher und Historiker können die angezeigte Transkription oft gut interpretieren. Für viele andere jedoch stellt das Alt-Niederländische eine Herausforderung dar, und es bleibt schwierig, historische Dokumente zu verstehen. Aber auch hier kann künstliche Intelligenz helfen! Auf der Basis eines Large Language Models – ebenfalls eine Form künstlicher Intelligenz – kann aus der Transkription eine Zusammenfassung in modernem Niederländisch, Englisch, Französisch und Deutsch erstellt werden. Personennamen, Ortsnamen und Daten werden zudem hervorgehoben – dies ist eine Form der Named Entity Recognition (NER).
Die obige niederländische Transkription lautet dann zusammengefasst wie folgt:
„Am 24. November 1621 erschienen vor den Bewinthebbern (Direktoren) der Westindischen Kompanie in Middelburg mehrere Personen, die für sich selbst und ihre Mitreeder einen Antrag stellten. Sie ersuchten um eine Konzession für das Schiff “Der Delphin” unter Kapitän Adriaen Sends. Das Schiff sollte innerhalb der Grenzen der Westindischen Kompanie Salz beschaffen dürfen. Die Genehmigung wurde unter bestimmten Bedingungen und gegen Bürgschaft erteilt. Das Dokument wurde von Cornelis Ccunelaer und Puthorno unterzeichnet.“
Nutzer von Open Archives können zu jeder gefundenen und angezeigten (Scan und) Transkription eine Zusammenfassung anfordern, die innerhalb weniger Sekunden nach der Anfrage erscheint. Auf diese Weise hilft künstliche Intelligenz nicht nur bei der Suche, sondern auch beim Verständnis historischer (niederländischer) Dokumente.
Anmerkung zur KI
Die Transkriptionen werden von Computerprogrammen (durch Archiveinrichtungen) mittels automatischer Handschrifterkennung erstellt, sind jedoch nicht fehlerfrei. Die Fehlerquote bei der Handschrifterkennung, ausgedrückt als Character Error Rate (CER), liegt oft bei etwa 5 % (d. h., von 100 erkannten Zeichen in der handgeschriebenen Vorlage sind nur 5 falsch).
Die Zusammenfassungen werden von Computeranwendungen (durch Open Archives) auf Basis eines Sprachmodells aus diesen Transkriptionen erstellt. Auch wenn die wenigen Fehler in der Transkription meist keine großen Probleme verursachen, ist auch diese künstliche Intelligenz nicht perfekt. In der Regel sind die Ergebnisse jedoch ausreichend, um die Transkription verständlich zu machen.
Das Motto beim Einsatz von KI-Produkten wie Transkriptionen und Zusammenfassungen lautet: Denken Sie selbst weiterhin kritisch mit!
Über Open Archives
Über Open Archives können Forschende – in vier Sprachen – genealogische Daten aus niederländischen, belgischen, französischen und surinamischen Archiven und Vereinigungen durchsuchen. Es stehen über 353 Millionen historische Personenverzeichnisse von rund 160 Organisationen zur Verfügung, oft einschließlich Scans (von den Archiveinrichtungen). Dabei werden automatisch verknüpfte Urkunden sowie zusätzliche Informationen über Personen und ihren Kontext bereitgestellt. Open Archives wird von Coret Genealogie kostenlos zur Verfügung gestellt.
Zusätzliche Funktionen sind im Rahmen eines kostenpflichtigen Abonnements verfügbar, darunter:
- Überwachung von Suchanfragen (mit Benachrichtigung bei neuen Suchergebnissen),
- Darstellung von Vorfahren in einer Ahnentafel,
- Automatisches Finden von Kindern eines Paares in einer standesamtlichen Urkunde,
- Herunterladen von Urkunden im GEDCOM- und PDF-Format,
- Exportieren von Suchergebnissen im CSV- oder XLS-Format,
- Erstellen von Zusammenfassungen aus Transkriptionen.
Im Blog des Vereins für Computergenealogie wurde bereits im letzten Jahr über KI-Aktivitäten im Zusammenhang mit Open Archives berichtet; darunter waren auch weitere Beiträge, in denen Bob Coret und Open Archives erwähnt werden.