Scans und Transkripte aus niederländischen Archiven durchsuchen

Originally published at: Scans und Transkripte aus niederländischen Archiven durchsuchen • Verein für Computergenealogie e.V. (CompGen)

Immer mehr niederländische Archive nutzen die Handschriftenerkennung (HTR) als logischen Folgeschritt im Digitalisierungsprozess ihres Archivmaterials. Für Bob Coret von Open Archives war dies Anlass, die maschinell gelesenen Texte aus mehreren Archiven in einem einzigen Transkriptionsportal für alle durchsuchbar zu machen. Manches war bereits auf der Webseite Open Archives nutzbar, wie z.B. die Scans aus dem Archiv der Niederländischen Ostindien-Kompanie (VOC), die bereits hier im CompGen-Blog beschrieben worden ist.

Pionierarbeit des Nationalarchivs mit weiteren Partnern

Der Ausgangspunkt waren das Eisberg-Projekt für Notar-Urkunden und VOC-Akten im Nationalarchiv der Niederlande, die mit Transkribus gelesen wurden. Mit den vom Humanities Cluster der Niederländischen Akademie der Künste und Wissenschaften (KNAW) entwickelten Open Source Loghi-Toolkits wurden weitere Akten lesbar gemacht. Diese Transkriptionen können auf der Projektwebseite durchsucht werden. In zwei weiteren Projekten – REPUBLIC (für Akten der Generalstaaten) und GLOBALISE (für weitere VOC-Akten) – wurden Techniken zur Erkennung von Eigen- und Ortsnamen weiterentwickelt.

Weitere Archive mit unterschiedlichen Schnittstellen

Mehr und mehr Archive und Initiativen nutzen inzwischen die Transkribus-Technik und den angebotenen Dienst zur Präsentation der Ergebnisse (z.B. hier bei der Sammlung holländischer Chroniken aus der Zeit 1500–1850). Für den automatisierten Zugriff steht eine Anwendungsschnittstelle (API) zur Verfügung. Das Eisberg-Projekt und GLOBALISE werden bei Zenodo und Dataverse zum Download angeboten. Bob Coret hat die verschiedenen Techniken für die Zugriffsmöglichkeiten untersucht und kann so in vielen Fällen den gelesenen Scan neben der Transkription anzeigen. Für die Anzeige der Bilder können die Image-API und die Presentation-API von IIIF als Schnittstelle genutzt werden. Bei den Projekten des Nationalarchivs, wie z.B. dem Eisberg-Projekt, müssen die Links zu den Bildern mühsam von der Webseite geholt und umgewandelt werden. Bei Transkribus werden direkt nutzbare Links zum Koppeln von Bildern und Transkription angeboten. Auf Open Archives werden bisher jedoch mit Hilfe der Image API nur die Thumbnails der Scans mit einem Link zum Viewer angezeigt.

Scans und Transkriptionen aus diesen Archiven sind nutzbar:

Zu den ausgewerteten Archiven gibt es außerdem ausführliche Beschreibungen mit Links für den Zugang und dem Inventarverzeichnis.

Mit immer mehr Daten und Bilder, die maschinenlesbar zur Nachnutzung veröffentlicht werden, kann Open Archives nun seinen Zielgruppen – insbesondere für die Familien- und Ahnenforschung – eine weitere tolle Funktionalität bieten: die ganzheitliche Suche in (aktuell) 8,8 Millionen transkribierten Dokumenten und deren Präsentation. Weitere automatisch gelesene Scans und deren Transkripte können in Zukunft bereitgestellt werden.

Open Archives könnte ein Vorblid sein für ein vergleichbares Projekt in Deutschland: Lesbar gemachte Dokumente aus den verschiedensten Archiven in einem Portal zur Suche anbieten.

1 „Gefällt mir“