Originally published at: Großes Interesse am Daten-Eingabe-System DES bei der RootsTech 2022 • Verein für Computergenealogie e.V. (CompGen)
Am ersten Tag der Rootstech 2022 referierte Jesper Zedlitz über „10 Jahre Daten-Eingabe-System DES – Erfahrungen und Perspektiven“ sowohl in deutscher, als auch in englischer Sprache. Am letzten Tag waren zahlreiche interessierte Zuhörer und Zuhörerinnen aus den USA und anderen Ländern bei den Diskussionen und Fragerunden (ebenfalls in Deutsch und in Englisch) bei der „follow up discussion“ zum Vortrag. Alle Beiträge und aufgezeichneten Diskussionen im Rootstech-Programm können weiterhin noch ein Jahr lang angeschaut werden.
.avia-video.av-l0f4iv7y-80a13cce36a8c82e157a64b0b2b1adaa{ background-image:url(https://www.compgen.de/wp-content/uploads/2022/03/06-03-2022_11-17-57-175x100.png); }
Im Daten-Eingabe-System DES werden gedruckte (und handschriftliche) Quellen strukturiert erschlossen. Das riesige Projekt der Deutschen Verlustlisten 1914/18 mit 31.000 Seiten wäre ohne DES niemals so schnell und umfassend mit freiwilligen Helfern und Helferinnen erschlossen worden. Jeder konnte auf der Seite erfassen und das Ergebnis sofort in der Datenbank sehen. Bei den österreichisch-ungarischen Verlustlisten wurde bereits OCR (automatische Zeichenerkennung) zur automatisierten Vorerfassung genutzt.
In der Diskussionsrunde und Nachbesprechung am letzten Tag beschrieb Jesper, wie Familienforscher aus anderen genealogischen Vereinen z.B. Adressbücher aus ihrer Region erfassen. Die Erfassung von Daten aus gedruckten Ortsfamilienbüchern mit ihrer Vielzahl von Verbindungen zwischen den Personen erfordert eine Erweiterung der Software. Die DES-Software ist mehrsprachig und Open Source. Die Erfassung der Leipziger Familienkartei, bei der Personen verknüpft sind, ist abgeschlossen. Für englischsprachige Nutzer könnte das Adressbuch von Shanghai 1939 für die dorthin evakuierten Juden interessant sein.
Der CompGen-Vorsitzende, Georg Fertig, verwies auf andere europäische Gruppen, die ähnliche Indexierungsprojekte gestartet haben bzw. diese vorbereiten. Für sie ist eine englischsprachige Anleitung erforderlich. Thomas Hengst, der die Diskussion moderierte, fragt nach der Möglichkeit zur Zusammenarbeit mit FamilySearch. Dort wird bereits an der automatisierten Indexierung gearbeitet.
Die Vorerfassung mit OCR beschleunigt die Erfassung um den Faktor 10. Die Zukunft liegt in der intelligenten maschinellen Texterkennung in Zusammenarbeit mit menschlichen Helfern. Dabei sollen Strukturen und logische Zusammenhänge in den Daten automatisiert erkannt werden. Auch für handschriftliche Quelle ist eine maschinelle Texterkennung in greifbare Nähe gerückt. Jesper verweist auf den Kooperationspartner Transkribus. Ein Problem ist oft, aktive Projektbetreuer zu finden und sie für die kontinuierliche Betreuung zu begeistern. In der Zukunft wird laut FamilySearch der Bedarf an Indexierern exponentiell wachsen.
Die Übernahme von Excel-Tabellen mit bereits digitalisierten Einträgen in ein DES-Projekt funktioniert zwar prinzipiell, aber die Koordinaten der Position des Eintrags sind wesentlich für das System, um den erfassten Eintrag im Scan zu lokalisieren.
Zum Schluss gab Jesper noch ein interessantes Ergebnis der Verlustlisten-Datennutzung in der Namensverbreitungskarte für die Zeit um 1890 und die Anwendung von DES für das Geschichtliche Ortsverzeichnis GOV.