Originally published at: Wo liegt der Ort? Automatisierte Identifizierung aus dem Zusammenhang • Verein für Computergenealogie e.V. (CompGen)
CompGen-Mitglied Jan Michael Goldberg arbeitet an der Schnittstelle von Geschichts- und Wirtschaftswissenschaften. In der Zeitschrift für digitale Geisteswissenschaften hat er einen Weg beschrieben, wie für die Geschichts-, Familien- und Ahnenforschung nicht-eindeutige Ortsnamen automatisch – aus dem Zusammenhang – lokalisiert werden können:
-
Jan Michael Goldberg: „Kontextsensitive Entscheidungsfindung zur automatisierten Identifizierung und Clusterung deutschsprachiger Urbanonyme“
In: Zeitschrift für digitale Geisteswissenschaften. Wolfenbüttel 2022. Abrufbar unter DOI: 10.17175/2022_005.
Viele Ortsangaben (Urbanonyme) lassen sich erst aus dem Zusammenhang identifizieren, in denen sie genannt sind. Ein Ortsname wie „Neustadt“ ist jedoch an den verschiedenen Stellen in Deutschland und anderen Ländern zu finden. Historische Ortsverzeichnisse sind bei der Suche nützlich. Nicht immer ist eine eindeutige Identifizierung der Ortsangaben möglich. Für die Zuordnung eines Ortsnamens hilft dabei der Zusammenhang in der Quelle, in der der Ortsname steht. Selbst die Häufigkeit von Familiennamen an bestimmten Orten kann bei der Lokalisierung helfen.
Wo liegt der Ort? Zuerst im GOV suchen!
Der Autor beschreibt den von ihm entwickelten Algorithmus, um historische Ortsangaben aus dem Kontext heraus zu identifizieren und lokalisieren. Mit Hilfe des Geschichtlichen Ortsverzeichnisses GOV werden Übereinstimmung gesucht und Koordinaten ermittelt. Bei Unsicherheiten hilft eine Überprüfung der Ähnlichkeit der Ortsnamen. Für die Kontextsuche z.B. in einem Buch werden die im Kontext genannten Ortsangaben ausgewertet, die selbst auch im GOV identifiziert werden müssen. Identifizierte Orte werden zudem den historischen Provinzen des 19. Jahrhunderts zugeordnet.
Der entwickelte Algorithmus wurde in einem Python-Programm zur Anwendung auf GEDCOM-Dateien aus GEDBAS umgesetzt. Aus 1.899 öffentlich zugänglichen GEDCOM-Dateien mit über 3 Millionen Ortsangaben konnten 12 % einem Objekt im Mini-GOV zugeordnet werden, für 34 % gab es mehrere, für 54 % keine Treffer. Die Zuordnung zu einer der Provinzen gelingt in 70 % der Fälle. Werden Fehler durch unvollständige Angaben und Orten außerhalb des untersuchten Gebietes herausgefiltert, so liegt die Zuordnungsrate bei 96 %.
Jan Michael Goldberg ist uns bereits in früheren CompGen-Blogbeiträgen begegnet. Der Wirtschaftsingenieur studierte Geschichte an der Fachhochschule sowie Universität Bielefeld und ist seit 2019 als Doktorand am Lehrstuhl für empirische Makroökonomik der Martin-Luther-Universität Halle-Wittenberg. Thema seiner Dissertation ist: „Bürger, Bauer, Bettelmann. Ökonomische Implikationen intergenerationalen Transfers sozioökonomischer Charakteristika (Deutschland 16.-20. Jahrhundert)”.
Bei der eigenen Familienforschung fand er einige seiner Vorfahren in Zwickau (Cvikov) in Nordböhmen und viele weitere Namensträger in der Oberlausitz.