GEDBAS-Extrakt

Auf Anfrage einer Studierenden der Wirtschaftswissenschaften, die an Vornamen als Indikator für Nationalismus interessiert ist, habe ich einen Extrakt aus den bei gedbas.genealogy.net veröffentlichten Daten weitergegeben. Der Extrakt hat den Stand 2020 und ist auf diejenigen Teildatenbanken (GEDCOMs) beschränkt, für die die Datenautoren das Herunterladen der GEDCOM zugelassen haben. Es handelt sich um einen Auszug der von @JMGoldberg für seine Dissertation verwendeten Daten. @JMGoldberg: bitte ergänze hier noch Hinweise darauf, wie die Daten zu zitieren sind, und welche deiner Publikationen bei Benutzung genannt werden sollten.

Hier möchte ich einige Benutzungshinweise geben.

Enthalten sind 612.004 Personendatensätze mit Geburtsjahren von 1800 bis 1912.

Folgende Felder sind enthalten:

  • ID: Kennung des individuellen Datensatzes. Die ID 999368507 ist z.B. als GEDBAS: Peter FRANZ auzurufen.

  • Quelle: Kennung der Gedbas-Datenbank. Die Quelle 13564 ist z.B. als GEDBAS: Database 13564 aufzurufen.

  • Name: hier der Vorname.

  • Geschlecht: M oder F

  • Geburtsjahr

  • Geburtsort: ein nicht normierter Textstring wie vom Datenautor angegeben

  • GOV-ID: liegt für 396.390 Datensätze vor. Für andere Datensätze ist es möglicherweise sinnvoll, sie nachzurecherchieren oder die häufigste im jeweiligen Datenbestand vorkommende GOV-ID einzusetzen. Aufruf der GOV-ID MONTAUJO93JN: http://gov.genealogy.net/item/show/MONTAUJO93JN

  • Längengrad, Breitengrad aus GOV ermittelt.

Inhaltlich noch ein paar Hinweise zu diesem Datenbestand.

(1) Gedbas enthält überwiegend Ahnenlisten, also die Vorfahren Einzelner. Alternative genealogische Datenquellen wären Ortsfamilienbücher, die (tendenziell) die Gesamtbevölkerung einzelner Gemeinden erfassen, Kirchenbuchindizierungen oder „-verkartungen“, die (tendenziell) alle Einträge aus jeweils einzelnen Kirchenbüchern erfassen, Volkszählungsurlisten mit der gesamten Wohnbevölkerung zu einem Stichjahr und Adressbücher mit (tendenziell) allen Haushaltsvorständen zu einem Stichjahr. Wie stark Ahnenlisten zu verzerrten Ergebnissen führen, ist in der Historischen Demographie schon vielfach diskutiert worden. Besonders beim gewählten Thema Nationalismus ist auch zu bedenken, dass Ahnenforschung zumindest im frühen und mittleren 20. Jahrhundert ein in eher bürgerlich-nationalistischen Milieus verbreitetes Hobby war. Das kann sich auf die Chance von Personen des 19. Jahrhunderts auswirken, in dieser „Stichprobe“ zu landen. Der von Davide Cantoni analysierte Datenbestand von Kirchenbuch-Indizierungen ist insofern besser geeignet, als er jeweils pro Kirchengemeinde alle Geburten (und damit Vornamen) erfasst.

(2) Es ist denkbar, dass durch Copy&Paste Personen mehrfach in den Daten vorkommen. An diesem Problem können wir auf CompGen-Seite noch weiterarbeiten, u.a. indem wir die UIDs in den Daten analysieren. Vielleicht lohnt es sich auch, Nachnamen und das genaue Geburtsdatum zur Doublettenkontrolle zu nutzen. Für beide Zwecke würden wir einen erweiterten Datenbestand herstellen. Als einfache Strategie für den Umgang mit diesem Problem würde ich aber empfehlen, die Daten erstmal so feingranular wie möglich zu aggregieren, also jährliche Datenreihen nicht pro Landkreis oder Großregion zu analysieren, sondern wirklich pro Ort oder Kirchengemeinde.

(3) Inhaltlich für die Analyse wichtig ist die Konfession. Die steht nicht in den Daten, sondern ergibt sich teils aus dem Kontext des Datenbestandes, teils kann man sie systematisch ermitteln, indem man die georeferenzierten Daten aus Gedbas mit einer georeferenzierten Karte der Konfessionsverteilung im Deutschland des 19. Jahrhunderts abgleicht.

Weitere Rückfragen und Diskussionen gern hier!

Zur Zitation wäre die Angabe der Dissertation am einfachsten:

Jan Michael Goldberg (2023): Bürger, Bauer, Bettelmann. Ökonomische Implikationen intergenerationalen Transfers sozioökonomischer Charakteristika (Deutschland, 16.-20. Jahrhundert). Dissertation.

Die ist durch die Abgabe der Pflichtexemplare schon veröffentlicht.

Ein kleiner Extrakt aus den Daten liegt in der CompGen-Cloud im Gruppenbereich compgen4science.

Hallo zusammen,

ich hätte eine kleine Rückfrage zu den Daten. Bei unserem Online Meeting haben wir ja auch über die Möglichkeit gesprochen, den Daten die jeweilige Gemeinde-Kennziffer anzuspielen. @Georg.Fertig: Sie haben mir bei diesem Meeting gezeigt, dass es bereits eine Seite gibt, die beschreibt, wie man aus der ID die Gemeinde-Kennziffer „ziehen“ kann (wenn ich es richtig verstanden habe). Leider finde ich die Beschreibung nicht mehr, können Sie mir hierzu eventuell noch den Link schicken?

Schon mal vielen Dank und beste Grüße!

Hallo Frau Müller,

schön, dass Sie die Frage hier stellen - ich finde es wichtig, dass öffentliche Kommunikation mit Studierenden bei CompGen funktioniert und dass auch andere Studierende dadurch ermutigt werden, Fragen zu stellen.

Zur Gemeinde-Kennziffer: Sie meinen den Amtlichen Gemeindeschlüssel, auf den sich auch Ihre anderen Daten beziehen, richtig? Hierzu sehe ich zwei Antworten.

(1) Der ist durchaus im GOV enthalten. Aber: Nur Gemeinden, sprich Kommunen (und zwar solche im 20. Jahrhundert) haben dieses Merkmal. Die Daten aus GEDBAS, mit denen Sie arbeiten, enthalten dagegen Ortskennungen aus dem GOV. Das können auch ganz andere Einheiten sein als Gemeinden. Aufgrund dieser Kennungen kann man die Gemeindeschlüssel ermitteln, wenn diese Ortskennungen eben Gemeinden (und nicht z.B. Kirchen oder Wohnplätze) bezeichnen. Es ist sicher auch möglich, den Gemeindeschlüssel derjenigen Gemeinde zu ermitteln, zu der der in Ihren Daten angegebene Wohnplatz usw. gehört. Wie man das ermittelt, kann @jzedlitz ggf. erklären. Es gibt mehrere Wege, u.a. die hier beschriebenen Webservices und einen experimentellen SPARQL-Endpoint, der noch nicht öffentlich ist.

(2) Aber ich glaube nicht, dass für Ihre Analysen das Matchen mit den Gemeindeschlüsseln überhaupt wichtig ist. Ich denke eher, dass Sie Geokoordinaten brauchen. Dann haben Sie Daten, die auf der Seite der übrigen von Ihnen genutzten Quellen über die Gemeindeschlüssel geographisch verortet sind, und auf der Seite der GEDBAS-Daten eben auf anderem Wege, aber Latitude und Longitude haben Sie auf beiden Seiten und können Aussagen über räumliche Phänomene, Entfernungen usw. treffen. Also halte ich noch zusätzlich fest, wie man an die Koordinaten kommt. Im Prinzip sind die in den Daten, die ich Ihnen geschickt hatte, ja schon enthalten, aber es ist auch nützlich, den Weg dorthin zu kennen für den Fall von Ergänzungen und Korrekturen.

Weg A: Das Mini-GOV. In den dort herunterzuladenden CSV-Daten steckt (mit bestimmten Ausnahmen) auch jeweils Längengrad und Breitengrad, sowie die Zuordnung zu Verwaltungseinheiten.

Weg B: Abruf der jeweils aktuellen Geokoordinaten über die GOV-API. Ich selber mache das über ein SAS-Macro, das ich mir geschrieben habe. Ich würde noch mit @jzedlitz absprechen, ob es sinnvoll ist, das Macro zu veröffentlichen oder auch R-Code dafür zu programmieren.

Vorgehen für den Moment: Sie schauen mal, ob die vorhandenen Koordinaten reichen oder Sie mit dem Mini-GOV fehlende Orte schon geolokalisiert bekommen, und wenn das nicht ausreicht, kann ich weitere Koordinaten gern über das Macro auslesen und Ihnen schicken.

Noch ein Hinweis zum Anschaulichmachen der Daten: Wir haben auch ein Mapping Tool.

Viele Grüße
Georg Fertig