Auf Anfrage einer Studierenden der Wirtschaftswissenschaften, die an Vornamen als Indikator für Nationalismus interessiert ist, habe ich einen Extrakt aus den bei gedbas.genealogy.net veröffentlichten Daten weitergegeben. Der Extrakt hat den Stand 2020 und ist auf diejenigen Teildatenbanken (GEDCOMs) beschränkt, für die die Datenautoren das Herunterladen der GEDCOM zugelassen haben. Es handelt sich um einen Auszug der von @JMGoldberg für seine Dissertation verwendeten Daten. @JMGoldberg: bitte ergänze hier noch Hinweise darauf, wie die Daten zu zitieren sind, und welche deiner Publikationen bei Benutzung genannt werden sollten.
Hier möchte ich einige Benutzungshinweise geben.
Enthalten sind 612.004 Personendatensätze mit Geburtsjahren von 1800 bis 1912.
Folgende Felder sind enthalten:
-
ID: Kennung des individuellen Datensatzes. Die ID 999368507 ist z.B. als GEDBAS: Peter FRANZ auzurufen.
-
Quelle: Kennung der Gedbas-Datenbank. Die Quelle 13564 ist z.B. als GEDBAS: Database 13564 aufzurufen.
-
Name: hier der Vorname.
-
Geschlecht: M oder F
-
Geburtsjahr
-
Geburtsort: ein nicht normierter Textstring wie vom Datenautor angegeben
-
GOV-ID: liegt für 396.390 Datensätze vor. Für andere Datensätze ist es möglicherweise sinnvoll, sie nachzurecherchieren oder die häufigste im jeweiligen Datenbestand vorkommende GOV-ID einzusetzen. Aufruf der GOV-ID MONTAUJO93JN: http://gov.genealogy.net/item/show/MONTAUJO93JN
-
Längengrad, Breitengrad aus GOV ermittelt.
Inhaltlich noch ein paar Hinweise zu diesem Datenbestand.
(1) Gedbas enthält überwiegend Ahnenlisten, also die Vorfahren Einzelner. Alternative genealogische Datenquellen wären Ortsfamilienbücher, die (tendenziell) die Gesamtbevölkerung einzelner Gemeinden erfassen, Kirchenbuchindizierungen oder „-verkartungen“, die (tendenziell) alle Einträge aus jeweils einzelnen Kirchenbüchern erfassen, Volkszählungsurlisten mit der gesamten Wohnbevölkerung zu einem Stichjahr und Adressbücher mit (tendenziell) allen Haushaltsvorständen zu einem Stichjahr. Wie stark Ahnenlisten zu verzerrten Ergebnissen führen, ist in der Historischen Demographie schon vielfach diskutiert worden. Besonders beim gewählten Thema Nationalismus ist auch zu bedenken, dass Ahnenforschung zumindest im frühen und mittleren 20. Jahrhundert ein in eher bürgerlich-nationalistischen Milieus verbreitetes Hobby war. Das kann sich auf die Chance von Personen des 19. Jahrhunderts auswirken, in dieser „Stichprobe“ zu landen. Der von Davide Cantoni analysierte Datenbestand von Kirchenbuch-Indizierungen ist insofern besser geeignet, als er jeweils pro Kirchengemeinde alle Geburten (und damit Vornamen) erfasst.
(2) Es ist denkbar, dass durch Copy&Paste Personen mehrfach in den Daten vorkommen. An diesem Problem können wir auf CompGen-Seite noch weiterarbeiten, u.a. indem wir die UIDs in den Daten analysieren. Vielleicht lohnt es sich auch, Nachnamen und das genaue Geburtsdatum zur Doublettenkontrolle zu nutzen. Für beide Zwecke würden wir einen erweiterten Datenbestand herstellen. Als einfache Strategie für den Umgang mit diesem Problem würde ich aber empfehlen, die Daten erstmal so feingranular wie möglich zu aggregieren, also jährliche Datenreihen nicht pro Landkreis oder Großregion zu analysieren, sondern wirklich pro Ort oder Kirchengemeinde.
(3) Inhaltlich für die Analyse wichtig ist die Konfession. Die steht nicht in den Daten, sondern ergibt sich teils aus dem Kontext des Datenbestandes, teils kann man sie systematisch ermitteln, indem man die georeferenzierten Daten aus Gedbas mit einer georeferenzierten Karte der Konfessionsverteilung im Deutschland des 19. Jahrhunderts abgleicht.
Weitere Rückfragen und Diskussionen gern hier!