Adressbücher herunterladen

Hey, ich bin Wirtschaftswissenschaftler an der Uni Potsdam und forsche aktuell zur Ost-West Migration nach dem Zweiten Weltkrieg. In einem Projekt wollen wir schauen, ob es Nachnamen gibt, die besonders mit bestimmten Berufen korrelieren. Dafür würde die Address-Liste (Search results Adressbücher ) perfekt passen. Ich weiß aber nicht, wie man diese in excel direkt herunterladen kann, um sie dann in einem Statistik-Programm wie STATA auswerten zu können. Gibt es da eine Möglichkeit? Das würde uns sehr weiterhelfen!

Hallo Max1

Losgelöst von Deiner Ausgangsfrage (da sind Kollegen zuständig)…

Kennst Du unsere Namensverbreitungskarte?

Hier eine Beschreibung über die Quellen und die Funktionalität.

Dieser Dienst könnte für Eure Zwecke ebenfalls hilfreich - vielleicht sogar noch besser geeignet sein.

Herzliche Grüße,

Susanne (Nicola)

Gerne kann ich eine Liste mit Familienname + Beruf zusammenstellen. Aus dem DES werden es bis zu 9 Millionen Einträge werden. Dazu kommen nochmal bis zu 4,4 Millionen Einträge aus den offline erfassten Adressbüchern. Allerdings habe ich noch nicht gezählt, wie viele Einträge auch eine Berufsangabe haben.

Es wird sich die Schwierigkeit ergeben, dass die Berufsangaben nicht normalisiert sind. Vielleicht kann @Katrin_Moeller dabei weiterhelfen.

Liebe Susanne,

danke für die Nachricht! Genau, mit der Namensverbreitungskarte (bzw. den Vermissten-Listen aus dem Ersten Weltkrieg) arbeiten wir schon. Nun wollen wir aber zusätzlich testen, ob die Ost-West-Migration aufgrund der Ähnlichkeit der Namen (demnach family ties) stattgefunden hat, oder ob gewisse Namen gewissen Berufen zuzuordnen sind und deshalb eine Ost-West Migration stattgefunden hat.

VG,
Max

Genau danach suchen wir, das wäre für uns und unser Projekt eine riesengroße Hilfe. Falls so etwas möglich ist, wären wir überaus dankbar.

Mittlerweile habe ich ein paar Zahlen: Insgesamt können wir 10,76 Millionen Datensätze zu Familienname+Beruf liefern. Dabei tauchen 845.000 unterschiedliche Berufsbezeichnungen auf. Wenn man Einzelvorkommen weglässt, ist man immer noch bei 210.000 unterschiedlichen Berufsbezeichnungen.

okay, das klingt super. Wir würden dann in STATA/Python die Berufsbezeichnungen normalisieren, um die Namen bestimmten Berufsgruppen/occupations zuordnen zu können (Arbeiter, Handwerker, Hilfskraft, Studierte, etc.). Die Endfassung würden wir dann auch gerne hier teilen. Wichtig wäre noch die Information zur Angabe des Ortes, aber das ist ja meines Wissens mit drin. Könntest du mir ggf. den Datensatz als Excel oder so schicken oder zum Herunterladen bereitstellen?

Die Berufe haben wir schon normalisiert und mit einem Klassifikationssystem versehen, soweit das halbwegs machbar war. Wir müssten nur mal schauen, wie wir über die IDs der Datensätze auch die Personennamen einspielen könnten.

Das Problem ist letztlich, dass in dem Abzug von Jesper, den ich bekommen habe, keine persönliche ID seitens des Adressbuchbestandes enthalten war. Daher wäre der einfachste Weg, Jesper würde den Datensatz wie gewünscht ausspielen und ich würde die Berufe vorab noch mal matchen und dann an könnte ich die Datei an Max weitergeben für die Analyse. Was wir einspielen können ist ein Modell wie bei der Klassifikation der Berufe 2010 (mit fünf Differenzierungsstufen) sowie eine Normbezeichnung für den Individualberuf sowie das Geschlecht der Person, das wir anhand des Vornamens festgelegt haben. Falls das gebraucht wird, müsste der Vorname auch mit den den Datensatz.

Das wäre natürlich super! Für uns sind vor allem wichtig die Berufe, der Ort sowie der Nachname, damit wir schauen können, in welchen Regionen bestimmte Familiennamen welche Berufe hatten. Wäre so etwas möglich?

Bei der Berufsklassifikation können momentan 45.000 normierte Berufe ausgewiesen werden, die in fünf verschiedenen Hierarchieebenen unterschiedlich differenziert ausweist. Das geht von 10 Gruppen bis 1.400 Gruppen. Zudem können sechs verschiedene Anforderungsniveaus (von der Hilfskraft bis zum Betriebsbesitzer) unterschieden werden. Die Orte können über das GOV ausgewiesen werden und hatte ich in unsere Daten auch schon eingebracht. Das könnt Ihr dann sicherlich auch in Regionen bringen. Und der Familienname ist dann ja Euer Untersuchungsfeld. Sobald wir die Daten von Jesper bekommen, können wir loslegen.

Hallo Max, können wir vielleicht mal telefonieren? Ich habe jetzt mit @jzedlitz und @Georg.Fertig über das Verfahren gesprochen. Wir würden folgendes vorschlagen: Wir machen gerade eine Datenbeschreibung des Datensatzes fertig, damit Du die Daten besser verstehen kannst und über den Du die Daten dann auch zitieren kannst, obwohl wir dir die Daten direkt übergeben und nicht in Gänze dort publizieren. Außerdem würden wir gerne einen kleinen Vertrag mit Dir abschließen, der regelt, wie die Daten unter cc-by-Lizenz von Dir verwendet werden können. Dabei wollen wir nur eine Weitergabe an Dritte ausschließen und die Zitation klären. Dazu brauche ich noch mal Deine Dienstadresse und vielleicht eine Telefonnummer.

ja gerne: Max Deter - Team - Professur Öffentlicher Sektor, Finanz- und Sozialpolitik - Universität Potsdam

Telefon am besten: 015738377392

Hallo Max,

kleine Zwischenfrage: braucht es für das Projekt eher

  1. quick & dirty einen sehr großen Datenbestand, wo aber auch z.B. Einträge doppelt stehen oder nicht so richtig bekannt ist, ob das Adressbuch komplett oder nur teilweise erfasst wurde,
  2. einen weniger großen Teildatenbestand, der kurzfristig schon mal transparent und sauber vorliegt,
  3. einen gründlich kuratierten Bestand, in der Größe zwischen 1 und 2, der aber noch ein paar Wochen Zeit braucht?

Wir sind im Hintergrund durchaus gut vorangekommen, die älteren (offline erfassten) Datenbestände bereiten aber noch das eine oder andere Problem, und sie machen in der Menge auch einen großen Anteil aus.

Grüße, Georg

Hallo Georg,

danke für die Nachricht! Also falls das ginge, würden wir schon einmal mit 2. anfangen, um zu schauen, wie die Daten aussehen und wie wir die genau in unser Projekt einbauen können. Und dann würden wir aber gerne auch noch auf 3. warten, für die finale Version des Forschungspojekts

Falls so etwas eher schwierig ist, würden wir vielleicht lieber auf 3. warten, ggf. auch abhängig davon, wie lange das dann dauern würde.

Vielen Dank schon einmal für eure tolle Arbeit!
Beste Grüße,
Max

Hallo Georg,

ich wollte mich mal kurz erkundigen, wie der Stand bei den Adressbüchern ist? Könnte man ggf. schon einmal eine Vorabversion bekommen, um zu schauen, wie man das in unser Forschungsprojekt einbauen kann? Das wär super!

VG,
Max

Hallo Max,
ich war jetzt ein paar Wochen privat anderweitig beansprucht. Am Freitag setze ich mich mit Katrin zusammen und schaue den aktuellen Stand an. Eine Probefassung können wir sicherlich auch fertigmachen.
Viele Grüße, Georg

Hallo Georg,

kein Problem und vielen Dank fürs Kümmern!

VG,
Max