Originally published at: Debatte: Wie öffentliche Genealogie-Daten der Wissenschaft helfen – oder auch irreführend genutzt werden • Verein für Computergenealogie e.V. (CompGen)
In dieser Reihe soll für die genealogische Öffentlichkeit am konkreten Beispiel gezeigt werden, wie die aus dem Hobby entstandenen Daten für akademische Projekte genutzt werden. Die jüngst vom Wirtschaftshistoriker Gregory Clark veröffentlichte Studie ist hierfür ein interessantes, aber problematisches Beispiel (hier im Blog zusammengefasst). Als Vertreter desselben Faches wie Clark – oder genauer gesagt: als Vertreter der geschichtswissenschaftlichen Ausprägung des Faches, in dem Clark als Wirtschaftswissenschaftler seit Jahrzehnten vielbeachtete Beiträge geleistet hat – lese ich seine Studie mit einer gewissen Skepsis. Clark ist ein bedeutender Wissenschaftler, und wie andere Kolleg:innen habe auch ich schon seit Jahrzehnten seine Überblicksdarstellungen und seine klaren Erläuterungen dessen genutzt, was in der ökonomischen Analyse historischer Bevölkerungsentwicklungen Stand des Wissens ist. Clark versucht nun aber seit Jahrzehnten, den einen entscheidenden Schlüssel für die geschichtliche Entwicklung hin zu immer mehr Reichtum in der Genetik zu finden. Dieser Schlüssel liege – wie er meint – in der angeborenen wirtschaftlichen Leistungsfähigkeit der englischen Oberschichten.
Dem mag man von vornherein kritisch gegenüberstehen, oder man mag es als interessante These gelten lassen. Die Frage wäre einzuordnen in ein ziemlich unermessliches Forschungsfeld, und die endgültigen Antworten scheinen mir noch nicht gegeben. Allein auf Clarks erstes Buch in den Nullerjahren, in dem er seine These entfaltete, gab es von den Vertreter:innen des Fachs dutzende kritische Rezensionen. Mein Unbehagen bezüglich seiner neuesten Arbeit ist vor allem auf die konkrete Anlage der Untersuchung gerichtet. Dies bezieht sich auf zwei Aspekte.
Wirkungslose Sozialreformen?
Erstens: Das Ziel der Untersuchung könnte man so verstehen, als ob Clark anhand neuer Daten herausfinden wollte, ob es denn einen Einfluss bestimmter sozialer Reformen auf das Ausmaß von Statusvererbung und damit auf die Chancengleichheit von Menschen verschiedener sozialer Herkunft gibt. Aber das ist schon von der ganzen Anlage der Untersuchung her nicht das, was er „heraus“ holt, sondern: es ist das, was er „hinein“ tut. Das gilt nicht nur für Clark allein, sondern für die ganze Richtung der an Th. Robert Malthus orientierten demographischen Wirtschaftsgeschichte von ihren Anfängen um 1800 an: Schon Malthus wollte zeigen, dass jegliche Form von staatlicher Umverteilung verpufft, und diese Überzeugung stellt seither eine Grundlage wirtschaftswissenschaftlicher Modellierungen und marktliberaler Politik dar. Eine Untersuchung, die diesen Glaubenssatz in eine testbare Hypothese umsetzt, müsste von vornherein ganz anders angelegt sein als das, was uns hier vorgestellt wird. Sie müsste operationalisieren, welche Art von Reform sich an welcher Stelle im Datenmaterial wie auswirkt. Zum Beispiel: Führt Schulpflicht (dann und dann dort und dort eingeführt) dazu, dass (dann und dann in genau dieser Region) die Lesefähigkeit weniger von der Familie abhängt als zuvor?
Wer so etwas testet, muss nicht nur Schulpflicht und Lesefähigkeit konkret messen, sondern auch einbeziehen, dass Lesefähigkeit von mehreren Einflussfaktoren abhängt (da wären viele zu benennen). Die Untersuchung muss also – zumindest – multivariat angelegt werden, wenn nicht sogar komplexe Verfahren mit Instrumentvariablen eingesetzt werden. Clark – der ein ausgezeichnetes Verständnis von Ökonometrie hat – geht hier aber nicht im Mindesten in diese Richtung, ergebnisoffen multivariate Hypothesen zu testen. Im Gegenteil, die wirklich ganz offensichtliche Einflussgröße „Vermögen“ wird in der Analyse absichtlich von vornherein weggelassen, weil es ja klar ist, dass Vermögen sich nicht genetisch vererbt und es ihm einfach nur darum geht, eine Geschichte zu erzählen, in der genetische Formeln als Sprachbilder plausibel scheinen. Die Pointe der Analyse liegt darin, dass die verschiedenen Maßzahlen für sozialen Status (Lesefähigkeit, Beruf, Immobilien usw.) durchgängig immer nach dem gleichen Muster zwischen nahen und fernen Blutsverwandten verteilt sind, nämlich so, dass sehr nahe Blutsverwandte sich auch sozial ähnlich und entferntere eher unähnlich sind. Dieses Muster ist eines, das man auch bei einer biologisch verursachten Weitergabe von Eigenschaften erwarten würde – und so hat Clark mal wieder ein Argument für seine eine große These gefunden. Plädoyers zu halten wäre aber normalerweise nicht die Aufgabe von Wissenschaftlern, sondern von Rechtsanwälten. Rechtsanwälte plädieren – Wissenschaftler testen.
Datenselektion und Verzerrung
Zweitens: Für uns ist vor allem interessant, dass Clark hier die Daten von sog. „One Name Societies“ nutzt, gesammelt von der „Guild of One-Name Studies“, die als Dachorganisation auch andere solche Vereine versammelt. Das ist ein bestimmter Typ von genealogischer Forschung, der in England verbreitet ist. Wie F. Cannell (hier S. 61) berichtet, sind One-Name Societies dabei eher eliteorientiert, im Unterschied zur populären Familiengeschichte, die sich eher für die einfachen Leute und die Ortsgeschichte interessiert. Das Zusammenstellen von Forschungsdatensätzen für eine bestimmte Fragestellung ist ja nun eine wichtige Tätigkeit, bei der man – bezogen auf die Fragestellung – sehr aufmerksam sein sollte. Immer dann, wenn das untersuchte Phänomen einen Einfluss darauf hat, ob ein bestimmter Datenpunkt mit in die Stichprobe kommt, haben wir ein Problem. Nun wird behauptet, dass eine „Datenselektion hin zu lebenden Nachfahren“ bei den One-Name Studies nicht gilt. Noch heikler für Clarks These ist das Thema „Datenselektion hin zu Nachfahren mit ähnlichem Status“.
Hierzu nun ein paar grundsätzliche Bemerkungen, die sich mehr oder weniger auf jede Art der Nutzung genealogischer Daten für statistische Zwecke beziehen. Das Problem der Datenselektion oder „Bias“, Verzerrung, ist keine Frage der Qualität, sondern der Zweckmäßigkeit für eine bestimmte Forschungsfrage. Ein Aspekt dabei ist die „Datenselektion hin zu lebenden Nachfahren“. Es geht dabei nicht darum, One-Name Studies hier für „bessere“ oder „schlechtere“ Genealogie zu erklären, sondern um die Frage, wie gut diese Daten für die Forschungsfrage z.B. nach der Statusweitergabe, aber auch nach anderen Dingen wie z.B. der Lebensdauer, dem Heiratsalter usw. taugen. Schauen wir uns erst die Frage an, bei welchen Datensammlungen die „Datenselektion hin zu lebenden Nachfahren“ stark oder weniger stark ins Gewicht fällt. Mit anderen Worten: Welcher Teil der Bevölkerung um 1800, um 1700 usw. hat eine gute Chance, in genealogischen Datenbanken aufzutauchen? Da sind für verschiedene Typen von Genealogie und geschichtlicher Familienforschung verschiedene Antworten zu geben:
Für die relativ verbreitete „Ahnenforschung“ nur nach den eigenen Vorfahren: Besser dokumentiert sind Menschen, die Genealogen unter ihren direkten Nachfahren haben (also die eher gute Lebensbedingungen hatten und daher auch mehr überlebende Nachfahren, von denen dann einige Genealogie betreiben).
Für „Ahnenforschung“ mitsamt Seitenlinien: Besser dokumentiert sind Menschen, die Genealogen unter ihren direkten Nachfahren oder auch unter den Nachfahren ihrer Cousins usw. haben („Vorteil“ auch hier für Menschen mit guten Lebensbedingungen).
Für One-Name Studies: Besser dokumentiert sind Menschen in der Vergangenheit, die One-Name-Genealogen unter ihren direkten Nachfahren in männlicher Linie haben, oder unter den Nachfahren namensgleicher Familien (ähnlicher Effekt). Dass One-Name-Genealogie in England in der Gegenwart tendenziell eher ein Hobby von Ober- oder Mittelschichtsfamilien ist, fügt noch eine weitere Verzerrung hinzu.
Für Forschung zur örtlichen Genealogie (deutsche Ortsfamilienbücher, englische Local Population Studies): Besser dokumentiert sind eben nicht die Menschen mit den guten Lebensbedingungen, sondern Menschen, die in Orten lebten, die es heute noch gibt oder für die sich Genealogen interessieren. Menschen aus untergegangenen Orten sind also unterrepräsentiert, ebenso wie Menschen aus großen, aufwendig zu untersuchenden Städten.
Entscheidend ist aber gar nicht so sehr, ob der untersuchte Datenbestand typisch oder untypisch für die gesamte damalige Gesellschaft mit ihrer ungleichen Verteilung von Lebenschancen war, sondern jeweils bezogen auf die Fragestellung, ob es eine „Datenselektion hin zu bestimmten Antworten auf meine Forschungsfrage“ gibt. Clark hätte also ganz besonders nach der „Datenselektion hin zu Nachfahren mit ähnlichem Status“ fragen müssen. Mit dieser ist nun allerdings bei wahrscheinlich allen genealogischen Forschungsverfahren zu rechnen: Diejenigen Vor- oder Nachfahren, die einen ähnlichen Lebensweg wie die bereits bekannten Probanden eingeschlagen haben, ob sie denselben Beruf, dieselbe Adresse, dieselbe Bildungsinstitution wählen, sind in den Quellen ganz grundsätzlich leichter zu entdecken als die Abwanderer, die schwarzen Schafe, die aus-der-Reihe-Tänzer. Ähnliche Probleme der „Datenselektion hin zu bestimmten Antworten auf meine Forschungsfrage“ gibt es auch in anderen Bereichen der historisch-demographischen Forschung mit genealogischen Daten, z.B. bei der Berechnung des Heirats- oder Sterbealters aus Daten vom Typ Ortsfamilienbuch, die das spätere Schicksal Abgewanderter nicht (oder nicht systematisch) dokumentieren: Wer erst nach dem Abwandern heiratet oder stirbt, wird in die Berechnung nicht einbezogen, sodass das berechnete Durchschnittsalter für Eheschließung und Tod zu niedrig ist. Auf diese Verzerrungen zu achten, ist in der Historischen Demographie eine Selbstverständlichkeit.