Forschungsbericht 2022 - Max-Planck-Institut für demografische Forschung
Was Daten aus Online-Genealogien über die Lebenserwartung vergangener Jahrhunderte verraten
What data from online genealogies reveal about historical life expectancy
Arbeitsbereich „Fertilität und Wohlbefinden“ am Max-Planck-Institut für demografische Forschung, Rostock; Max Geldner Assistenzprofessor für quantitative Wirtschaftsgeschichte, Universität Basel (Stelter)
Familienstammbäume zu erstellen, hat eine lange Tradition. Aus verschiedenen Archiven und historischen Dokumenten tragen engagierte Bürgerwissenschaftlerinnen und Bürgerwissenschaftler Daten zusammen und verknüpfen diese in Ahnentafeln. Durch die digitale Transformation der Gesellschaft verlagert sich ein erheblicher Teil sozialer Interaktion in digitale Sphären. Plattformen werden dabei zum Archiv für Spuren dieser Interaktionen und für nutzergenerierte Inhalte. Sie sind von großem Interesse für die Forschung.
Mein Kollege Robert Stelter und ich gingen deshalb folgender Frage nach: Können wir Daten aus Ahnenforschungsportalen für die demografische Analyse der Sterblichkeit in vergangenen Jahrhunderten nutzen [1]? Für eine Antwort haben wir beispielhaft einen im Rahmen des Projekts FamiLinx [2] extrahierten Datensatz von nutzergenerierten Familienstammbäumen untersucht. Er besteht aus Daten von Geni.com, einer von MyHeritage betriebenen und an private Nutzerinnen und Nutzer gerichteten Ahnenforschungsplattform, die Daten von über 86 Millionen Individuen bereithält.
So entwickelte sich die Lebenserwartung zwischen 1500 und 1910
Mit den FamiLinx-Daten berechneten wir die Lebenserwartung von Männern im Deutschen Reich, auf dem Gebiet der Reichsgründung von 1871, für den Zeitraum von 1500 bis 1910 und in den Niederlanden von 1600 bis 1909. Anschließend verglichen wir sie mit entsprechenden Werten zweier Referenzbevölkerungen. Sterbetafeln der amtlichen Statistiken geben Aufschluss über die Sterblichkeit der allgemeinen Bevölkerung. Die Lebenserwartung von Wissenschaftlern hingegen repräsentiert die Sterblichkeit einer Elite [3]. Allerdings gibt es für den Zeitabschnitt vor 1871 keine verlässlichen Sterbetafeln für das Gebiet des Deutschen Reiches. Für die Niederlande gilt das für die Zeit vor 1850. Deshalb beschränkten wir den Vergleich mit der allgemeinen Bevölkerung für beide Länder auf diese Zeiträume.
Die Lebenserwartung berechnen wir mithilfe von Periodensterbetafeln. Eine Sterbetafel bildet tabellarisch ab, wie sich ein fest vorgegebener Bestand an Neugeborenen einer hypothetischen Bevölkerung mit voranschreitendem Alter durch den Einfluss der Sterblichkeit sukzessive reduziert. Unsere Periodensterbetafel gibt an, wie viele Personen nach Ablauf des ersten, zweiten, dritten und jedes weiteren Lebensjahres noch leben oder bereits gestorben wären. Konkret berechneten wir die verbleibende Lebenserwartung von Männern im Alter von 30 Jahren, die zwischen 1500 und 1910 im Deutschen Reich und von 1600 bis 1909 in den Niederlanden gelebt haben.
Für die Zeiträume von 1871 bis 1910 im Deutschen Reich und 1850 bis 1909 in den Niederlanden gibt es Daten aus allen drei Quellen: aus FamiLinx, aus den amtlichen Sterbetafeln und aus den Daten über Forscher, die in diesem Zeitraum gelebt haben. Wir verglichen die für alle drei Datenquellen berechnete restliche Lebenserwartung der Männer im Alter von 30 Jahren und stellten fest, dass die Lebenserwartung in FamiLinx sowohl im Deutschen Reich als auch in den Niederlanden die Lebenserwartung in den Sterbetafeln der amtlichen Statistik übertrifft.
Sind Daten aus Ahnenforschungsportalen repräsentativ für die allgemeine Bevölkerung?
Die FamiLinx-Lebenserwartung im Deutschen Reich von 1871 bis 1880 ist um sieben Jahre höher als die der amtlichen Sterbetafeln. Sie übertrifft sogar jene der Wissenschaftler um 1,7 Jahre wie in Abbildung 2 (Variante 2 der Forscher) dargestellt. Für die Niederlande ist der Unterschied zwischen der FamiLinx-Lebenserwartung und der Lebenserwartung der amtlichen Statistik geringer: Er liegt bei „nur“ 2,5 Jahren. Obwohl die FamiLinx-Lebenserwartung dort um 6,6 Jahre kürzer als die der Wissenschaftler ist, bleibt nur eine Schlussfolgerung: Die Lebenserwartung der Männer aus den FamiLinx-Daten entspricht am Ende des 19. Jahrhunderts nicht der der allgemeinen männlichen Bevölkerung.
Die Männer aus der FamiLinx-Datenbank werden nicht nur älter als die durchschnittliche männliche Bevölkerung Ende des 19. Jahrhunderts, sie sterben auch meist in einem ähnlichen Alter. Die Streuung der Lebenserwartung ist demnach nicht so groß wie in der allgemeinen Bevölkerung. Hier gibt es mehr Männer, die jung versterben.
Eine mögliche Erklärung für unsere Ergebnisse ist, dass die Eliten in Ahnenforschungsportalen überrepräsentiert sind. Denn der Anteil der Wissenschaftler an der Bevölkerung in den FamiLinx-Daten ist deutlich höher als in der allgemeinen Bevölkerung und die Lebenserwartung von Eliten und sozioökonomisch bessergestellten Personen war und ist die meiste Zeit in der Geschichte höher als die Lebenserwartung von niedriger stehenden sozialen Gruppen.
Digitale Quellen bergen auch Risiken
Daten aus digitalen Quellen versprechen neue Einblicke in unterschiedliche soziale Phänomene, bergen jedoch einige Risiken. Die in den genealogischen Daten überrepräsentierten Eliten können historische Trends der Lebenserwartung verzerren. Forschende, die mit diesen Daten arbeiten, sollten sich dieser Tatsache bewusst sein und passende Methoden wählen. Deshalb arbeiten wir zurzeit an einem statistischen Modell, das verschiedene Arten von Bias korrigieren soll [4]. Diese Art der Grundlagenforschung wird die stetig wachsende Anzahl der vielen Millionen Einträge aus Familienstammbäumen besser für die demografische Forschung nutzbar machen. Das Ziel ist, die Geschichte der Bevölkerungsentwicklung jenseits von Sterblichkeitstrends zu untersuchen.
Literaturhinweise
Demographic Research (2022)