Forschungsbericht 2022 - Max-Planck-Institut für demografische Forschung

Was Daten aus Online-Genealogien über die Lebenserwartung vergangener Jahrhunderte verraten

Autoren
Alburez-Gutierrez, Diego; Stelter, Robert
Abteilungen
Max-Planck-Forschungsgruppe „Ungleichheiten in Verwandtschaftsbeziehungen“ (Alburez-Gutierrez)
Arbeitsbereich „Fertilität und Wohlbefinden“ am Max-Planck-Institut für demografische Forschung, Rostock; Max Geldner Assistenzprofessor für quantitative Wirtschaftsgeschichte, Universität Basel (Stelter)
Zusammenfassung
Um Daten aus Ahnenforschungsportalen für demografische Analysen der Sterblichkeit in vergangenen Jahrhunderten zu nutzen, müssen verschiedene Arten von Bias erkannt und korrigiert werden. Das zeigt Diego Alburez-Gutierrez vom MPI für demografische Forschung zusammen mit Robert Stelter am Beispiel eines Datensatzes von nutzergenerierten Familienstammbäumen aus dem Projekt FamiLinx. Dafür haben die Forscher die verbleibende Lebenserwartung von Männern im Alter von 30 Jahren berechnet, die zwischen 1500 und 1910 im Deutschen Reich und 1600 und 1909 in den Niederlanden gelebt haben.

Familienstammbäume zu erstellen, hat eine lange Tradition. Aus verschiedenen Archiven und historischen Dokumenten tragen engagierte Bürgerwissenschaftlerinnen und Bürgerwissenschaftler Daten zusammen und verknüpfen diese in Ahnentafeln. Durch die digitale Transformation der Gesellschaft verlagert sich ein erheblicher Teil sozialer Interaktion in digitale Sphären. Plattformen werden dabei zum Archiv für Spuren dieser Interaktionen und für nutzergenerierte Inhalte. Sie sind von großem Interesse für die Forschung.

Mein Kollege Robert Stelter und ich gingen deshalb folgender Frage nach: Können wir Daten aus Ahnenforschungsportalen für die demografische Analyse der Sterblichkeit in vergangenen Jahrhunderten nutzen [1]? Für eine Antwort haben wir beispielhaft einen im Rahmen des Projekts FamiLinx [2] extrahierten Datensatz von nutzergenerierten Familienstammbäumen untersucht. Er besteht aus Daten von Geni.com, einer von MyHeritage betriebenen und an private Nutzerinnen und Nutzer gerichteten Ahnenforschungsplattform, die Daten von über 86 Millionen Individuen bereithält.

So entwickelte sich die Lebenserwartung zwischen 1500 und 1910

Mit den FamiLinx-Daten berechneten wir die Lebenserwartung von Männern im Deutschen Reich, auf dem Gebiet der Reichsgründung von 1871, für den Zeitraum von 1500 bis 1910 und in den Niederlanden von 1600 bis 1909. Anschließend verglichen wir sie mit entsprechenden Werten zweier Referenzbevölkerungen. Sterbetafeln der amtlichen Statistiken geben Aufschluss über die Sterblichkeit der allgemeinen Bevölkerung. Die Lebenserwartung von Wissenschaftlern hingegen repräsentiert die Sterblichkeit einer Elite [3]. Allerdings gibt es für den Zeitabschnitt vor 1871 keine verlässlichen Sterbetafeln für das Gebiet des Deutschen Reiches. Für die Niederlande gilt das für die Zeit vor 1850. Deshalb beschränkten wir den Vergleich mit der allgemeinen Bevölkerung für beide Länder auf diese Zeiträume.

Die Lebenserwartung berechnen wir mithilfe von Periodensterbetafeln. Eine Sterbetafel bildet tabellarisch ab, wie sich ein fest vorgegebener Bestand an Neugeborenen einer hypothetischen Bevölkerung mit voranschreitendem Alter durch den Einfluss der Sterblichkeit sukzessive reduziert. Unsere Periodensterbetafel gibt an, wie viele Personen nach Ablauf des ersten, zweiten, dritten und jedes weiteren Lebensjahres noch leben oder bereits gestorben wären. Konkret berechneten wir die verbleibende Lebenserwartung von Männern im Alter von 30 Jahren, die zwischen 1500 und 1910 im Deutschen Reich und von 1600 bis 1909 in den Niederlanden gelebt haben.

Für die Zeiträume von 1871 bis 1910 im Deutschen Reich und 1850 bis 1909 in den Niederlanden gibt es Daten aus allen drei Quellen: aus FamiLinx, aus den amtlichen Sterbetafeln und aus den Daten über Forscher, die in diesem Zeitraum gelebt haben. Wir verglichen die für alle drei Datenquellen berechnete restliche Lebenserwartung der Männer im Alter von 30 Jahren und stellten fest, dass die Lebenserwartung in FamiLinx sowohl im Deutschen Reich als auch in den Niederlanden die Lebenserwartung in den Sterbetafeln der amtlichen Statistik übertrifft.

Sind Daten aus Ahnenforschungsportalen repräsentativ für die allgemeine Bevölkerung?

Die FamiLinx-Lebenserwartung im Deutschen Reich von 1871 bis 1880 ist um sieben Jahre höher als die der amtlichen Sterbetafeln. Sie übertrifft sogar jene der Wissenschaftler um 1,7 Jahre wie in Abbildung 2 (Variante 2 der Forscher) dargestellt. Für die Niederlande ist der Unterschied zwischen der FamiLinx-Lebenserwartung und der Lebenserwartung der amtlichen Statistik geringer: Er liegt bei „nur“ 2,5 Jahren. Obwohl die FamiLinx-Lebenserwartung dort um 6,6 Jahre kürzer als die der Wissenschaftler ist, bleibt nur eine Schlussfolgerung: Die Lebenserwartung der Männer aus den FamiLinx-Daten entspricht am Ende des 19. Jahrhunderts nicht der der allgemeinen männlichen Bevölkerung.

Die Männer aus der FamiLinx-Datenbank werden nicht nur älter als die durchschnittliche männliche Bevölkerung Ende des 19. Jahrhunderts, sie sterben auch meist in einem ähnlichen Alter. Die Streuung der Lebenserwartung ist demnach nicht so groß wie in der allgemeinen Bevölkerung. Hier gibt es mehr Männer, die jung versterben.

Eine mögliche Erklärung für unsere Ergebnisse ist, dass die Eliten in Ahnenforschungsportalen überrepräsentiert sind. Denn der Anteil der Wissenschaftler an der Bevölkerung in den FamiLinx-Daten ist deutlich höher als in der allgemeinen Bevölkerung und die Lebenserwartung von Eliten und sozioökonomisch bessergestellten Personen war und ist die meiste Zeit in der Geschichte höher als die Lebenserwartung von niedriger stehenden sozialen Gruppen.

Digitale Quellen bergen auch Risiken

Daten aus digitalen Quellen versprechen neue Einblicke in unterschiedliche soziale Phänomene, bergen jedoch einige Risiken. Die in den genealogischen Daten überrepräsentierten Eliten können historische Trends der Lebenserwartung verzerren. Forschende, die mit diesen Daten arbeiten, sollten sich dieser Tatsache bewusst sein und passende Methoden wählen. Deshalb arbeiten wir zurzeit an einem statistischen Modell, das verschiedene Arten von Bias korrigieren soll [4]. Diese Art der Grundlagenforschung wird die stetig wachsende Anzahl der vielen Millionen Einträge aus Familienstammbäumen besser für die demografische Forschung nutzbar machen. Das Ziel ist, die Geschichte der Bevölkerungsentwicklung jenseits von Sterblichkeitstrends zu untersuchen.

Literaturhinweise

Stelter, R.; Alburez-Gutierrez, D.
Representativeness is crucial for inferring demographic processes from online genealogies: evidence from lifespan dynamics
PNAS 119 (10) e2120455119 (2022)
Kaplanis, J.; Gordon, A.; Shor, T.; Weissbrod, O.; Geiger, D.; Wahl, M.; Gershovits, M.; Markus, B.; Sheikh, M.; Gymrek, M.; Bhatia, G.; MacArthur, D.G.; Price, A. L.; Erlich, Y.
Quantitative analysis of population-scale family trees with millions of relatives
Science 360 (6385), 171–175 (2018)
Stelter, R.; de la Croix, D.; Myrskylä, M.
Leaders and laggards in life expectancy among European scholars from the sixteenth to the early twentieth century
Demography 58 (1), 111–135 (2021)
Chong, M.; Alburez-Gutierrez, D.; Del Fava, E.; Alexander, M.; Zagheni, E.
Identifying and correcting bias in big crowd-sourced online genealogies
MPIDR Working Paper WP-2022-005
Demographic Research (2022)
Go to Editor View