Forschungsbericht 2020 - Max-Planck-Institut für Bildungsforschung

Was optimales Studiendesign mit Brückenbau zu tun hat und warum nicht nur die Stichprobengröße zählt

Autoren
Brandmaier, Andreas M.
Abteilungen
Forschungsbereich Entwicklungspsychologie
Zusammenfassung
Am Anfang jeder wissenschaftlichen Studie stehen Entwurf und Planung. Nur so kann sie erfolgreich sein. Bei der Bewertung des geplanten Vorgehens wird oft die statistische Teststärke betrachtet, die angibt, mit welcher Wahrscheinlichkeit sich ein vermuteter Effekt zeigen lässt. In der Praxis wird die Teststärke häufig nur als Funktion der Stichprobengröße betrachtet. Aktuelle Forschung fasst Studienentwurf systematisch als ingenieurstechnisches Problem auf und zeigt, dass es weitere Stellschrauben gibt, mit denen Studien effizienter und kostengünstiger realisierbar sind.

Stellen Sie sich ein Tal mit einem reißenden Fluss vor. Als Leiterin oder Leiter der kommunalen Bauabteilung sollen Sie den Bau einer Brücke über dieses Tal planen. Aufgrund der knappen Haushaltslage steht Ihnen für den Bau lediglich ein begrenztes Budget für den Erwerb von Stahlträgern und -seilen zur Verfügung. Dennoch muss die Brücke später auch unter hochfrequentem Lastenverkehr und bei Sturm tragfähig sein. Diese ingenieurstechnische Herausforderung kann man formal als Optimierungsproblem unter Nebenbedingungen betrachten: Maximieren Sie die mögliche Traglast der Brücke mit einem fixen Budget. Was hat dieses Beispiel mit wissenschaftlichem Arbeiten gemein? Meine Kollegen und ich argumentieren, dass die Konzeption einer wissenschaftlichen Studie – sei es eine beobachtende Studie oder ein Experiment – einem solchen ingenieurstechnischen Problem ähnelt [1].

Das generelle Ziel von Wissenschaft ist es, die Realität zu erklären. Dazu werden typischerweise Hypothesen entworfen, die in empirischen Studien überprüft werden. Am Forschungsbereich Entwicklungspsychologie des Max-Planck-Instituts für Bildungsforschung in Berlin erforschen wir beispielsweise die Entwicklung des Menschen von der Geburt bis ins hohe Alter. In unseren Studien ist es besonders wichtig, Längsschnittuntersuchungen durchzuführen, das heißt, Probanden mehrfach – teils über Jahre oder gar Jahrzehnte hinweg – zu testen, um individuelle Unterschiede in der Entwicklung des Erlebens, Denkens und Verhaltens zu beschreiben und mit Veränderungen des Gehirns in Verbindung zu bringen [2]. Ein wichtiger Qualitätsindikator solcher Studien ist die Teststärke, eine statistische Eigenschaft, die besagt, wie hoch die Wahrscheinlichkeit ist, dass die Studie einen angenommenen Effekt finden kann, wenn er wirklich existiert. Hier finden wir also unser Optimierungsproblem: Nichts scheint näher zu liegen, als die Teststärke einer geplanten Studie zu maximieren.

Öfter messen oder mit größeren Abständen?

In Längsschnittstudien wird die Teststärke von verschiedenen Faktoren beeinflusst. Ist man zum Beispiel am Umfang der individuellen Unterschiede von Entwicklung interessiert – etwa an der Frage, in welchem Ausmaß sich altersbedingte Veränderungen kognitiver Leistungsfähigkeit zwischen Personen unterscheiden –, sind entscheidende Faktoren für die Teststärke die Dauer der Studie (je länger, desto besser), die Häufigkeit der Messungen (je häufiger, desto besser) und die Reliabilität des Messinstruments (je präziser, desto besser). Diese Faktoren können aber nur bedingt variiert werden, da häufig verschiedene Nebenbedingungen eingehalten werden müssen. Beispielsweise dürfen Testungen nicht zu lange dauern, um Probanden nicht zu ermüden, zu viele Testungen riskieren das Ausscheiden von Teilnehmern und das zuverlässigste Messinstrument mag sehr teuer sein. Das heißt, genauso wie es verschiedene Konstruktionen für Brücken gibt (zum Beispiel Schrägseilbrücke, Bogenbrücke oder Hängebrücke), können wir Studien auf verschiedene Art und Weise konstruieren. In einem möglichen Design messen wir die altersbedingte Veränderung einer Fähigkeit beispielsweise nur selten, aber über einen langen Zeitraum. In einem anderen Design messen wir über eine kurze Dauer, dafür sehr häufig. Mittels einer von uns entwickelten Software [1] lassen sich solche alternativen Studiendesigns systematisch generieren, so dass diese alle dieselbe Teststärke aufweisen, sich aber in ihren Designfaktoren und damit auch den Kosten und dem Ressourcenbedarf unterscheiden.

Weniger ist mehr?

Was aber ist zu tun, wenn eine höhere Teststärke erwünscht ist? Auch wenn es kontraintuitiv erscheint: Die Teststärke lässt sich erhöhen, indem man für einen Großteil der Probandinnen und Probanden die Zahl der Messungen verringert – das ist ein sogenanntes Planned Missing Data Design. Durch ein solches gezieltes Auslassen einiger Messungen können die eingesparten Ressourcen – wie zum Beispiel Versuchspersonengelder – dafür genutzt werden, eine größere Personenanzahl zu testen. [3]. Statt beispielsweise 100 Personen je dreimal über zwei Jahre hinweg in der Entwicklung ihrer Gedächtnisleistung zu untersuchen, kann man eine größere Anzahl Personen in drei unabhängige Gruppen aufteilen, von denen eine Gruppe an allen drei Messzeitpunkten gemessen wird, eine Gruppe nur zu Studienbeginn und nach einem Jahr sowie eine Gruppe nur zu Studienbeginn und nach zwei Jahren (siehe Abb. 2). Insgesamt können die Gesamtstichprobengröße und die Teststärke für eine bestimmte Hypothese dann höher sein als bei einem herkömmlichen Studiendesign.

Optimale Studienkonzeption

Für empirisch Forschende ist es essenziell, eine Studie so zu konzipieren, dass sie einen Effekt mit großer Wahrscheinlichkeit finden kann. Andernfalls läuft man nicht nur Gefahr, die investierten Ressourcen ohne Erkenntnisgewinn zu verschwenden, sondern erhöht sogar die Wahrscheinlichkeit sowohl für falsch negative als auch falsch positive Befunde. Zunehmend fordern Forschungsförderer und wissenschaftliche Zeitschriften (beispielsweise im Rahmen der Präregistrierung von Hypothesen) eine Evaluation der Teststärke von Studiendesigns. Oft wird dabei lediglich die Stichprobengröße berücksichtigt. Unsere Forschungsergebnisse zeigen jedoch, dass es verschiedene weitere Stellschrauben gibt, mit denen man wissenschaftliche Studien innerhalb des gleichen Budgetrahmens effizienter oder mit identischer Teststärke kostengünstiger durchführen kann.

Literaturhinweise

Brandmaier, A. M.; von Oertzen, T.; Ghisletta, P.; Hertzog, C.; Lindenberger, U.
LIFESPAN: A tool for the computer-aided design of longitudinal studies
Frontiers in Psychology 6, Article 272 (2015)
Bender, A. R.; Prindle, J. J.; Brandmaier, A. M.; Raz, N.
White matter and memory in healthy adults: Coupled changes over two year
NeuroImage 131, 193–204 (2016)
Brandmaier, A. M.; Ghisletta, P.; von Oertzen, T.
Optimal planned missing data design for linear latent growth curve models
Behavior Research Methods 52, 1445–1458 (2020)
Go to Editor View