Forschungsbericht 2003 - Max-Planck-Institut für Plasmaphysik

Datenanalyse mithilfe der Bayes’schen Wahrscheinlichkeitstheorie

Data analysis via Bayesian probability theory

Autoren
Dose, Volker
Abteilungen

Astrophysikalische und Labor-Plasma-Studien (Prof. Dr. Günther Hasinger)
MPI für Plasmaphysik, Garching

Zusammenfassung
Die Datenanalyse mithilfe der Bayes’schen Wahrscheinlichkeitstheorie ist einer der Beiträge des IPP zur institutsübergreifenden Forschungsinitiative "Centre for Interdisciplinary Plasma Science" (IPP/MPE). Dabei handelt es sich um die optimale Lösung schlecht gestellter oder gar unterbestimmter inverser Probleme. Aus dem Spektrum der bearbeiteten Probleme wird je ein Beispiel aus der Plasmaphysik, der Astronomie und der Klimaforschung vorgestellt.
Summary
Data analysis employing Bayesian probability theory constitutes one of the IPP contributions to the inter-institutional collaboration "Centre for Interdisciplinary Plasma Science" (IPP/MPE). The goal of this project is the optimal solution of ill conditioned or even underdetermined inverse problems. From the spectrum of activities we present examples from the field of plasma physics, astronomy and climatology.

In einem Brief an Papst Urban VIII. zur Widerlegung des kopernikanischen Weltbildes heißt es: "Tiere, die sich bewegen, verfügen über Gliedmaßen und Muskeln. Die Erde besitzt weder Gliedmaßen noch Muskeln; also bewegt sie sich nicht." Die Aussage erscheint uns heute natürlich grotesk. Zu ihrer Zeit war sie es jedoch nicht, sondern der inverse Schluss stellte ein ernsthaftes philosophisches Problem dar. Die Lösung stammt von dem englischen Geistlichen Thomas Bayes FRS, dessen Arbeit "An essay towards solving a problem in the doctrine of chances" 1763 posthum veröffentlicht wurde. Die Formulierung der Bayes’schen Theorie, wie sie heutigen Tages in den Naturwissenschaften verwendet wird, stammt allerdings von Pierre Simon de Laplace, der auch erste Anwendungen auf Probleme der Himmelsmechanik, der medizinischen Statistik und sogar auf rechtliche Probleme präsentierte. Der fast zweihundertjährige Dornröschenschlaf der Theorie liegt unter anderem in dem teilweise erheblichen numerischen Aufwand begründet, den ihre Anwendung erfordert. Mit der zunehmenden Verfügbarkeit nahezu unbegrenzter Rechenmöglichkeiten ist dies eigentlich sehr alte Gebiet der Wissenschaft jedoch unversehens wieder hochmodern geworden.

Zunächst scheint der Weg von der Philosophie der Aufklärung zur Analyse von Daten aus physikalischen Experimenten oder Beobachtungen nicht gerade direkt zu verlaufen. Und doch ist er es. Traditionell sieht man in der Physik den Grad an Übereinstimmung zwischen experimentell erhobenen Daten und einer aus dem Modell entwickelten Rechnung als Gütemaßstab für eine physikalische Modellvorstellung an. Je kleiner die Abweichung zwischen Experiment und Modellrechnung, umso wahrscheinlicher die Richtigkeit der Modellvorstellung.

Zwei völlig verschiedene Spektralfunktionen (blau) werden durch eine gegebene Apparatefunktion ununterscheidbar in den Datenraum abgebildet. Der inverse Schluss von den Daten auf die Spektralfunktion ist daher nicht ohne weitere Kenntnisse möglich.

Dass dieses einfache Prinzip zu grotesken Resultaten führen kann, erläutern wir anhand der Abbildung 1: Im linken Teil der Figur sind zwei hypothetische Spektralfunktionen - Modell I und II - dargestellt. Unverzerrt beobachtet werden könnten sie nur durch eine ideale Apparatur, die es natürlich nicht gibt. Jede reale Apparatur hat eine endliche Auflösung und führt daher zur Verschmierung der ursprünglichen Spektralfunktion. Wir repräsentieren die Auflösungsfunktion der Apparatur durch die rote Glockenkurve. Das Resultat einer Messung simuliert man dann, indem man die rote Kurve über die Spektralfunktion schiebt und die zu jeder Verschiebung gefundene Fläche des Produktes "Spektralfunktion mal Auflösungsfunktion" als zu der gewählten Verschiebung gehörigen Datenpunkt notiert. Das Ergebnis einer solchen Operation ist in beiden Fällen die grüne Kurve und zwar fast unabhängig davon, ob wir von der oberen oder unteren Spektralfunktion ausgehen. Die sich aus beiden Wegen ergebenden Unterschiede ließen sich nicht einmal mehr unter einem Mikroskop feststellen. Bedenkt man aber, dass die Ausgangsfunktionen sich dramatisch unterscheiden - die obere oszilliert zwischen ± 2 x 106, während die untere positiv bleibt und auf Werte kleiner als 1 x 106 beschränkt ist - so kann aus einer Messung, die ja der grünen Kurve folgen würde, nicht geschlossen werden, welche Spektralfunktion gemessen wurde. Natürlich würde man immer fordern müssen, dass die Simulation mit den gemessenen Daten übereinstimmt. Diese Bedingung ist notwendig, aber eben nicht hinreichend für den inversen Schluss. Erst die Zusatzforderung, dass aus prinzipiellen physikalischen Gründen nur eine Spektralfunktion in Frage kommt, die auf positive Werte beschränkt ist, macht den Schluss von der Betrachtung (rechts) auf eine der beiden Ursachen (links) eindeutig.

In der Praxis verläuft die Schlussweise von rechts nach links. Ausgangspunkt sind die gemessenen Daten (grün), aus denen man durch geeignete Rückrechnung der Wirkung der roten Auflösungsfunktion zum physikalischen Ergebnis (blau) kommt. Die Bayes’sche Theorie besagt, dass für diese Schlussfolge die Übereinstimmung von Simulation und Daten genauso wesentlich ist wie Expertenwissen. Letzteres kann den Raum der erreichbaren Lösungen unter Umständen, je nach der Verlässlichkeit dieses Vorwissens, erheblich einschränken. Drei Beispiele aus der aktuellen Forschung sollen nun die Leistungsfähigkeit der Bayes'schen Wahrscheinlichkeitstheorie illustrieren.

Bayes'sche Analyse in Fusionsforschung und Astronomie

Eine wichtige Messgröße in der Fusionsforschung mit Maschinen, die das Plasma durch ringförmige Magnetfelder einschließen, ist der im Plasma erreichbare Energieinhalt als Funktion von Plasmadichte, zugeführter Leistung, geometrischen Abmessungen und einschließendem Magnetfeld. Je besser der Energieeinschluss, umso heißer das Plasma und umso höher die Rate der Fusionsreaktionen. Leider gibt es für diese wichtige Kerngröße eines Fusionsplasmas keine fundamentale Theorie. Bekannt sind aber die Grundgleichungen, aus denen eine solche Theorie entstehen müsste. Ein empirischer Weg zur Beschreibung des Energieinhaltes besteht nun darin, diese Grundgleichungen einer Dimensionsanalyse zu unterwerfen und die gesuchte Funktion als einen Faktor von der Dimension einer Energie anzusetzen, in der Dichte, Magnetfeld und Geometrie vorkommen, und einer Funktion dimensionsloser Variabler, die aus den ursprünglichen Variablen Dichte, Magnetfeld, Geometrie und zugeführter Leistung gebildet werden [1]. Als allgemeine nichtlineare Funktion mehrerer Variabler eignet sich ein neuronales Netz. Die Aufgabe für die Bayes'sche Theorie besteht dann in der Bestimmung der Komplexität des Netzes, seiner Parameter und der Frage, ob die physikalischen Grundgleichungen vollständig berücksichtigt werden müssen oder ob eine der möglichen Näherungen für eine ausreichende Beschreibung der vorhandenen Daten reicht. Die letzte Frage ist von besonderer Bedeutung, da ihre Antwort signalisiert, ob eine fundamentale Theorie für ein gegebenes Experiment möglicherweise auf weniger als dem vollen Satz von physikalischen Grundgleichungen errichtet werden kann.

Abbildung 2 zeigt das Ergebnis einer solchen Untersuchung. Der verwendete Datensatz ist durch offene Kreise in einem Diagramm dargestellt, das den gemessenen Energieinhalt als Funktion der Plasmadichte zeigt. Zu jedem dieser Kreise gehören verschiedene Werte der übrigen drei Variablen Magnetfeld, Geometrie und deponierte Heizleistung. Die durchgezogene Kurve repräsentiert die aus dem Datensatz gewonnene Abhängigkeit des Energieinhalts als Funktion der Plasmadichte für festgegebene Werte von Magnetfeld, kleinem Plasmaradius und zugeführter Leistung. Solche Abhängigkeiten des Plasmaenergieinhalts von einer Variablen (hier der Dichte) sind experimentell schwer zu erhalten. Glücklicherweise gibt es sie im vorliegenden Fall. Sie sind gekennzeichnet durch volle schwarze Kreise und man sieht, dass diese Messungen hervorragend mit den aus der Bayes'schen Analyse erhaltenen Vorhersagen übereinstimmen. Als wahrscheinlichstes physikalisches Modell für den Energieinhalt ergibt sich, dass es genügt, ein stoßbehaftetes Plasma zu betrachten. Die diamagnetische Rückwirkung des Plasmas auf das äußere Magnetfeld kann hingegen vernachlässigt werden.

Daten über den Energieinhalt des Garchinger Stellarators Wendelstein 7-AS (offene Kreise) kann man zufrieden stellend mithilfe eines dimensionskorrekten Faktors, der von Dichte, Magnetfeld und Experimentgeometrie abhängt, und einer Funktion von einer bis zu drei dimensionslosen Variablen beschreiben. Die Beschreibung ermöglicht Vorhersagen über den Energieeinschluss als Funktion der Dichte bei sonst konstant gehaltenen Bedingungen (durchgezogene Kurve) mit der zugehörigen Unsicherheit (schattiertes Band). Die in diesem Fall vorhandenen entsprechenden Messdaten (volle Kreise) werden sehr gut wiedergegeben. Das Histogramm beschreibt die Anzahl der bei der jeweiligen Dichte verfügbaren Einschlussdaten (offene Kreise).

Experimentelle Daten werden selten unter ideal störfreien Bedingungen erhoben. Neben einem Signal aus einer erwünschten Quelle treten häufig Zusatzsignale aus Störquellen auf. Man bezeichnet diese unerwünschten Signalanteile auch als Untergrund. Für den Fall, dass der Untergrund als Funktion einer Steuergröße des Experiments eine andere, i. a. langsamere Variation zeigt als das gesuchte Signal, kann man versuchen, Signal und Untergrund voneinander zu separieren [2]. Das Problem tritt zum Beispiel bei der Röntgenspektroskopie auf, bei der charakteristische Linien, je nach Experiment, einem mehr oder minder starken Kontinuum überlagert sind. Ein anderes, allerdings zweidimensionales Beispiel für das Problem ist in Abbildung 3 dargestellt. Das linke Bild zeigt in Falschfarbendarstellung die vom Röntgensatelliten ROSAT in einem kleinen Beobachtungsfeld gemessene Röntgenstrahlung. Den Astronomen interessiert nun die Frage, ob die beobachtete Strahlung von lokalisierten Quellen oder von einem nicht (oder schwach) strukturierten diffusen Untergrund herrührt. Zur Simulation der Beobachtungsdaten benutzt die Bayes’sche Analyse dann ein Mischungsmodell. Es besteht aus zwei Termen, von denen der erste einen langsam variierenden Untergrund und der zweite lokalisierte Quellen beschreibt. Die beiden Terme werden mit einem Mischungsparameter zwischen null und eins linear kombiniert. Für jeden Punkt des linken Bildes in Abbildung 3 liefert die Analyse die Wahrscheinlichkeit Pu, dass er nur Untergrund enthält und die Wahrscheinlichkeit für die Alternative Pu+s, dass das Signal sich aus Untergrund und Beitrag einer lokalisierten Quelle zusammensetzt. Im rechten Bild sind diejenigen Punkte gezeigt, für die Pu+s > Pu ist und die damit mehr Quellen- als Untergrundcharakter haben.

Das linke Teilbild zeigt die im ROSAT All Sky X-Ray Survey gemessene Röntgenstrahlung für einen kleinen Beobachtungsausschnitt. Das rechte Teilbild zeigt diejenigen Bereiche, die als Ergebnis einer Bayes’schen Analyse besser durch ein Modell ‚Quelle + Untergrund’ als durch ‚Untergrund’ allein beschrieben werden.

Ein Beispiel aus der Klimaforschung

Die Leistungsfähigkeit der Bayes’schen Datenanalyse tritt immer dann überzeugend hervor, wenn es sich um Probleme mit Daten von bescheidener Genauigkeit und kleinem Umfang handelt. Neben dem soeben geschilderten Astronomiebeispiel trifft diese Limitierung ganz sicher auch für die Klimaforschung zu [3]. Man möchte zum Beispiel die Durchschnittstemperatur der Monate Februar bis April in Deutschland aus Temperaturmessungen als Funktion des Beobachtungsjahrs darstellen, um zu ermitteln, ob und in welchem Ausmaß Temperaturerhöhungen im Laufe der Zeit auftreten. In diesem Fall kämpft man mit einem in Größe und Genauigkeit so bescheidenen Datensatz (Abb. 4a), dass man sich zu Recht fragt, ob man überhaupt von einer Temperaturdrift im Laufe der Jahre sprechen kann.

In die Sprache der Wahrscheinlichkeitstheorie übersetzt, untersucht man die Alternativen "die Daten lassen sich durch eine konstante Temperatur beschreiben" und (im einfachsten Fall) "die Temperatur ändert sich linear mit dem Beobachtungsjahr". Die Rechnung zeigt, dass die lineare Variation um einen Faktor zwei wahrscheinlicher ist. Noch wahrscheinlicher ist allerdings die Modellierung der Daten mit einer Funktion, die aus zwei linearen Segmenten besteht. Sei E das Jahr, in dem die beiden Segmente stetig ineinander übergehen. Berechnet man nun die Wahrscheinlichkeit für den Wert von E, so zeigt sich, dass es kein Jahr E mit überwältigender Wahrscheinlichkeit gibt. Vielmehr gibt es eine Gruppe von Jahren, die vergleichbare Wahrscheinlichkeiten besitzen mit einem Maximum bei 8 Prozent (Abb. 4b). Die Vorgehensweise der Bayes’schen Theorie erfordert in einem solchen Fall, die Daten durch eine Überlagerung aller möglichen Zwei-Segment-Funktionen gewichtet mit ihrer jeweiligen Wahrscheinlichkeit (Abb. 4c) zu beschreiben.

Gemessene Durchschnittstemperatur für die Monate Februar bis April von 1935 bis heute (a). Die Modellierung der Daten durch zwei lineare Segmente ergibt eine Wahrscheinlichkeit (volle Quadrate) für das Übergangsjahr vom linken zum rechten Segment, die über viele Jahre verschmiert ist (b). Die gewichtete Summe aller möglichen Zweisegment-Beschreibungen mit der zugehörigen berechneten Wahrscheinlichkeit (b) ergibt den Temperaturverlauf (c), seine Ableitung ist der Trend in °C/Jahr (d).

Herausragendes Merkmal der Bayes’schen Theorie ist auch, dass die Unsicherheit einer solchen Voraussage exakt spezifiziert werden kann. Wir entnehmen der Abbildung 4c, dass die Durchschnittstemperatur von Februar bis April in Deutschland von 1935 bis 1980 schwach zurückgegangen ist, seit 1980 aber steil ansteigt. Noch deutlicher ist dieses Verhalten im Trend (Temperaturänderung °C/Jahr) zu sehen (Abb. 4d). Er beträgt gegenwärtig 0,15 °C/Jahr. Dieser Temperaturanstieg spiegelt sich wider in einschlägigen phänologischen Betrachtungen. Eine kombinierte Analyse Phänologie/Temperatur ergibt auch eine Wahrscheinlichkeit der kausalen Abhängigkeit, die doppelt so groß ist wie die für unabhängige Phänomene.

Diese drei Beispiele sollten zeigen, wie vorteilhaft die Bayes’sche Theorie zur Interpretation von fehlerhaften und unvollständigen Informationen herangezogen werden kann. Die Theorie vollbringt keine Wunder, sie bedeutet vielmehr eine Anwendung des gesunden Menschenverstands mithilfe geeigneter Rechenvorschriften [4]. Die physikalische Forschung in Deutschland beginnt gerade, dies zu entdecken.

Zur Redakteursansicht