Forschungsbericht 2016 - Max-Planck-Institut für Intelligente Systeme, Standort Tübingen

Rechnen mit Unsicherheit

Autoren
Hennig, Philipp
Abteilungen
Max-Planck-Institut für Intelligente Systeme, Standort Tübingen, Tübingen
Zusammenfassung
Lernende Maschinen stellen ständig wachsende Anforderungen an Computerhardware, möglichst schnell möglichst zuverlässige Schätzungen für eigentlich unberechenbare Größen zu liefern. Die Tübinger Forschungsgruppe für probabilistische Numerik am MPI für Intelligente Systeme entwickelt hierzu neue Algorithmen, die Rechnungen gezielt unpräzise durchführen, und nicht nur eine einzelne Schätzung, sondern ein strukturiertes Maß von Unsicherheit ausgeben. Damit lassen sich Rechenresourcen flexibler managen. Außerdem macht die Methode intelligente Systeme zuverlässiger.

Maschinelles Lernen überfordert die Fähigkeiten klassischer Computer

Die Entwicklung maschineller Intelligenz lässt sich historisch grob in zwei Phasen unterteilen: In der ersten Welle der klassischen künstlichen Intelligenz versuchten Informatiker, mit den gegebenen Fähigkeiten und Stärken digitaler Computer menschliche Fähigkeiten nachzubauen. Zum Beispiel sind Computer gut darin, eine große Menge von diskreten Objekten nach einer bestimmten Eigenschaft abzusuchen; also versuchte man, Intelligenz in darauf spezialisierte Suchalgorithmen zu gießen. Dies blieb nicht ohne Erfolg, wie beispielsweise der Sieg des Rechners Deep Blue über den Schachweltmeister Garry Kasparov zeigt. Aber mit der Zeit wurde klar, dass regelbasierte Systeme nicht für die Herausforderungen der kontinuierlichen und dynamischen “weichen” Alltagswelt geeignet sind. Schon seit den frühen 1960er Jahren entwickelte sich eine alternative Sichtweise, die heute als maschinelles Lernen bekannt ist und in den letzten Jahren zu phänomenalen Fortschritten geführt hat.

Lernende Maschinen basieren auf statistischen Modellen der natürlichen Welt, die in ihrer mathematischen Form mehr mit den analytischen Modellen der Physik als den diskreten Rechenregeln der Informatik gemein haben. Der Erfolg dieser neuen Methoden zeigt, dass sie prinzipiell mächtiger sind als regelbasierte Algorithmen. Ihr Nachteil ist aber, dass sie nach der Berechnung von fundamental unberechenbaren Größen wie dem Minimum von Funktionen mit Millionen von Parametern oder dem Volumen unter Kurven in ebenso riesigen Räumen verlangen. Die zentralen Rechenschritte moderner lernender Maschinen sind daher näherungsweise mathematische Operationen: Die Optimierung hochdimensionaler, nichtlinearer Funktionen; die Lösung von Differentialgleichungen; die Integration von multivariaten Wahrscheinlichkeitsverteilungen, und die Auflösung extrem großer linearer Gleichungssysteme.

Im Prinzip sind diese mathematischen Aufgaben nicht neu. Sie werden in ähnlicher Form auch in anderen, älteren Bereichen wie der mathematischen Physik, in Simulationen, in der Finanzmathematik und der Regelungstechnik benötigt. Das junge Feld des maschinellen Lernens hat sich bislang auf das Rechenwerkzeug dieser alten Nachbarn verlassen. Aber solche mathematischen Leihgaben stoßen immer mehr an ihre Grenzen. Im Gegensatz zu den verwandten analytischen Feldern hängen die im maschinellen Lernen verwendeten Größen selbst wiederum von externen Daten ab. Die verwendeten Datensätze sind inzwischen oft so umfangreich, dass sie nicht komplett im Arbeitsspeicher vorgehalten werden können. Daher lassen sich Rechnungen nicht mehr exakt durchführen. Der Computer kann nur kontinuierlich kleine Teile des Datensatzes von der Festplatte laden und darauf basierend die jeweils benötigten Größen berechnen. Dabei bleibt zu hoffen, dass der aktuell nicht zugängliche Rest des Datensatzes den greifbaren Daten in gewisser Wese ähnelt. Das heißt, das Rechenergebnis wird zumindest teilweise vom Zufall bestimmt: Dieselbe Operation liefert immer wieder ein anderes Ergebnis, je nachdem welche Datenpunkte durch den Arbeitsspeicher huschen. Wie sich herausstellt, sind gerade die besten klassischen numerischen Rechenverfahren zu zerbrechlich für diese Art von mathematischem Husarenritt.

Numerische Verfahren sind elementare lernende Agenten

Diese Probleme bei der Verwendung bestehender numerischer Rechenverfahren zeigen, dass die angewandte Mathematik einen wichtigen Beitrag zur Entwicklung lernender Maschinen leisten kann. Überraschenderweise gilt das gleiche aber auch anders herum. Lernende Maschinen sind durchweg empirische Inferenzalgorithmen. Sie schätzen nicht-beobachtbare, unbekannte Variablen, sogenannte latente Größen, aus Beobachtungen beziehungsweise Daten. So setzt man sie etwa ein, um zu einem Bild eines Menschen (beobachtete Pixel- Helligkeiten) den (nicht direkt zu beobachtenden) Namen der abgebildeten Person zu liefern – ähnlich wie etwa bei Suchdateien in der Kriminalistik. Auf einer elementaren Ebene lösen numerische Methoden eine ganz ähnliche Aufgabe: Auch sie schätzen den Wert einer unbekannten Größe mithilfe von bekannten Größen. Sogenannte Quadraturmethoden schätzen den Wert eines Integrals (einer latenten Größe), in dem sie den Integranten an verschiedenen Stellen auswerten. Besonders interessant ist, dass numerische Algorithmen eigenständig entscheiden, welche Daten dabei sie einsammeln – also an welcher Stelle zum Beispiel sie den Integranten auswerten sollten. Diese Rechenregeln sind also nicht einfach nur statistische Schätzmethoden, sondern aktiv agierende Agenten.

Eine ganze Reihe von Mathematikern, Statistikern und Informatikern haben im Laufe des 20. Jahrhunderts auf diese philosophische Analogie zwischen Inferenz und numerischer Rechnung hingewiesen. Die Forschungsgruppe für Probabilistische Numerik am Max-Planck-Institut für Intelligente Systeme in Tübingen arbeitet daran, diese abstrakte Beobachtung zu einer mathematischen Theorie auszubauen. Das Team unter der Leitung von Philipp Hennig beschreibt hierzu die Berechnung mathematischer Größen explizit als die Handlung eines rational handelnden, künstlich-intelligenten Systems. Dadurch entsteht eine konzeptionelle Brücke zwischen angewandter Mathematik und Informatik, die auf beiden Seiten zu neuen Erkenntnissen führen kann [1].

Wahrscheinlichkeit ist die mathematische Sprache der Unsicherheit – auch rechnerischer Unsicherheit

Das maschinelle Lernen beinhaltet sowohl angewandte als auch theoretische Aspekte. Auf theoretischer Seite hat sich die Beschreibung von Inferenz als formale Operation auf Wahrscheinlichkeitsverteilungen als eine universelle Sprache etabliert. Mit diesem sogenannten probabilistischen Formalismus lassen sich alle Inferenzvorgänge mathematisch konsistent und rigoros formulieren. Wahrscheinlichkeitsverteilungen haben den Vorteil, dass sich mit ihnen das Konzept der Unsicherheit präzise und vielseitig formulieren lässt. Auf der Suche nach einer formalen Brücke zwischen numerischer Mathematik und maschineller Intelligenz sucht das Tübinger Team daher nach der Beschreibung von Rechnung als das Sammeln von Information, um eine zunächst sehr breite, unsichere Wahrscheinlichkeitsverteilung durch Rechenergebnisse nach und nach zu einer konzentrierten, sicheren Aussage zu reduzieren. Hierzu werden Rechenschritte vom rechnenden Agenten aktiv so gewählt, dass von ihnen ein möglichst großer Wissenszuwachs über die Zielgröße zu erwarten ist.

Als wichtigen Zwischenerfolg hat die Arbeitsgruppe gezeigt, dass sich viele bereits bestehende und als äußerst zuverlässig bekannte numerische Verfahren aus dem 20. Jahrhundert auf natürliche Weise in der Sprache probabilistischer Inferenz formulieren lassen. Es stellt sich also heraus, dass wichtige Rechenmethoden gewissermaßen schon immer implizit eine innere Unsicherheit mit sich herumgetragen haben. Deren Wert hatte man bislang allerdings verkannt. Insbesondere konnten die Tübinger Forscher zeigen, dass sich mit diesem bislang ungenutzten Konzept von Unsicherheit in vielen Fällen Rechenfehlern (mit geringem zusätzlichem Rechenaufwand) sinnvoll abschätzen lassen, es also eine kalibrierte Unsicherheit liefert.

Algorithmische Zuverlässigkeit und Effizienz für maschinelle Intelligenz

Bestärkt von diesen grundlegenden mathematischen Ergebnissen entwickelte die Forschungsgruppe neue Methoden, um Lösungen für die brennendsten Rechenprobleme lernender Maschinen zu liefern. Hierzu verwendeten die Forscher nun neueste Erkenntnisse aus dem maschinellen Lernen selbst, die bislang in der numerischen Mathematik in der Form keine Aufmerksamkeit erlangt hatten. So war es besonders wichtig, Rechenalgorithmen gegen die oben genannten stochastischen Störungen von Rechnungen im “Big Data”-Regime zu machen. Beispielsweise wurde eine Methode zur automatischen Regulierung des Trainings von sogenannten tiefen neuronalen Netzen entwickelt [2], die rasch auf industrielles Interesse stieß. Mit einer neuen Familie von Methoden zur Lösung von Differentialgleichungen lassen sich Rechenfehler in bildgebenden Verfahren der Neurochirurgie effizient modellieren [3], und mit einer auf Unsicherheitsreduktion basierende Optimierungsmethode [4] lassen sich Prototypen in der Robotik automatisiert entwickeln [5]. In einer langfristigen Zusammenarbeit mit dem deutschen Krebsforschungszentrum erarbeitet die Tübinger Forschergruppe ein System zur Berechnung von therapeutischen Tumorbestrahlungsplänen. Um das Risiko von Komplikationen in der Strahlentherapie zu reduzieren, berücksichtigt das System unterschiedliche Quellen von physischer und rechnerischer Unsicherheit [6].

Neben diesen praktischen Anwendungen beschäftigt sich die Arbeitsgruppe weiterhin mit fundamentalen Fragen dazu, wie lernende Maschinen ihre internen Rechnungen effizienter und sicherer gestalten können. Unter den anstehenden Meilensteinen auf dem Forschungsplan steht zum Beispiel der Versuch, lernenden Systemen selbst mehr Kontrolle über die Wahl ihrer eigenen Rechenalgorithmen zu geben, anstatt diese wie bisher üblich manuell von einem menschlichen Entwickler implementieren und nachjustieren lassen zu müssen. Je mehr künstlich-intelligente Algorithmen Einfluss auf unseren Alltag nehmen, desto wichtiger wird auch die Frage, ob lernende Systeme ihre eigenen inneren Rechnungen auf deren Korrektheit hinterfragen und, wenn nötig, nachbessern oder gar ganz stoppen können. Die Konstruktion eines solchen algorithmischen Gewissens wird in den kommenden Jahren zu den zentralen Zielen der Tübinger Forscher gehören.

Literaturhinweise

Hennig P., Osborne M. A., Girolami M.,
Probabilistic Numerics and Uncertainty in Computations.
Proceedings of the Royal Society A, Vol. 471, Nr. 2179, (2015)

Mahsereci M., Hennig P., 

Probabilistic Line Searches for Stochastic Optimization.
Advances in Neural Information Processing Systems (NIPS), Vol. 28, pp. 181–189, (2015)

Hauberg S., Schober M., Liptrot M., Hennig P., Feragen A., 

A Random Riemannian Metric for Probabilistic Shortest-Path Tractography.
International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), Vol. 18, pp. 597–604, (2015). Springer LNCS Vol. 9389.

Hennig P., Schuler, C. H.

Entropy Search for Information Efficient Global Optimization.
Journal of Machine Learning Research (JMLR), Vol. 13, pp. 1809–1837, (2012)

Marco A., Hennig P., Bohg J., Schaal S. Trimpe S., 

 

Automatic LQR Tuning Based on Gaussian Process Global Optimization.
IEEE International Conference on Robotics and Automation (ICRA), pp. 270–277, (2016)
Bangert M., Hennig P., Oelfke U.
Analytical Probabilistic Modeling for Radiation Therapy Planning.
Physics in Biology and Medicine, Vol. 58, Nr. 16, pp. 5401–5419, (2013)
Zur Redakteursansicht