Forschungsbericht 2014 - Max-Planck-Institut für Intelligente Systeme, Standort Tübingen

Lernende Roboter

Autoren
Trimpe, Sebastian
Abteilungen
Autonome Motorik
Zusammenfassung
Ein explodiertes Kraftwerk, eingestürzte Gebäude nach einem Erdbeben, ein brennender Gefahrguttransporter – allesamt Beispiele gefährlicher Situationen für menschliche Notfallhelfer. Was wäre, wenn wir Roboter statt Menschen in den Einsatz schicken könnten? Forscher in der Abteilung für Autonome Motorik arbeiten an den wissenschaftlichen Grundlagen, um künftig intelligente Roboter zu bauen, die uns in Gefahrensituationen aus der Klemme helfen können. Eine entscheidende Voraussetzung, um diese Vision zu realisieren: Roboter müssen lernfähig werden.

Vision autonomer Roboter: Hilfe in Gefahrensituationen

Sobald das Einsatzteam den Ort der Explosion erreicht, laden sie die zwei humanoiden Roboter ab. Die Roboter haben menschliche Gestalt – mit zwei Beinen, zwei Armen und einem Kopf – es sind aber hochkomplexe Maschinen mit zahlreichen Sensorsystemen, Computern und mindestens so stark wie ein Mensch. Nach dem Einschalten recken die Roboter zunächst ihre Arme und Beine, stehen dann auf und laufen ein paar Schritte in mäßigem Tempo – ähnlich wie Athleten, die sich auf einem Wettkampf vorbereiten. Nach nur wenigen Minuten sind die beiden bereit: Sie rennen los in Richtung des teilweise eingestürzten und noch brennenden Fabrikgebäudes. Auf dem Weg stolpert einer plötzlich über einige Steine auf dem Vorplatz. Aber er steht wieder auf, läuft weiter und erreicht ohne erneut zu stürzen das Gebäude. Da der Eingang blockiert ist, klettern die Roboter durch ein Fenster. Dann entdeckt einer der Roboter einen Menschen unter einer eingestürzten Wand. Gemeinsam räumen sie den Schutt zur Seite und bergen den Verletzten. Nachdem die Roboter Ärzte und Helfer alarmiert haben, arbeiten sie sich selbstständig weiter durch das Inferno, auf der Suche nach weiteren verschütteten Personen und Gefahrenquellen.

Autonome Roboter als Helfer in der Not – noch sind sie eine Zukunftsvision. In der 2012 gegründeten Abteilung für Autonome Motorik des Tübinger Max-Planck-Instituts für Intelligente Systeme gehen die Wissenschaftler grundlegenden Forschungsfragen nach, die beantwortet werden müssen, um einst intelligente Systeme wie die beiden Notfallroboter zu realisieren. Der humanoide Roboter Athena (siehe Abb. 1) könnte ein Vorfahre solcher Roboter sein. Erst vor kurzem ist Athena in Tübingen angekommen – übrigens als erster Roboter weltweit als „normaler“ Passagier eines Linienflugs (siehe: www.mpg.de/athena). Athena ist ein Unikat. In den kommenden Jahren wird sie die Wissenschaftler der Abteilung beschäftigen, die aus ihr einen autonomen und lernenden Roboter machen wollen.

Sich in unbekannter Umgebung zurechtfinden – eine Herausforderung für die Robotik

Schon seit den 70er Jahren werden Roboter vielfach und erfolgreich in der Industrie eingesetzt. Dabei wiederholen Industrieroboter zumeist genau vorgegebene Aufgaben; zum Beispiel setzen sie Schweißpunkte an immer dieselben, genau spezifizierten Stellen. Einmal programmiert, kann der Roboter so ohne viel Wartungsaufwand Stunden, Tage oder gar Jahre lang seinen Job verrichten. Im Gegensatz dazu warten auf autonome Roboter weitaus größere Herausforderungen: Die Roboter sollen selbstständig anspruchsvolle Aufgaben erledigen und zwar in Situationen, die vorab noch nicht genau bekannt sind. Der autonome Gefahrenhelfer muss zunächst seine Umgebung und Situation wahrnehmen (z. B. einen verschütteten Menschen finden), dann selbstständig eine Entscheidung treffen (den Schutt wegräumen) und diese in die Tat umsetzen. Der Roboter muss ständig seine Aktionen an die aktuelle Situation anpassen.

Wahrnehmen, Entscheiden, Handeln – und Lernen

Seine Umgebung nimmt der Roboter über Sensoren wie Kameras, Kraftmesser oder laserbasierte Entfernungssensoren wahr. Auch über den Zustand seines eigenen Körpers weiß der Roboter durch entsprechende Sensoren Bescheid. Alle diese Informationen nutzt er, um situativ und flexibel zu reagieren: Seine Computerprogramme verarbeiten die Sensordaten und treffen eine Entscheidung über die nächste Aktion. Diese setzt der Roboter dann durch seine elektrischen, pneumatischen oder hydraulischen Antriebe in die Tat um: Der Roboter greift ein Objekt, macht einen Schritt oder drückt gegen eine Tür. Er tritt also mit seiner Umgebung in Wechselwirkung und kann sie so beeinflussen. Das Resultat nimmt der Roboter wiederum über seine Sensoren wahr und korrigiert seine Handlung wenn nötig. Der Kreislauf aus Wahrnehmen, Entscheiden und Handeln wird ständig durchlaufen, zum Beispiel mehrere hundert Mal pro Sekunde.

Dieser Kreislauf, man nennt ihn auch einem geschlossenen Regelkreis (siehe Abb. 2), ist essentiell für einen Roboter, um angemessen zu reagieren. Für wirklich autonomes Verhalten ist aber eine weitere Komponente entscheidend: Der Roboter muss lernfähig sein. Denn zu dem Zeitpunkt, wenn der Roboter programmiert wird, ist noch nicht genau klar, in welchen Situationen er sich einmal zurechtfinden werden muss. Deshalb muss er in der Lage sein, sich anzupassen und dazuzulernen.

Selbstlernende Regelsysteme

Für das Funktionieren eines Regelkreises ist der Algorithmus, also das Computerprogramm entscheidend, welches aus den Sensordaten die Korrekturen für die Antriebe berechnet. Aus der Regelungs- und Steuerungstheorie sind Verfahren bekannt, mit denen solche automatischen Entscheidungsalgorithmen entworfen werden können. Der Entwurf und die Implementierung der Algorithmen erfordern oft eine mathematische Modellbildung, umfangreiche Simulationsstudien sowie experimentelle Tests. Dieser Prozess ist zeitaufwendig und erfordert Expertenwissen. Für die Vision eines autonomen Roboters ist das unbefriedigend: Der Roboter soll (in gewissen Grenzen) selbst in der Lage sein, seine Regelkreise einzustellen und anzupassen. Wenn sich die beiden Roboter in eingangs dargestellter Vision auf ihren Einsatz vorbereiten, führen sie solche Anpassungen durch: Sie kalibrieren Sensoren, passen Reglerparameter an und überprüfen Funktionalitäten. Wenn ein Roboter im Lauf hinfällt, zieht er daraus wichtige Informationen, wie er seine Laufregelung anpassen muss, um anschließend nicht mehr zu fallen. Durch ein Fenster sind die Roboter noch nie geklettert, aber sie meistern diese Aufgabe trotzdem. Das alles sind Beispiele für selbstlernende Regelsysteme – eine der Hauptforschungsrichtungen in der Abteilung für Autonome Motorik.

In der Abteilung wird zum Beispiel untersucht, wie Verfahren des maschinellen Lernens auf Regelsysteme in der Robotik angewandt werden können. Beim maschinellen Lernen geht es darum, mit einer Maschine (einem Computer) in einer oft großen Menge empirischer Daten automatisch Strukturen zu erkennen und so Erkenntnisse zu gewinnen [2]. Das hat in den letzten Jahren erstaunliche Erfolgsgeschichten hervorgebracht: individuelle Produktempfehlungen bei Online-Händlern sind inzwischen Standard; handelsübliche Fotokameras erkennen automatisch Gesichter; und IBM’s Computersystem Watson nutzte unter anderem Lernalgorithmen, als es 2011 zwei menschliche Gegner in der US-amerikanischen Quiz-Sendung Jeopardy! schlug [3]. Typischerweise wird der Lernalgorithmus mit einem Satz an Trainingsdaten konfrontiert, beispielsweise hunderte von Bildern mit der Angabe, wo ein Gesicht darauf zu sehen ist. Wenn die Maschine erfolgreich lernt, kann sie auf ihr unbekannten Bildern dann mit einer gewissen Erfolgswahrscheinlichkeit ebenfalls Gesichter erkennen. Wie lange der Lernprozess dauert, ist dabei oft von untergeordneter Bedeutung.

Besondere Herausforderungen

Im Gegensatz zu typischen Anwendungen des maschinellen Lernens stellt Lernen in der Robotik ein dynamisches Problem dar. Der Roboter generiert die Sensordaten, aus denen er lernen soll, selbst. Denn er entscheidet, wie er sich bewegt, wo er hinsieht oder wohin er läuft. Das Ergebnis des Lernprozesses verändert wiederum das Verhalten des Roboters, beispielsweise bewegt er sich effizienter oder läuft sicherer. Das heißt, das Verhalten des Roboters und der Lernprozess beeinflussen sich gegenseitig und bilden damit einen dynamischen Prozess. Das hat verschiedene Implikationen: 1) Statt einmalig, soll der Roboter kontinuierlich aus seinen Sensordaten lernen – idealerweise immer und während seiner gesamten Lebenszeit. Lernen muss also schnell und effizient sein. 2) Weil der Roboter die Daten, aus denen er lernt, selbst generieren muss, ergibt sich oft ein fundamentales Dilemma: Um etwas Neues zu lernen oder besser zu werden, muss der Roboter neues Verhalten ausprobieren, d. h. bewusst von bereits gelerntem Verhalten abweichen. Er kann so zeitweilig auch schlechter werden. 3) Da sich durch Lernen das Verhalten des Roboters ändert, gilt es sicherzustellen, dass diese Veränderung nicht in die „falsche Richtung“ passiert. Sonst stürzt der Roboter, der eben noch ohne Probleme laufen konnte. Es ist daher essentiell, dass man von vornherein gewisse Garantien für den Lernalgorithmus geben kann, dass er trotz möglicher Widrigkeiten zu sinnvollen und ungefährlichen Ergebnissen führt. Das kann mithilfe mathematischer Beweistechniken geschehen.

Trotz dieser besonderen Herausforderungen gibt es bereits Beispiele, in denen Roboter unterschiedlicher Art erfolgreich lernen [4]: zum Beispiel Jonglieren [5], Fortbewegen auf schwierigem Untergrund [6], Tischtennis spielen [7] oder Fliegen akrobatischer Manöver [8] (siehe Abb. 3). Allerdings handelt es sich dabei meist um Laborexperimente, bei denen unter kontrollierten Bedingungen eine bestimmte Fähigkeit gelernt wurde. Eine große Herausforderung besteht darin, Lernverfahren zu entwickeln, die kontinuierlich und jederzeit im Hintergrund laufen – ohne dass sie besondere Aufmerksamkeit benötigen, ohne dass sie Schaden anrichten können und so dass sie trotzdem relevante Verbesserungen erzielen. In wie weit solche Lernverfahren für allgemeine dynamische Systeme erreicht werden können, oder zumindest für spezielle Anwendungen, ist eine grundlegende Fragestellung, der die Wissenschaftler in der Abteilung für Autonome Motorik nachgehen.

Forschung in der Abteilung für Autonome Motorik

Lernalgorithmen für die Regelung und Steuerung von Robotern sind dabei nur eines der Forschungsthemen in der Abteilung. Wie in Abbildung 2 dargestellt, betrifft der Aspekt des Lernens sämtliche Komponenten des autonomen Systems, also beispielsweise auch die Wahrnehmung. Je mehr ein Roboter von der Welt gesehen hat, umso besser sollte er sie verstehen und relevante Aspekte erkennen können. Gleichfalls ist Lernen wichtig, um Handlungen zu verbessern – also zum Beispiel das Laufen auf zwei Beinen und das Hantieren mit den Armen. Einige weitere Forschungsthemen in der Abteilung für Autonome Motorik sind computergestütztes Sehen, aktive Wahrnehmung, Fusion multipler Sensordaten, optimale Schätz- und Entscheidungsverfahren, Lokomotion zweibeiniger Roboter, Manipulation, Kommunikation zwischen Maschinen, Mensch-Maschine-Interaktion sowie neurowissenschaftliche Studien menschlicher Bewegung. Am Ende sind Fortschritte in allen diesen Bereichen nötig, wenn die Vision intelligenter Roboter – die gleichzeitig autonom, lernfähig und robust sind – einmal Realität werden soll.

Literaturhinweise

Spatz, J. P.; Schaal, S.
Intelligent Systems: Bits and Bots
Nature, Research Perspectives of the Max Planck Society (2014)
Schölkopf, B.
Statistische Lerntheorie und Empirische Inferenz

Forschungsbericht, Jahrbuch der Max-Planck-Gesellschaft (2004)

Ferrucci, D. A.
Introduction to "This is Watson"
IBM Journal of Research and Development 56, 1:1-1:15 (2012)
Schaal, S.; Atkeson, C. G.
Learning control in robotics

IEEE Robotics & Automation Magazine 17, 20-29 (2010)

Schaal, S.; Atkeson, C. G.
Robot juggling: implementation of memory-based learning

IEEE Control Systems Magazine 14, 57-71 (1994)

Kalakrishnan, M.; Buchli, J.; Pastor, P.; Mistry, M.; Schaal, S.
Learning, planning, and control for quadruped locomotion over challenging terrain

The International Journal of Robotics Research 30, 236-258 (2011)

Mülling, K.; Kober, J.; Kroemer, O.; Peters, J.
Learning to select and generalize striking movements in robot table tennis
The International Journal of Robotics Research 32, 263-279 (2013)
Lupashin, S.; Schollig, A. P.; Sherback, M.; D'Andrea, R.
A simple learning strategy for high-speed quadrocopter multi-flips
IEEE International Conference on Robotics and Automation, 1642-1648 (2010)

Weitere interessante Beiträge

Go to Editor View