Forschungsbericht 2015 - Max-Planck-Institut für Intelligente Systeme, Standort Tübingen

Roboter lernen sehen

Autoren
Geiger, Andreas
Abteilungen
Abteilung Perzeptive Systeme
Zusammenfassung
Autonome Fahrzeuge und intelligente Haushaltshelfer könnten schon bald unseren Alltag angenehmer und sicherer gestalten. Um autonom handeln zu können, müssen solche Systeme allerdings zunächst lernen, ihre Umgebung wahrzunehmen. Beispielsweise müssen Entfernung geschätzt, Bewegungen gemessen, Objekte erkannt und die dreidimensionale Szene als Ganzes interpretiert werden. Während dem Menschen die Wahrnehmung mühelos erscheint, müssen Computer dieselben Fähigkeiten erst erlernen. Wir entwickeln mathematische Modelle, die es Computern erlauben, ihre Umgebung robust wahrzunehmen.

Zukunftsvision Intelligente Roboter

Noch ist es eine Zukunftsvision, aber schon bald könnten intelligente Roboter unser Leben in vielfältiger Weise sicherer und angenehmer machen. Autonome Fahrzeuge würden uns sicher zum Arbeitsplatz bringen und zugleich neue zeitliche Freiräume schaffen. Warensendungen und Lebensmittel könnten ohne menschliches Zutun geliefert, Staus durch kooperatives Kolonnenfahren verringert und Unfälle durch zuverlässige Technik vermieden werden. Personen, die selbst kein Fahrzeug führen können, würden an Mobilität gewinnen. Aber auch im Haushalt könnten Roboter Arbeiten übernehmen, die weit über die Fähigkeiten heutiger Haushaltsroboter hinausgehen. So könnten intelligente Roboter Geschirr abräumen und spülen, die Wäsche waschen, das Bad reinigen, Möbel zusammenbauen und Reparaturen aller Art durchführen. In unserer alternden Gesellschaft könnten insbesondere pflegebedürftige Personen profitieren, da Pflegekräfte durch technische Unterstützung mehr Zeit für die Zuwendung zum Patienten gewinnen würden. Weitere Szenarien für intelligente Roboter sind Katastropheneinsätze, automatisierte Materialprüfung, Kartographie, Raumfahrt und medizinische Eingriffe, um nur einige Beispiele zu nennen.

Roboter lernen Sehen

Um wie ein Mensch Entscheidungen treffen zu können und mit der Umwelt zu interagieren, müssen Roboter zunächst ihre Umwelt wahrnehmen. Einer der wichtigsten und kostengünstigsten Sensoren dabei ist die digitale Kamera, welche ähnlich dem menschlichen Auge ein Abbild der dreidimensionalen Umgebung auf die zweidimensionale Bildfläche zeichnet. Während Anfang der 1960-er Jahre noch die Überzeugung herrschte, dass die Gewinnung von Informationen aus Kamerabildern ein einfaches Problem darstellt, haben sich aus den ersten Anstrengungen mittlerweile große Forschungsfelder, insbesondere das “maschinelle Sehen” und das “maschinelle Lernen” entwickelt. Die Schwierigkeit besteht darin, die großen Mengen an aufgezeichneter Information in einfache, abstrakte Signale umzuwandeln. Zur Veranschaulichung dient im Folgenden das autonome Fahren.

Um Tiefeninformationen gewinnen zu können, werden in modernen Fahrzeugen Stereokameras genutzt, welche – ähnlich dem menschlichen Sehmechanismus – aus zwei leicht versetzten Bildsensoren aufgebaut sind. Bei einer Aufzeichnungsgeschwindigkeit von 25 Bildern pro Sekunde und einer Auflösung von 2 Millionen Pixeln pro Bild entspricht dies 50 Millionen Intensitäts- oder Farbwerten pro Sekunde. Aus dieser Datenflut müssen nun einige wenige Steuersignale für das Fahrzeug extrahiert werden, wie beispielsweise Signale für Gas, Bremse sowie Lenkung. Die korrekte Umwandlung der hochdimensionalen Eingangsdaten in abstrakte niedrigdimensionale Steuersignale ist jedoch nicht nur mit einem extrem hohen Rechenaufwand verbunden. Sie ist auch mathematisch äußerst anspruchsvoll. So erzeugt ein und dieselbe Szene zu unterschiedlichen Tageszeiten komplett verschiedene Bilder, beispielsweise durch unterschiedlichen Sonnenstand oder Witterungsbedingungen. Keines der Pixel ähnelt sich mehr. Basierend auf Erfahrungen und Kontextinformation hat der Mensch gelernt, solch irrelevante Informationen zu abstrahieren und seinen Blick “aufs Wesentliche” zu lenken. Ein Computer muss dies dagegen erst mühsam erlernen, um in allen Situationen korrekt reagieren zu können. Darüber hinaus sind nicht alle Pixel in einem Bild für die zu lösende Aufgabe gleich wichtig. So erscheinen entscheidende Objekte oft sehr klein, wie zum Beispiel ein Verkehrsschild oder ein von einem Fahrzeug teilweise verdeckter Fußgänger am Fahrbahnrand. Während der Mensch weiß, auf was zu achten ist, muss ein Computer sich diese Kenntnisse erst aneignen.

Eine Welt voller Strukturen

Um Robotern das Sehen beizubringen, müssen aus der eingehenden Datenflut die für den Roboter relevanten Informationen zuverlässig herausgefiltert werden. Relevante Informationen sind hierbei unter anderem die Position des Roboters in einer Karte, die 3D-Position und Orientierung der ihn umgebenden Objekte, die Bewegung von Objekten, die Objektart und mögliche Formen der Interaktion (zum Beispiel die Möglichkeit, das Objekt zu greifen), der begehbare beziehungsweise befahrbare Bereich, Hindernisse sowie die Struktur der unmittelbaren Umgebung. Zur Rekonstruktion der Umgebung und zur Schätzung der Bewegung lassen sich dabei Korrespondenzen in Kamerabildern heranziehen; also Pixel, die in unterschiedlichen Bildern den gleichen Objektpunkt zeigen. Wird beispielsweise dieselbe Szene zu einem Zeitpunkt mit Hilfe zweier Kameras aus zwei unterschiedlichen Blickwinkeln aufgenommen, so lässt sich ein dreidimensionaler Weltpunkt aus einer Merkmalskorrespondenz durch Triangulation schätzen. Korrespondenzen müssen auch dann gefunden werden, wenn die Bewegung im Bild oder in der dreidimensionalen Umgebung geschätzt werden soll. Um beispielsweise die Position von Verkehrsteilnehmern in der unmittelbaren Zukunft vorherzusagen, muss zunächst die vergangene Bewegung des Objektes bekannt sein. Während die Suche von korrespondierenden Bildpunkten in texturierten Bereichen relativ einfach ist, ergeben sich für homogene, reflektierende oder spiegelnde Oberflächen keine eindeutigen Zuordnungen, da viele Bildpunkte als Korrespondenz für ein Referenzpixel in Frage kommen. Im Gegensatz zur Computergrafik, welche die Projektion einer 3D-Szene in die Bildebene modelliert, muss beim maschinellen Sehen das inverse Problem gelöst werden. Dieses ist jedoch schlecht gestellt, da nur zweidimensionale Abbildungen der tatsächlichen dreidimensionalen Welt beobachtet werden. Mehrdeutigkeiten bei der Bildkorrespondenzsuche sind nur ein Beispiel hierfür.

Glücklicherweise ist unsere Welt nicht beliebig aufgebaut, sondern weist reichhaltige Strukturen auf. So sind 3D-Oberflächen typischerweise glatt; Objektgrenzen fallen meist mit einem Farb- oder Grauwertübergang zusammen. Auch müssen physikalische Gesetze gelten: So können etwa Objekte nicht ohne Antrieb in der Luft schweben, und die meisten Objekte durchdringen sich nicht gegenseitig. Aber nicht nur die Natur, auch der Mensch schafft vielfältige Regelmäßigkeiten. So werden Straßen meist von Häusern gesäumt, deren Wände ihrerseits wieder in rechten Winkeln angeordnet sind. Betten stehen häufiger an einer Wand als in der Mitte eines Raumes, und Nachttische kommen häufiger im Schlafzimmer als im Flur vor. Stühle stehen meist um einen Tisch, und Waschbecken gibt es vorwiegend in Küche und Bad. Die Nutzung dieses strukturellen Wissens kann dabei helfen, Mehrdeutigkeiten aufzulösen und ein konsistenteres, genaueres und vollständigeres Schätzergebnis zu erzielen. Zur Modellierung können sogenannte graphische Modelle herangezogen werden, die zeigen, wie Objekte und Beobachtungen gegenseitig und miteinander statistisch in Beziehung stehen. Der Graph in Abbildung 2 beschreibt dabei, welche Abhängigkeiten für das Modell relevant sind, und macht unsicherheitsbehaftete Zustandsschätzungen mit vertretbarem Rechenaufwand erst möglich.

Zur Veranschaulichung sind im Folgenden fünf Beispiele aktueller Forschung aufgeführt, welche sich die Gesetzmäßigkeiten der Welt auf diese Weise zu Nutze machen.

Bekannte Geometrien

Algorithmen zur Stereorekonstruktion, also zur Tiefengewinnung aus zwei gleichzeitig aufgenommenen Bildern, haben in den letzten Jahren an Genauigkeit, Effizienz und Flexibilität hinzugewonnen [1]. Dennoch bleiben einige Probleme nach wie vor ungelöst. So lassen sich unter anderem texturarme und reflektierende Oberflächen nur schlecht oder gar nicht rekonstruieren. Im schlimmsten Fall kommt es zu Fehlmessungen, die katastrophale Folgen für ein sicherheitsrelevantes technisches System haben könnten. Der Grund für das Versagen existierender Verfahren sind die üblicherweise eingesetzten, relativ schwachen Weltannahmen, welche typischerweise stückweise Glattheit von Oberflächen erfordern. Die statistischen Abhängigkeiten in Tiefendaten sind aber deutlich komplexer. In [2] wird daher ein Verfahren vorgeschlagen, welches Objektwissen nutzen kann. Die Idee dabei ist, dass Objekte einer bestimmten semantischen Kategorie (wie etwa Autos, Gebäude oder Straße) keine beliebigen dreidimensionalen Formen aufweisen, sondern gewissen geometrische Regelmäßigkeiten folgen. Diese Regelmäßigkeiten können ausgenutzt werden, um den Suchraum für die Rekonstruktion einzuschränken, und führen dadurch zu genaueren Tiefenkarten [3].

Ähnliche Formen

Eine andere Art von Objektwissen, welche zur Rekonstruktion verwendet werden kann, ist die Tatsache, dass viele von Menschen geschaffene Strukturen, wie etwa Autos oder Häuser, geometrische Ähnlichkeit aufweisen. In [4] werden diese Annahmen ausgenutzt, um Objekte besser rekonstruieren zu können. Insbesondere lassen sich dadurch Bereiche, die der Sensor etwa aufgrund von Verdeckungen schlecht oder gar nicht einsehen kann, rekonstruieren.

Starre Bewegungen

Unsere Welt ist voller Dynamik, Objekte bewegen sich in unterschiedlichste Richtungen. Allerdings ist auch diese Dynamik nicht zufällig, sondern strukturiert. So bewegen sich die meisten Verkehrsteilnehmer als ein starres Ganzes. Dies erlaubt die Beschreibung von dynamischen Szenen durch die Bewegungsparameter jedes einzelnen Objekts, wie in [5] vorgeschlagen. Im Vergleich zu einer Pixel-basierten Bewegungsschätzung müssen so deutlich weniger Variablen repräsentiert und geschätzt werden. Das macht das Ergebnis zugleich genauer und robuster.

Ganzheitliche Räume

Weltwissen kann auch die Schätzung von kompletten 3D-Szenen stützen. [6] beschreibt ein Modell, das basierend auf einem einzigen Farbbild und einem Tiefenbild die Position, Geometrie und Semantik aller Objekte in der Szene sowie die begrenzenden Wände, den Fußboden und die Raumdecke schätzen kann. Ermöglicht wird dies durch die Integration von 3D-CAD-Modellen, welche die Form von Objekten sowie deren Größe beschreiben und als a-priori Wissen genutzt werden. Die ganzheitliche Betrachtung inklusive Kontextinformation (zum Beispiel relative Position von bestimmten Objekttypen) erlaubt dabei eine robuste und physikalisch plausible Schätzung der dreidimensionalen Szene.

Autonomes Fahren

Eine der schwierigsten Situationen für autonome Fahrzeuge ist das Befahren von innerstädtischen Straßenkreuzungen, da die ungünstige Perspektive der im Fahrzeug angebrachten Kamera, Verdeckungen sowie fehlerhafte Fahrbahnmarkierungen für Unsicherheit sorgen. Zur Lösung des Problems wird in [7,8] ein generatives Modell vorgeschlagen, welches eine Straßenszene hierarchisch repräsentiert. So ist das Modell in der Lage, aufbauend auf Hypothesen der Straßentopologie und -geometrie, die Position von Gebäuden zu schätzen und Fahrzeuge zu den wahrscheinlichsten Fahrspuren zuzuordnen. Fahrtrichtung und -geschwindigkeit der Fahrzeuge werden dabei über die Straßengeometrie in Bezug zur aktuellen Ampelsituation und zur Position und Geschwindigkeit anderer Verkehrsteilnehmer gesetzt und ermöglichen so eine ganzheitliche und robuste Interpretation der Szene unter Berücksichtigung typischer Verkehrssituationen.

Ausblick

Die Forschung wird noch eine Weile brauchen, bis Roboter es mit dem überaus komplexen Sehvermögen eines Menschen werden aufnehmen können. Letztendlich ist Sehen die Umwandlung von Licht in Bedeutung. Licht, das von Oberflächen reflektiert wird und in den Augen oder auf der Bildebene einer Kamera ankommt, muss sinnvoll interpretiert werden, um nützlich für einen Organismus oder Roboter zu sein. Diese Interpretation ist ein Prozess der Folgerung aus mehrdeutigen und unvollständigen Messungen unter Berücksichtigung von Erfahrung und Wissen. Die Abteilung “Perzeptive Systeme” am MPI für Intelligente Systeme fokussiert sich auf die Aufdeckung der grundlegenden mathematischen und computergestützten Grundsätze, die diesem Prozess zugrunde liegen. Dies beinhaltet ein statistisches Verständnis der Welt mit ihren Formen, Bewegungen und Materialeigenschaften, sowie die Modellierung der Abbildungsverfahren (einschließlich optischer Unschärfe, Bewegungsunschärfe, Rauschen, Diskretisierung) und die Ausarbeitung von Algorithmen, um Lichtmessungen in Informationen über die Struktur der Welt umzuwandeln.

Literaturhinweise

Schönbein M., Geiger A.
Omnidirectional 3D Reconstruction in Augmented Manhattan Worlds
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 716-723 (2014)

Güney F., Geiger A.

      

 Displets: Resolving Stereo Ambiguities using Object Knowledge
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4165-4175 (2015)
Geiger A., Lenz P., Urtasun R.
Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite

IEEE Conference on Computer Vision and Pattern Recognition (CVPR),  3354-3361 (2012)

Zhou C., Güney F., Wang Y., Geiger A.

  

Exploiting Object Similarity in 3D Reconstruction
IEEE International Conference on Computer Vision (ICCV), 2201-2209 (2015)

Menze M., Geiger A.

 

Object Scene Flow for Autonomous Vehicles
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3061-3070 (2015)

Geiger A., Wang C.

    

Joint 3D Object and Layout Inference from a single RGB-D Image

Pattern Recognition. German Conference on Pattern Recognition (GCPR), 183-195 (2015)

Geiger A., Lauer M., Wojek C., Stiller C., Urtasun R.

3D Traffic Scene Understanding from Movable Platform

IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(5), 1012-1025 (2014)

Zhang H., Geiger A., Urtasun R.

Understanding high-level Semantics by modeling Traffic Patterns

IEEE International Conference on Computer Vision (ICCV), 3056-3063 (2013)

Weitere interessante Beiträge

Zur Redakteursansicht