Forschungsbericht 2012 - Max-Planck-Institut für Intelligente Systeme, Standort Tübingen

Perzeptive Systeme – Computer sehen

Autoren
Gehler, Peter Vincent
Abteilungen

Perzeptive Systeme

Zusammenfassung
Unsere Forschung beschäftigt sich damit, den Prozess der visuellen Perzeption mathematisch zu formulieren. Wir möchten beschreiben, wie intelligente Systeme Bilder verstehen. Dafür entwickeln wir statistische Modelle und Lernverfahren. Wir suchen nach Möglichkeiten, Vorwissen zu repräsentieren und lassen weitere Zusammenhänge aus Bildern selbstständig erlernen. Uns interessiert es, physikalische Faktoren, wie Beleuchtung, Geometrie und Materialien, automatisch in Bildern zu erkennen. Zudem sollen Objekte und Personen in Bildern erkannt und benannt werden, die Bildszene soll verstanden werden. 

Was Computer sehen

Vor etwa 50 Jahren beauftragte Marvin Minsky einen seiner Studenten mit der Aufgabe, einen Computer mit einer Kamera zu verbinden und diesem beizubringen, was er sieht. Das könne über den Sommer zu bewerkstelligen sein. Dieses Problem hat sich allerdings als weitaus schwieriger herausgestellt und beschäftigt bis heute viele tausend Forscher weltweit.

Günstige und einfach zu bedienende Kameras haben in den letzten Jahren zu einer Explosion der Menge an digitalen Bilddaten geführt. Auf die Server des Internetdienstes Facebook werden, laut eigenen Angaben im Februar 2012, pro Sekunde 3000 neue Bilder geladen. Ähnliche Zahlen berichtet der Videodienst Youtube. Nach Angaben von Google wurden ab Mai 2011 in jeder Minute Videomaterial in einer Länge von 48 Stunden empfangen. Neben dieser Flut von Bildern und Videos eröffnen neue Sensoren die Möglichkeit, neben Bildern weitere Informationen aufzuzeichnen. Beispiele hierfür sind Stereokameras, Lichtfeldkameras (https://www.lytro.com/camera) oder aktive Sensoren wie die Microsoft Kinect. Die Kinect ist ein aktiver Sensor, mit dem neben RGB-Bildern auch Tiefeninformationen der Szene gemessen werden können.

Während die Menge des Bild- und Videomaterials explodierte, sind Computer von einem Verstehen der aufgenommenen Inhalte, wie es dem Menschen möglich ist, noch weit entfernt. In den letzten Jahren wurden in einigen Anwendungen erhebliche Fortschritte gemacht, es handelt sich dabei allerdings um sehr spezialisierte Aufgaben. Positive Beispiele sind automatische Gesichtserkennung, optische Qualitätsprüfung oder exakte Bildsuche in großen Datenmengen. Wie man Bilder verstehen kann, was zum Beispiel für eine Bildbeschreibung oder einer Suche nach den Bildinhalten notwendig wäre, ist momentan noch weitgehend unverstanden. In diesem Artikel geben wir einen Einblick in Fragestellungen der aktuellen Forschung und in unseren Ansatz, dieses Problem zu lösen.

Lernen, die Welt zu beschreiben

Ziel unserer Forschung ist es, den Prozess der visuellen Inferenz, das heißt, den Vorgang, welcher ein Bild in eine Bedeutung überführt, mathematisch präzise zu formulieren. Unter Bedeutung verstehen wir dabei sowohl die Beschreibung des physikalischen Entstehungsprozesses des Bildes als auch eine semantische Repräsentation der abgebildeten Szene.

Als Beschreibungssprache verwenden wir hauptsächlich statistische Modelle. Unsicherheit über eine Beobachtung und deren Entstehung kann durch Zufallsvariablen und deren (Un-)Abhängigkeit modelliert werden. Diese Modelle bestehen aus zwei Teilen: Vorwissen über die Welt und die Beschreibung eines Prozesses, der Beobachtungen (Bilder) erklären kann.

Ein Beispiel ist die Modellierung von Lichtverhältnissen: Welche Lichtquellen gibt es in der aufgenommenen Szene? Wo befinden sich diese? Welche Farbe und welche Intensität hat dieses Licht? Vorwissen kann in diesem Fall sein, dass sich die Lichtquelle bei Bildern unter freiem Himmel meist oben befindet. Eine Beschreibung der Beobachtung könnte zum Beispiel die Erklärung von sichtbaren Schattenwürfen in der Szene sein.

Neben diesem physikalischen Verständnis möchten wir Objekte benennen und beschreiben können, zum Beispiel Personen: Sind Personen auf dem Bild zu sehen? In welcher Pose sehen wir sie? Was für Aktivitäten führen sie aus? Ein Teil unserer Forschungsgruppe befasst sich speziell mit dem Problem, möglichst genaue Modelle von menschlichen Körpern zu entwickeln (http://ps.is.tue.mpg.de/theme/Body_Shape). Diese können dann als Vorwissen in Inferenzprozessen verwendet werden. Der Beschreibungsprozess ist kompliziert. Verschiedene Faktoren wie Körpermaße, Artikulation, Kleidung, teilweise Verdeckung der Objekte und komplizierte Beleuchtungen, führen zu einer großen Variabilität im Erscheinungsbild von Personen. Modelle zu entwickeln, welche hinreichend einfach sind, aber auch alle diese Faktoren berücksichtigen, bleiben ein offenes Problem.

Es ist falsch anzunehmen, dass eine präzise Modellierung der Wirklichkeit allein ausreicht. Das Gebiet der Computergraphik hat sich in den letzten Jahren soweit entwickelt, dass es mittlerweile fast unmöglich ist, digitale Spezialeffekte von realen Kameraaufnahmen zu unterscheiden. Das heißt, der physikalische Entstehungsprozess von Bildern ist exakt beschrieben und es ist auch möglich, diesen im Computer zu simulieren. Der inverse Prozess, vom Bild zur Beschreibung, bleibt jedoch schwierig. Dies liegt hauptsächlich an der Komplexität der Bildbeschreibungen, die in der Computergraphik verwendet werden.

Einfach ausgedrückt: Es dauert zu lang, alle möglichen Beschreibungen auszuprobieren um diejenige zu suchen, die am besten zu der Beobachtung passt. Dieser Suchprozess muss effizient bleiben, daher entwickeln wir sowohl effiziente Algorithmen und kompaktere Szenenbeschreibungen.

Lernen anhand von Beispielen

Unsere Modelle basieren auf statistischen Lernverfahren, das heißt, sie lernen aus Bilddaten. Dieser Lernprozess erfordert Trainingsbeispiele. Um beispielsweise ein System für Gesichtserkennung zu trainieren, benötigen wir sowohl eine Menge von Bildern mit Gesichtern, als auch die Informationen, wo auf dem Bild das Gesicht zu sehen ist. Diese Annotationen werden von Menschen durchgeführt.

Sollen aber komplexere Zusammenhänge bestimmt werden, wächst auch die Anforderung an die Trainingsdaten. Zum Beispiel ist eine genaue Annotation von Lichtverhältnissen und Materialeigenschaften selbst für einen Menschen schwierig. Eine Möglichkeit, auch für solche Probleme Trainingsdaten zu generieren, ist die Verwendung von Computergraphik. Dies wurde für Videodaten von unserer Gruppe an einem öffentlich verfügbaren Filmprojekt exploriert (www.sintel.org, Abb. 1) [3]. Der Vorteil von digital erzeugten Bildern ist, dass alle Faktoren und deren Zusammenhänge bekannt sind. Der Nachteil ist, dass die resultierenden Bilder vielleicht nicht realistisch genug sind. Aus solchen Daten lassen sich Modelle entwickeln, die aus Bildern die Faktoren prädizieren. Man könnte dies als inverse Computergraphik bezeichnen. 

Beispiel: Objekte in 3D

Ein viel studiertes Problem ist das der Objektdetektion: Auf einem Bild soll der Computer automatisch Bildbereiche identifizieren, welche ein bestimmtes Objekt darstellen. In Abbildung 2 ist dies an der Objektklasse Autos illustriert. Als Vorwissen modellieren wir ein Auto als eine Konstellation von mehreren Teilen, wie Rädern, Türen, etc. Außerdem erlauben wir dem Modell zu erlernen, wie diese Teile in Bildern aussehen. Der Inferenzprozess ist nun die Suche nach Bildregionen, an denen das Modell gut übereinstimmt. In [1] verwenden wir ein 3-dimensionales Modell eines Autos und dessen 2-dimensionales Erscheinungsbild. Wir erwarten, dass eine Modellierung als 3D-Objekt dazu führt, Autos genauer detektieren zu können und auch deren Orientierung in der 3-dimensionalen Szene zu bestimmen. Dies wiederum ermöglicht Rückschlüsse über die Komposition der Szene.

Wie bereits erwähnt, ist ein Teil unseres Forschungsgebietes die Entwicklung von effizienten Inferenzmethoden. In diesem Beispiel bedeutet Inferenz die Suche nach Ort und Orientierung von Autos in Bildern. Da es sehr viele mögliche Bildregionen gibt an denen sich ein Auto befinden und dieses beliebig orientiert sein kann, sollte dieser Raum möglichst effizient durchsucht werden. Wir haben einen Algorithmus entwickelt, welcher eine effiziente Baumsuche über diesen Suchraum implementiert [4]. Ein solcher effizienterer Inferenzalgorithmus ermöglicht dann wiederum die Verwendung komplexerer und genauerer Modelle.

Beispiel: Intrinsische Bilder

Als zweites Beispiel möchten wir das Problem von Zerlegungen in intrinsische Komponenten erläutern. Dieses Problem ist in Abbildung 3 dargestellt. Ein Foto eines Objektes soll in dessen Materialeigenschaften und Beleuchtungskomponenten zerlegt werden. Auf der einen Seite haben wir die Reflektanz des Objektes, eine Eigenschaft des Materials, auf der anderen Seite die Beleuchtung und den Schattenwurf, eine Eigenschaft der Form des Objektes und der Beleuchtungsumgebung.

Diese Zerlegung ist ein stark unterbestimmtes Problem, da wir weniger Observationen (Bildpixel) zur Verfügung haben, als Variablen (Reflektanz und Schatten), die wir inferieren möchten. Daher modellieren wir Vorwissen über die verschiedenen Komponenten und deren Einfluss auf das Bild, um zu physikalisch plausiblen Lösungen zu kommen. Wir können zum Beispiel annehmen, dass ein Objekt nur aus einer kleinen Zahl verschiedener Materialien besteht. Eine andere Annahme basiert auf der Beobachtung, dass der Effekt der Beleuchtung sich nicht stark über die Szene hinweg ändert. Wir beschreiben in [2] ein Modell, das auf diesen Grundannahmen aufbaut und Bilder in verschiedene Komponenten trennt. Einige Resultate sind in Abbildung 4 gezeigt. Dieses Modell ist nur ein erster Schritt und bei Weitem nicht perfekt. Um eine Vielzahl von verschiedenen Objekten und auch Szenen gut trennen zu können, werden wir das Modell um weitere Faktoren wie Szenengeometrie erweitern müssen.

Ausblick

Dem Computer beizubringen was er in Bildern sieht, heißt für uns mathematische Modelle für Perzeption zu entwickeln. Wir benötigen Modelle, die sowohl den physikalischen Entstehungsprozess von Bildern (Licht, Geometrie, Material) beschreiben als auch die semantische Bedeutung von Objekten erkennen können. Nach mehr als 50 Jahren Forschung bleibt dieses Problem wenig verstanden.

Obwohl es erste Fortschritte in manchen Teilgebieten gibt, sind die aktuellen Modelle noch weit von einem allgemeinen Bildverständnis entfernt. Wir sind davon überzeugt, dass statistische Lernansätze weiterhin erfolgreich sein werden. Es gibt noch viele offene Fragen, dieses Gebiet steht noch am Anfang. Wir hoffen, dass unsere Forschung dazu beiträgt, eines Tages das Prinzip hinter der Perzeption zu verstehen.

Literaturhinweise

Pepik, B.; Gehler, P.; Stark, M.; Schiele, B.
3D2PM – 3D deformable part models
In: Computer Vision – ECCV 2012, Part VI. Proceedings of the 12th European Conference on Computer Vision (ECCV), Florence, Italy, October 7-13, 2012. (Eds.) Fitzgibbon, A. et al. Lecture Notes in Computer Science Vol. 7577. Springer, Berlin, Heidelberg 2012, pp. 356-370
Gehler, P.; Rother, C.; Kiefel, M.; Zhang, L.; Schölkopf, B.
Recovering intrinsic images with a global sparsity prior on reflectance
In: Advances in Neural Information Processing Systems 24: 25th Annual Conference on Neural Information Processing Systems 2011. (Eds.) Shawe-Taylor, J. et al. Curran, Red Hook, NY, 2012, pp. 765-773
Butler, D. J.; Wulff, J.; Stanley, G. B.; Black, M. J.
A naturalistic open source movie for optical flow evaluation
In: Computer Vision – ECCV 2012, Part VI. Proceedings of the 12th European Conference on Computer Vision (ECCV), Florence, Italy, October 7-13, 2012. (Eds.) Fitzgibbon, A. et al. Lecture Notes in Computer Science Vol. 7577. Springer, Berlin, Heidelberg 2012, pp. 611-625
Lehmann, A.; Gehler, P.; Van Gool, L.
Branch&Rank: Non-linear object detection
In: Proceedings of the British Machine Vision Conference (BMVC). (Eds.) Hoey, J.; McKenna, S.; Trucco, E. BMVA Press, September 2011, pp. 8.1-8.11
Zur Redakteursansicht