Forschungsbericht 2010 - Max-Planck-Institut für Informatik

Bildverarbeitung und Multimodale Sensorverarbeitung

Computer Vision and Multimodal Computing

Autoren
Schiele, Bernt
Abteilungen
Abteilung: Computer Vision and Multimodal Computing
Max-Planck-Institut für Informatik, Saarbrücken
Zusammenfassung
Die Arbeitsgruppe Bildverarbeitung und multimodale Sensorverarbeitung wurde 2010 neu gegründet und umfasst derzeit 10 Wissenschaftler. Die Arbeitsgebiete der Gruppe sind zum einen die Bildverarbeitung mit einem Schwerpunkt auf Objekterkennung und 3D-Szenenbeschreibung und zum anderen multisensorbasierte Kontexterkennung im Bereich des Ubiquitous und Wearable Computing. Im Folgenden werden exemplarisch einige Forschungsthemen vorgestellt.
Summary
The department computer vision and multimodal computing has been founded 2010 with currently 10 scientists. The research areas of the department are on the one hand computer vision with a focus on object recognition and 3D scene understanding and on the other hand multimodal context recognition in the area of ubiquitous and wearable computing. The following summarizes a few representative research themes.

Einleitung

Sensoren wie Kameras, GPS und Beschleunigungssensoren werden immer häufiger in Geräte und Umgebungen eingebettet und sind uns heute schon auf vielfältige Weise nützlich. Die rechnergestützte Verarbeitung der Sensorinformation hat enorme Fortschritte erzielt, ist aber in aller Regel auf einfache Sachverhalte beschränkt. Das bedeutet insbesondere, dass Geräte und Computer, die Zugriff auf diese Sensorinformation haben, diese nicht vollständig interpretieren und somit Ihre Umgebung nicht wirklich verstehen können. Die Arbeitsgruppe beschäftigt sich deshalb mit dem Verstehen von Sensorinformation, wobei zum einen mächtige Sensoren wie Kameras aber auch eingebettete Sensoren wie z. B. Gyroskope und Beschleunigungssensoren zum Einsatz kommen.

Skalierbarkeit der Objektklassenerkennung

Im Bereich der Bildverarbeitung beschäftigt sich die Arbeitsgruppe u. a. mit dem Problem der Objekterkennung, das eines der fundamentalen Probleme des Bildverstehens darstellt. Durch die heutige Omnipräsenz von digitalem Bildmaterial werden solche automatische, visuelle Objektklassenerkennungstechniken immer wichtiger. Während State-of-the-Art-Systeme bemerkenswerte Erkennungsleistungen für individuelle Klassen bereitstellen, ist die simultane Erkennung von vielen Klassen nach wie vor eine der größten Herausforderungen: Das Lernen der Objektmodelle erfordert eine ausreichend große Anzahl repräsentativer Trainingsbeispiele, häufig in Form von manuell annotierten Bildern. Da das manuelle Annotieren teuer ist, versucht unsere Forschung die erforderliche Anzahl von Trainingsbeispielen zum Lernen von Objektmodellen zu reduzieren, um dadurch die Skalierbarkeit zu ermöglichen.

In unserer Forschung beschäftigen wir uns mit verschiedenen Ansätzen, um diese Skalierbarkeit zu erreichen. In einem Ansatz entwickeln wir ein Objektklassenmodell, welches Objekte als Ansammlung von lokalisierten Teilformen repräsentiert. Da ähnliche Objektklassen ähnliche Repräsentationen teilen (wie z. B. Pferde und Giraffen haben beide Beine und weisen ähnliche Symmetrien auf), können die Komponenten eines Modells (z. B. das Modell der Pferdebeine) wiederverwendet werden, um ein anderes Modell (z. B. ein Giraffen-Modell) zu generieren (Abb. 1) [1,2]. In einem weiteren Projekt werden solche Modellkomponenten, die wiederverwendet werden sollen, automatisch identifiziert. Hierbei kommen Sprachverarbeitungsmethoden zum Einsatz, die es erlauben natürlich-sprachliche Informationsquellen zu durchsuchen, wie z. B. Wikipedia oder Yahoo web. In einem weiteren Ansatz verzichten wir vollständig auf Trainingsbilder und lernen Objektmodelle direkt von computergestützten Zeichnungen (CAD-Modelle). Um solche CAD-Modelle zur Erkennung von Objekten in realen Bildern verwenden zu können, schlagen wir eine formbasierte Abstraktion der Objekterscheinung vor. Unsere Experimente demonstrieren die außergewöhnliche Leistungsfähigkeit bei der Erkennung z. B. von Autos, auch im Vergleich zu Ansätzen, die Trainingsbilder aus der realen Welt verwenden.

Personendetektion und Haltungsabschätzung in anspruchsvollen Szenen der Realwelt

Menschen aufzufinden und zu verfolgen ist eine Schlüsseltechnologie für viele Anwendungen z. B. in der Robotertechnik und Fahrzeugsicherheit, bei Szenarien von Mensch-Computer Interaktion oder für die Indizierung von Bildern und Videos aus dem Web. In den letzten Jahren haben wir einen Ansatz entwickelt, Menschen zu detektieren und ihre Haltungen in komplexen Straßenszenen abzuschätzen. Die größte wissenschaftliche Herausforderung ist hierbei, dass in Szenen realistischer Komplexität, wie sie z. B. in Fußgängerzonen oder Straßenkreuzungen auftreten, sich die Szenen dynamisch verändern und viele Menschen gleichzeitig im Bild zu sehen sind, die sich auch gegenseitig verdecken.

Verschiedene Schlüsselkomponenten tragen zum Erfolg des Ansatzes bei [3]. Zum einen kommen gelernte Erscheinungsmodelle der verschiedenen menschlichen Körperteile zum Einsatz, die durch einen kinematischen Baum der Körperteilkonfigurationen gekoppelt sind. Das zweite Schlüsselelement ermöglicht die Personenverfolgung und die 3D-Haltungsabschätzung. Konkret schlagen wir eine mehrstufige Inferenz-Prozedur für die 3D-Haltungsabschätzung vor. Unser Ansatz übertrifft die bisherigen Arbeiten, da nicht nur einfache Bildmerkmale wie Silhouetten und Kanten verwendet werden, sondern auch mächtigere lokale Bildbeschreibungen. Zusätzlich verfeinern und verbessern wir diese Schätzungen, indem wir sie über die Zeit verfolgen, was es ermöglicht Personen trotz längerer Abdeckungsereignisse zu verfolgen (Abb. 2).

3D-Szenenverständnis mit monokularen Kameras

Inspiriert vom visuellen System des Menschen, gilt visuelles Szenenverständnis seit Beginn der Forschungsaktivitäten als der „heilige Gral“ des maschinellen Sehens. In der Anfangszeit wurde versucht, ausgehend von Merkmalen wie Kanten, eine vollständige Szenenbeschreibung und Szenenerfassung mittels bottom-up Methodik zu erlangen. Da sich die zuverlässige Extraktion solcher Merkmale als sehr viel schwieriger als erwartet herausstellte, blieb Szenenverständnis trotz enormer Bemühungen selbst für relativ eingeschränkte und einfache Szenen ein illusorisches Ziel. In der Zwischenzeit wurden allerdings enorme Fortschritte für Teilprobleme erzielt wie in den Bereichen der Kamerageometrieschätzung, Bildsegmentierung, Objekterfassung und Objektverfolgung. Da die Leistungsfähigkeit dieser Algorithmen ein bemerkenswertes Niveau erreicht hat, glauben wir, dass das Problem der automatischen Erschließung und Erfassung von 3D-Szenen aus Einzelbildern und Videosequenzen neu untersucht werden sollte.

Ohne Frage sind Anwendungsszenarien, wie zum Beispiel mobile Serviceroboter und Fußgängerschutz im Automobilbereich, von hoher wissenschaftlicher und wirtschaftlicher Bedeutung. Daher benutzen wir die Erkennung von Fußgängern und Fahrzeugen mit einer bewegten Kamera, die auf einem Auto oder einem Roboter montiert ist als Anwendungsbeispiel für unsere Arbeit [4]. Für beide Anwendungsbereiche können wir domänenspezifisches Wissen wirksam einsetzen. Der von uns entwickelte Ansatz kombiniert a priori Wissen mit leistungsfähigen Objektklassendetektoren und semantischer Segmentierung. Objektklassendetektoren bestimmen die 2D-Position von Objekten in einem Bild; semantische Szenensegmentierung erkennt semantische Klassen wie Straße, Himmel oder Objekt für jeden Bildpunkt, während zusätzlich Bildinformation über mehrere Einzelbilder hinweg akkumulieren. Mit dieser Formulierung kann über die Zeit ein robusteres Ergebnis mittels geometrischer und dynamischer Konsistenz erreicht werden. Durch die 3D-Modellierung ist unser Ansatz in der Lage, komplexe Interaktionen, wie zum Beispiel Verdeckungen und physische Abgrenzung zwischen Objekten sowie geometrische Konsistenz, darzustellen (Abb. 3).

Erkennung menschlicher Aktivitäten

Das zweite Gebiet der Arbeitsgruppe ist im Bereich der multimodalen Sensorverarbeitung. Ein besonderer Fokus ist derzeit das Erfassen und Verstehen des Kontexts des Benutzers, der eine entscheidende Rolle bei der Mensch-Computer-Interaktion spielt. Die Kontexterfassung kann natürliche Kommunikation ermöglichen, zum Beispiel mit Robotern, die die Ziele des Benutzers verstehen und zum richtigen Zeitpunkt Unterstützung bieten. In unserer Arbeit konzentrieren wir uns derzeit auf eine bestimmte Art des Kontexts: der Erkennung menschlicher Aktivitäten.

Während bei der Erkennung kurzfristiger und einfacherer Aktivitäten (wie beispielsweise dem Händeschütteln oder Laufen) beeindruckende Fortschritte gemacht wurden, ist die Forschung zu komplexeren menschlichen Aktivitäten, die mehrere Minuten oder Stunden dauern (wie beispielsweise die Morgenroutine oder eine Montageaufgabe), weitaus weniger erforscht. Daher legen wir unser Hauptaugenmerk auf verschiedene Aspekte bei der Erkennung menschlicher Aktivitäten hinsichtlich komplexer und längerfristiger Aktivitäten. Hierbei verwenden wir insbesondere am Körper angebrachte, tragbare Sensoren, die aus einer Ich-Perspektive erfassen, welche Aktivitäten der Benutzer zu jeder Zeit und an jedem Ort ausführt. Angesichts der Fortschritte der Mikrotechnologie sind kostengünstige Sensoren bereits heute weit verbreitet und in Uhren, Handys oder sogar Kleidungsstücken zu finden. Bewegungsdaten können so erfasst und analysiert werden, um die Aktivitäten mithilfe von maschinellen Lerntechniken zu verstehen.

Einer der erforschten Ansätze nutzt dabei die Tatsache, dass längere Aktivitäten aus kürzeren, einfacheren Aktivitäten zusammengesetzt sind. Nimmt man eine Bauanleitung für einen Spiegel besteht eine von mehreren Aufgaben darin, den Rahmen an der Platte zu befestigen. Diese Aufgabe setzt sich aus mehreren Schritten zusammen und es wird deutlich, dass zusammengesetzte Aktivitäten erhebliche Abweichungen mit sich bringen: Zusammengesetzte Aktivitäten können unterbrochen werden; die Dauer kann je nach Benutzer sehr unterschiedlich sein; die zugrundeliegenden Aktivitäten können in verschiedener Reihenfolge erfolgen. Unser Ansatz [5] modelliert diese hierarchische Natur solcher Aktivitäten, wobei explizit verschiedene Ausführungsarten erlaubt und erkannt werden. Die Erhaltung der hierarchischen Struktur zusammengesetzter Aktivitäten bietet weitere Vorteile. Teilaktivitäten, die in verschiedenen zusammengesetzten Aktivitäten ähnlich sind, können gemeinsam verwendet werden ähnlich einem Vokabular. Ohne bereits bekannte Teilaktivitäten erneut lernen zu müssen, können neue zusammengesetzte Aktivitäten mit minimalen Trainingsdaten gelernt werden.

B. Leibe, A. Leonardis, B. Schiele:
Robust Object Detection with Interleaved Categorization and Segmentation.
International Journal of Computer Vision 77, 259-289 (2008).
M. Stark, M. Goesele, B. Schiele:
Back to the Future: Learning Shape Models from 3D CAD Data.
British Machine Vision Conference (BMVC), 2010.
M. Andriluka, S. Roth, B. Schiele:
Monocular 3D Pose Estimation and Tracking by Detection.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010.
C. Wojek, S. Roth, K. Schindler, B. Schiele:
Monocular 3D Scene Modeling and Inference: Understanding Multi-Object Traffic Scenes.
European Conference on Computer Vision (ECCV), 2010.
U. Blanke, B. Schiele:
Remember and Transfer what you have Learned - Recognizing Composite Activities based on Activity Spotting.
IEEE International Symposium on Wearable Computers (ISWC), 2010.
Zur Redakteursansicht