Forschungsbericht 2008 - Max-Planck-Institut für biologische Kybernetik

Interdisziplinäre Wahrnehmungsforschung

Interdisciplinary Research in Perception

Autoren

Wallraven, Christian; Bülthoff, Heinrich H.

Abteilungen

Wahrnehmung, Kognition und Handlung (Prof. Dr. Heinrich Bülthoff)
MPI für biologische Kybernetik, Tübingen

Zusammenfassung

Wie erkennen wir Objekte? Wie interpretieren wir Gesichtsausdrücke? Können wir einem Computer das Sehen beibringen? In diesem Beitrag werden verschiedene Forschungsbereiche der Arbeitsgruppe „Wahrnehmung, Kognition und Handlung“ des Max-Planck-Instituts für biologische Kybernetik vorgestellt. Die Arbeitsgruppe benutzt Methoden aus den Bereichen Computer-Vision, Computer-Grafik und Psychophysik, um fundamentale Wahrnehmungs- und Kognitionsprozesse besser zu verstehen.

Summary

How do we recognize objects? How do we interpret facial expressions? Can we teach computers to see and understand? In this article, we present several research areas of the department "Human Perception, Cognition and Action" of the Max Planck Institute for Biological Cybernetics. The department employs methods from computer vision, computer graphics, and psychophysics in order to understand fundamental processes in perception and cognition.

Wie erkennen wir Objekte? Wie interpretieren wir Gesichtsausdrücke? Können wir einem Computer das Sehen beibringen? Die Arbeitsgruppe „Wahrnehmung, Kognition und Handlung“ des Max-Planck-Instituts für biologische Kybernetik kombiniert Methoden aus den Bereichen Computer-Vision, Computer-Grafik und Psychophysik, um fundamentale Wahrnehmungs- und Kognitionsprozesse besser zu verstehen (siehe Abb. 1). Die Computer-Vision will – wie die deutsche Bezeichnung „Maschinelles Sehen“ vermuten lässt – Computern und Robotern das Sehen beibringen. Die Leistungen und Vorgehensweisen des menschlichen visuellen Systems dienen dabei als Vorbild. Die Computer-Grafik beschäftigt sich mit der Erzeugung von Bildern dreidimensionaler Gegenstände bis hin zu kompletten Animationen. Das Interesse der Psychophysik gilt der mathematischen Beschreibung des Zusammenhangs zwischen einem physikalischen Reiz und dem darauf basierenden Verhalten.

Interaktionen zwischen Psychophysik, Computer-Grafik und Computer-Vision.

© Max-Planck-Institut für biologische Kybernetik/Wallraven

Interaktionen zwischen Psychophysik, Computer-Grafik und Computer-Vision.

© Max-Planck-Institut für biologische Kybernetik/Wallraven

Die Kombination einzelner Methoden und Ansätze dieser drei Forschungsbereiche ermöglicht es den Forschern, die Vorgänge im menschlichen Gehirn besser zu verstehen. So nutzt die Psychophysik kontrollierbare Stimuli aus der Computer-Grafik zur Gestaltung realistischer Experimente. Um zu erforschen, wie der Mensch verschiedene Materialien wahrnimmt, können beispielsweise Algorithmen zur Erzeugung von realistischen Materialeigenschaften verwendet werden. Im Gegenzug kann die Computer-Grafik anhand der Ergebnisse dieser Experimente effektivere Ansätze für die computergenerierte Bilderzeugung ableiten: Wenn wir wissen, wie der Mensch Gesichtsausdrücke erkennt, können wir realistische Gesichtsanimationen erzeugen. Algorithmen aus der Computer-Vision können menschliches Verhalten modellieren. So können Algorithmen, die sich mit der effizienten Verarbeitung von großen Datenmengen beschäftigen, aufzeigen, wie das Gehirn die Fülle an Sinneseindrücken abspeichern und verarbeiten kann, die ständig auf uns einprasselt. Umgekehrt können die Ergebnisse aus Wahrnehmungsexperimenten den Computerwissenschaftlern zeigen, wie das menschliche Gehirn Sehen möglich macht und ihnen somit für die Probleme der Objekt- und Szenenerkennung effizientere Ansätze aufzeigen. Die Generierung virtueller Welten anhand von Computer-Grafik ist für die Computer-Vision von großem Nutzen, da ground truth – also die komplette Information der Szene, wie beispielsweise Beleuchtung, Oberflächenstruktur von Objekten und die Lage im Raum – zum Testen von Erkennungsalgorithmen verfügbar ist. Im Umkehrschluss können solche Algorithmen helfen, komplexe Szenen schneller zu modellieren und somit zu verbesserter Computergrafik und -animation führen.

Im Folgenden werden beispielhaft einige Forschungsbereiche aus der Abteilung „Wahrnehmung, Kognition und Handlung“ vorgestellt, die das effektive Zusammenspiel von Computer-Vision, Computer-Grafik und Psychophysik illustrieren.

Wahrnehmungsbasierte Gesichtsanimation

Gesichtsbewegungen sind für emotionale und soziale Interaktion von zentraler Bedeutung. Gleichzeitig spielt die Simulation und Analyse von Gesichtsausdrücken auch in vielen technischen Anwendungen eine wichtige Rolle, wie beispielsweise bei Mensch-Maschine-Schnittstellen, in den Computeranimationen oder in der Robotik. Trotz der Tatsache, dass sich Gesichtsausdrücke kontinuierlich verändern, konzentriert sich die Wahrnehmungsforschung noch immer auf die Verarbeitung statischer Bilder (also Fotos) von Gesichtern. Die Forschung der Arbeitsgruppe „Wahrnehmung, Kognition und Handlung“ setzt dagegen vorwiegend Methoden aus der Computer-Vision und Computer-Grafik ein, um kontrollierbare Gesichtsanimationen für Wahrnehmungsexperimente zu erzeugen und um Filmaufnahmen von Gesichtern kontrollierbar zu verändern.

Zwei Beispiele der Gesichtsanimation: Das linke Gesicht zeigt einen fröhlichen Gesichtsausdruck, das rechte einen ängstlichen.

© Max-Planck-Institut für biologische Kybernetik/Wallraven

Zwei Beispiele der Gesichtsanimation: Das linke Gesicht zeigt einen fröhlichen Gesichtsausdruck, das rechte einen ängstlichen.

© Max-Planck-Institut für biologische Kybernetik/Wallraven

Martin Breidt und seine Kollegen haben ein sehr realistisches Gesichtsanimationssystem entwickelt (siehe Abb. 2), das fortwährend verbessert und überprüft wird [1]. Dieses Animationssystem ermöglicht die Erforschung der Wahrnehmung und die Interpretation von Gesichtsausdrücken auf einem ganz neuen Niveau. Mit diesem System können sogar neue Arten von Stimuli erzeugt werden, indem beispielsweise Teile des Gesichts „eingefroren“ [2] oder beliebige Kombinationen von Gesichtsausdrücken erstellt werden [3]. Auf diese Weise werden Erkenntnisse darüber möglich, wie unser Gehirn unterschiedliche Gesichtsregionen bei der Interpretation von Gesichtsausdrücken bewertet. Zudem können die Forscher erkennen, wie das menschliche Gehirn aus der großen Menge an möglichen Gesichtsbewegungen die wichtigen herausfiltert und wie es diese dann abspeichern und erkennen kann. Die Ergebnisse dieser Studien finden Anwendung in der Erzeugung leistungsfähigerer und wirkungsvollerer Gesichtsanimationen. So können die Wissenschaftler beispielsweise Empfehlungen geben, auf welche Bereiche im Gesicht in Computeranimationen geachtet werden muss, sodass damit erzeugte Gesichtsausdrücke auch wirklich erkannt werden [4] – damit werden Fehlinterpretationen verringert und die Entwicklung besserer Mensch-Maschine-Schnittstellen vorangetrieben.

Materialwahrnehmung

Um Gegenstände richtig benutzen zu können, müssen diese zuerst erkannt werden. Dies gelingt jedoch nur, wenn physikalische Eigenschaften des Objekts, wie beispielsweise die dreidimensionale Form oder die Materialbeschaffenheit, bekannt sind. Wie der Mensch die physikalischen Eigenschaften eines Objekts wahrnimmt, ist allerdings schwer herauszufinden, da die Abbildung eines Objekts davon abhängig ist, aus welcher Richtung es beleuchtet wird. Methoden der Computer-Grafik ermöglichen es den Wissenschaftlern jedoch mittlerweile, diese komplexen Phänomene mit hoher visueller Genauigkeit zu simulieren und zeitgleich die Kontrolle über den Stimulus zu erhalten (siehe Abb. 3a). Anhand von Computer-Grafik-Methoden werden die Reize studiert, die das menschliche visuelle System nutzt, um 3D-Informationen, Oberflächeneigenschaften und Beleuchtung zu berechnen. Um die Computer-Grafik zu verbessern, werden zudem Erkenntnisse aus den Psychophysik-Experimenten herangezogen.

Ein neu entwickelter Algorithmus kann in einer Fotografie die Materialbeschaffenheit eines Objekts verändern, also beispielsweise ein undurchsichtiges Objekt in ein durchsichtiges verwandeln [5]. Die Besonderheit dabei ist, dass dies allein durch Manipulation des Bildinhaltes (der Pixel) geschieht, ohne dabei Zugriff auf das dreidimensionale Modell des Objekts zu haben (siehe Abb. 3b). Um den Hintergrund dieser auf den ersten Blick unmöglichen Manipulation zu verstehen, muss man sich vergegenwärtigen, wie unser Gehirn Rückschlüsse auf Objektbeschaffenheit erlangen kann. Das Hauptproblem ist, dass das Abbild der dreidimensionalen Welt auf der Netzhaut im Auge nur noch zweidimensional ist – eine Dimension geht beim Sehprozess also verloren. Das Gehirn muss die fehlende Dimension so rekonstruieren, dass wir uns in der dreidimensionalen Welt bewegen, Rückschlüsse auf die Form und Beschaffenheit von Objekten ziehen und Objekte anfassen und manipulieren können. Mathematisch gesehen ist diese Operation jedoch nicht möglich, da eine unendliche Anzahl von dreidimensionalen Interpretationen mit einem zweidimensionalen Abbild kompatibel ist. Damit das Gehirn überhaupt zu einer Interpretation gelangen kann, muss es Vorwissen einsetzen: Die Form von Objekten in der Welt ist nicht beliebig, Licht in einer Szene kommt meist von oben, etc. Dieses Vorwissen ist erstaunlich robust und erlaubt in den allermeisten Fällen die „richtige“ Interpretation – viele bekannte Wahrnehmungsillusionen basieren übrigens auf den Fällen, in denen es „nicht klappt“.

a) Computergenerierte, physikalisch realistische Darstellung einer Porzellantasse auf einem Holztisch, b) Materialmanipulation: links das Originalbild, rechts die Manipulation.

© 3a: Max-Planck-Institut für biologische Kybernetik/Wallraven; 3b: University of Central Florida/Khan

a) Computergenerierte, physikalisch realistische Darstellung einer Porzellantasse auf einem Holztisch, b) Materialmanipulation: links das Originalbild, rechts die Manipulation.

© 3a: Max-Planck-Institut für biologische Kybernetik/Wallraven; 3b: University of Central Florida/Khan

Es ist wichtig zu betonen, dass das Gehirn nicht unbedingt eine dreidimensional exakte Rekonstruktion einer Szene macht [6] – vielmehr kann die Interpretation von Objekteigenschaften auch in Form von Heuristiken erfolgen (zum Beispiel: stark weißlich-rot leuchtende Materialien sind wahrscheinlich heiß, etc.). Auf Grund solcher einfacher Heuristiken, die aus einem zweidimensionalen Bild gewonnen werden können, wurde nun auch die Manipulation in Abbildung 3b gewonnen. Die Tatsache, dass dies so überzeugend funktioniert – obwohl die so generierte Szene im Gegensatz zu der in Abbildung 3a nicht physikalisch realistisch ist – illustriert, dass sich unser Gehirn auf solche einfachen, zweidimensionalen Heuristiken bei der Interpretation von Materialeigenschaften verlässt.

Computerästhetik

Ästhetik ist schwer zu objektivieren und wird in der heutigen Literatur als abhängig von Kultur und dem jeweiligem Diskurs angesehen. Mithilfe von Computertechniken und Wahrnehmungspsychologie sollen nun einige grundlegende ästhetische Erfahrungen bestimmt und charakterisiert werden. Der Begriff „Computerästhetik“ beschreibt in diesem Kontext die Entdeckung, Analyse und Charakterisierung ästhetischer Prinzipien durch den Computer.

Das Ziel einer Reihe von Studien war es – zusammen mit dem Künstler Robert Pepperell – seine „unbestimmte“ Kunst zu analysieren. Deren Idee ist in Abbildung 4a dargestellt: Sieht man sich das Bild an, so hat man den Eindruck eines Akts auf einem Sofa (entsprechend Abb. 4b) – bei näherem Hinsehen aber ist keine klare Form erkenntlich, der menschliche Körper ist nicht auszumachen. Das Ziel der „unbestimmten“ Kunst ist also, einen globalen Eindruck einer Szene zu erzeugen, ohne dass die Interpretation bei näherem Hinsehen wirklich gestützt werden kann. Dass solche Kunst funktioniert, zeigt, dass unser Wahrnehmungssystem Szenen erst einmal durch den Gesamteindruck bewertet, bevor die Objekte und deren Erscheinung wirklich genau betrachtet werden – dies macht die Kunst von Robert Pepperell auch für die Wahrnehmungsforschung interessant.

a) „Unbestimmte“ Darstellung, b) Gegenständliche Darstellung.

© 4a: Robert Pepperell; 4b: Ausschnitt aus "Leda und der Schwan" von Tintoretto, 1570

a) „Unbestimmte“ Darstellung, b) Gegenständliche Darstellung.

© 4a: Robert Pepperell; 4b: Ausschnitt aus "Leda und der Schwan" von Tintoretto, 1570

In einer Studie wurden Wahrnehmungsexperimente mit Pepperells Kunst im Vergleich zu gegenständlicher Kunst durchgeführt [7]. Dazu wurden Personen Bilder sehr kurz gezeigt, wobei sie entscheiden mussten, ob es sich um ein abstraktes oder ein gegenständliches Bild handelte. Für gegenständliche Kunst war diese Entscheidung trotz der kurzen Präsentationszeit fast immer richtig, während für Pepperells Kunst halb mit abstrakt und halb mit gegenständlich geantwortet wurde – eine Bestätigung der „Unbestimmtheit“ seiner Kunst. Der Eindruck eines Kunstwerks scheint also extrem schnell im menschlichen Gehirn zu entstehen.

Ein weiterer Forschungsbereich untersucht, in welche Kategorien Studienteilnehmer, die kein kunsthistorisches Vorwissen besitzen, Abbildungen verschiedener Gemälde einteilen [8]. Dabei zeigte sich, dass die Gemälde in verschiedene Kategorien eingeteilt wurden, die auch bekannten Kunstepochen (Renaissance, Surrealismus, etc.) entsprechen. In einem weiteren Schritt wurde untersucht, ob Methoden der Computer-Vision in der Lage wären, solche Kategorien automatisch zu erzeugen. Hier zeigten sich allerdings die Grenzen aktueller Algorithmen: Die Resultate der Simulationen stimmten nur in einigen Fällen mit denen der Studienteilnehmer überein – das ästhetische Erlebnis des Betrachters im Computer zu modellieren, wird also sicherlich noch einige Zeit dauern.

Originalveröffentlichungen

M. Breidt, C. Wallraven, D. W. Cunningham, H. H. Bülthoff:

Facial animation based on 3D scans and motion capture.

SIGGRAPH ‘03 Sketches & Applications (2003).

R. T. Griesser, D. W. Cunningham, C. Wallraven, H. H. Bülthoff:

Psychophysical investigation of facial expressions using computer animated faces.

Proceedings of the 4th Symposium on Applied Perception in Graphics and Visualization (APGV‘07), 11–18, (2007).

C. Curio, M. A. Giese, M. Breidt, M. Kleiner, H. H. Bülthoff:

Probing dynamic human facial action recognition from the other side of the mean.

Proceedings of the 5th Symposium on Applied Perception in Graphics and Visualization (APGV 08), 59–66 (2008).

C. Wallraven, M. Breidt, D. W. Cunningham, H. H. Bülthoff:

Evaluating the perceptual realism of animated facial expressions.

ACM Transactions on Applied Perception 4(4:4), 1–20 (2008).

E. A. Kahn, E. Reinhard, R. W. Fleming, H. H. Bülthoff:

Image-based material editing.

ACM Transactions on Graphics 25(3), 654–663 (2006).

R. Fleming, A. Torralba, E. H. Adelson:

Shape from sheen. In: Three dimensional shape perception.

Q. Zaidi, (Ed.) Springer (2009).

C. Wallraven, K. Kaulard, C. Kürner, R. Pepperell, H. H. Bülthoff:

Psychophysics for perception of (in)determinate art.

Proceedings of the 4th Symposium on Applied Perception in Graphics and Visualization (APGV‘07), 115–122 (2007).

C. Wallraven, D. W. Cunningham, R. Fleming:

Perceptual and computational categories in art.

Computational Aesthetics 2008, 117–124 (2008).