Kurator

Profile_image

Prof. Dr. Hans-Peter Seidel

Telefon:+49 681 9325-4000Fax:+49 681 9325-4099

Weitere Informationen

Weiterführende Links

Informatik . Kognitionsforschung . Komplexe Systeme . Mathematik . Sprachwissenschaften . Verhaltensbiologie . Ökologie

Multimodale Verarbeitung und Interaktion

Maschinen spiegeln Menschen

Multimodale Computersysteme verarbeiten Text, Sprache und visuelle Daten. Herausforderungen dabei sind, multimodale Information auf intelligente, effiziente und robuste Weise zu organisieren, zu verstehen und zu durchsuchen. Auf dieser Grundlage lassen sich Systeme entwickeln, mit denen wir intuitiv und auf natürliche Weise kommunizieren können.

Die moderne Informationstechnik hat unser Leben in den letzten 30 Jahren dramatisch verändert. Information ist heute auf Knopfdruck fast überall verfügbar. Immer schneller, billiger und effizienter können IT-Systeme Daten sammeln, speichern, verarbeiten und übermitteln. Dabei bewältigen sie nicht nur eine ständig wachsende Informationsmenge, sondern auch deren zunehmende Vielgestaltigkeit.

Noch vor zehn Jahren bestanden digitale Inhalte überwiegend aus Texten. Doch längst sind Sprache und Musik, Bilder, Videos und vieles mehr hinzugekommen. Moderne PCs sind »Multimediageräte«; immer mehr Menschen nutzen Mehrzweckhandys, intelligente Sensoren und Displays, ja teilweise sogar schon in die Kleidung integrierte Computerchips. Die Flut an multimodalen Daten, die immer mehr elektronische Geräte speisen, gilt es heute auf intelligente und effiziente Weise zu erschließen.

Reden mit dem Rechner

Symmetrien von Gebäuden – automatisch extrahierte semantische Informationen (in diesem Fall sind es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten. Bild vergrößern
Symmetrien von Gebäuden – automatisch extrahierte semantische Informationen (in diesem Fall sind es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten. [weniger]

Der Mensch kommuniziert und erkennt seine Umgebung von jeher multimodal – das heißt auf verschiedenen Kanälen. Wir nehmen die Welt über unsere fünf Sinne wahr und äußern uns durch Sprache, Mimik, Blickkontakt, Körperhaltung, Berührung und Bewegung. In dieser Hinsicht sind Computersysteme dem Menschen bis heute immer noch weit unterlegen. Zwar können sie große, wohlstrukturierte Datenmengen mit unglaublich hoher Geschwindigkeit verarbeiten. Sie versagen ­jedoch bei vielen Aufgaben, die einem Menschen leichtfallen, wie zum Beispiel gesprochene Sätze zu verstehen oder einen Gesichtsausdruck richtig zu deuten.

Mittels multimodaler Rechentechnik versuchen Forscher, Interaktionen zwischen Mensch und Computer wie zwischenmenschliche Kommunikation zu gestalten. Dann erst kann die Verständigung zwischen Mensch und Maschine auf intuitive Art klappen. Den Computer fordert das allerdings ganz erheblich: Er muss in Echtzeit große Datenmengen unterschiedlicher Formate analysieren und interpre­tieren können, die möglicherweise zudem verzerrt, verrauscht und unvollständig sind. Anders gesagt: Er muss multimodale Informationen verarbeiten, die ihn in rohem Zustand erreichen. Die gewonnenen Daten gilt es dann so zu organisieren, dass wir sie über Suchanfragen leicht wiederfinden können. Darüber hinaus muss der Computer fähig sein, die komplexen Informationen ohne Zeitverlust einleuchtend auf dem Bildschirm darzustellen.

Wie lässt sich multimodale Informa­tion gewinnen, organisieren und wiederauffindbar machen? Eine maschinelle Suche kann Bild-, Video- und Audiodateien gegenwärtig nur erfassen, wenn diese mit Schlüsselwörtern versehen oder durch einfache Texte beschrieben sind. Solche manuell erstellten Annotationen schränken bestimmte Arten der Suche ein oder verzerren die Suchergebnisse. So finden zwar sowohl professionelle als auch gelegentliche Nutzer sehr viele auf sie ausgerichtete Datensammlungen im Internet; aber bislang sind die verschiedenen Quellen und Formate kaum zusammengeführt worden.

Die Zukunft der multimodalen Verarbeitung gehört vor allem Verfahren, die in der Lage sind, die natürliche Sprache1 zu verarbeiten sowie automatisch den Inhalt von digitalen Bildern zu erkennen2 und sinnvoll zu interpretieren. Darüber hinaus sollen künftige Systeme ableiten können, wie verschiedene Informationsinhalte miteinander zusammenhängen, und sie erschließen aus dem Kontext die jeweils richtige Bedeutung eines mehrdeutigen Ausdrucks3. Wissenschaft und Technik werden von solchen Hilfsmitteln stark profitieren. Vor allem Mediziner und Biowissenschaftler4 können die zunehmende Flut wissenschaftlicher Veröffentlichungen auf diese Weise besser bewältigen.

Virtuelle Welten mit Künstlichen Gestalten

Doch dies alles beschreibt nur einen Teil der Herausforderungen. Das Ziel ist, komplexe multimodale Information in realistischen virtuellen Umgebungen darzu­stellen. Deren Visualisierungen können entweder von Grund auf errechnet werden5, oder man verwendet Standbilder, Videos und dreidimensionale Modelle realer Gegenstände (3-D-Scans)6, die dann durch raffinierte Algorithmen vom Computer in die Umgebungen eingebaut werden. Hierfür sind fortgeschrittene Techniken der Computergraphik, Bildverarbeitung, des maschinellen Sehens und der geometrischen Datenverarbeitung7 gefragt.

Die Forscher wollen diese virtuellen Welten auch mit künstlichen Gestalten ­bevölkern, die in Aussehen, Sprache, Mimik und Verhalten wie Menschen wirken. Solche virtuellen Figuren stellen eine mächtige und intuitive Schnittstelle für die Präsentation komplexer multimodaler Daten dar.

<b>Bild 1 | Eine Ontologie semantischer Zusammenhänge zwischen Begriffen und Konzepten</b> Bild vergrößern
Bild 1 | Eine Ontologie semantischer Zusammenhänge zwischen Begriffen und Konzepten

Ein entscheidendes Leitprinzip für die multimodale Interaktion ist die symme­trische Kommunikation: Mensch und Maschine sollen nach dem Vorbild eines normalen Gesprächs dieselben Kommu­nikationsmoden verwenden8. In der Zukunft wird sich kein Autofahrer mehr vom Verkehr ablenken lassen, weil er nach irgendwelchen Knöpfen sucht. Stattdessen spricht er einfach mit seinem Fahrzeug – »Wo ist die nächste Tankstelle?«, »Schalte auf Vierradantrieb!« –, während die Maschine mittels ausgeklügelter Algorithmen seine Worte interpretiert und in genauso natürlicher Sprache antwortet. Dabei führt sie nicht einfach nur ihre Aufgabe aus, sondern registriert beispielsweise, ob die Aufmerksamkeit des Fahrers gerade stark beansprucht ist. So kann das System auf die Situation eingehen und geeignete multimodale Antworten geben.

Plattformen für multimodale Verarbeitung funktionieren allerdings nur dann an jedem Ort und zu jeder Zeit zuverlässig, wenn sie die Fähigkeit zur Selbstorganisation besitzen und weit gehend unabhängig sind von ihrer Systeminfrastruktur. Alle manuellen Eingriffe sollten sich darauf beschränken, lediglich Hardware zu installieren oder auszuwechseln. Tastatur und Maus als Eingabemedien hätten dann ausgedient.

Die multimodale Zukunft hat uns bereits in Gestalt von Multifunktionshandys, GPS-Navigationsgeräten und auch hyperrealistischen Computerspielen erreicht. Multimodale Systeme werden eines Tages praktisch überall und jederzeit verfügbar sein. Als Vision werden sie autonom agieren und sich selbst organisieren. Sie werden menschliches Verhalten spiegeln und auf natürlichem Weg kommunizieren, ­indem sie uns zuhören und mit uns ­sprechen. Dem Nutzer werden sie maß­geschneiderte Informationen und Inter­aktionsmöglichkeiten zur Verfügung stellen, aber auch dessen persönliche Daten und Aktivitäten verarbeiten. Eine große Herausforderung ist es daher, im Spannungsfeld von Privatsphäre und Verantwortung für eigenes Tun praktikable Lösungen zu finden. Bereits heute gilt es, die grundlegenden Prinzipien zur Realisierung und zum Betrieb solcher Systeme zu erforschen9,10. Sie dürften uns bald in die Lage versetzen, gewaltige Mengen multimodaler Information sicher und verlässlich zu bewältigen.

Forscher am Max-Planck-Institut für Informatik entwickelten aus einem Multi-View-Video einen neuen markerlosen Ansatz zur Erfassung komplexer menschlicher Bewegungen (de Agu­iar, E. et al., ACM TOG 27(3), 2008). Darüber hinaus schlugen sie den Aufbau umfassender Wissensbasen vor, die den heutigen, auf Schlüsselwörtern basierenden Suchmaschinen weit überlegen sind ( de Aguiar, E. et al., ACM TOG 27(3), 2008; Weikum, G. et al., Comm. ACM 52(4), 2009).

 

Burchardt, A. et al.
The SALSA corpus: a German corpus resource for lexical semantics. Proceedings of the 5th International Conference on Language Resources and Evaluation 969–974 (LREC, 2006).
Bruhn, A. et al.
Variational optical flow computation in real time.
Weikum, G. et al.
Database and information-retrieval methods for knowledge discovery.
Bickel, S. et al.
Multi-task learning for HIV therapy screening.
Woop, S., Schmittler, J. & Slusallek, P.
A programmable ray processing unit for realtime ray tracing.
de Aguiar, E. et al.
Performance capture from sparse multi-view video.
Mehlhorn, K. & Näher, S.
The LEDA Platform for Combinatorial and Geometric Computing.
Wahlster, W.
SmartKom: Foundations of Multimodal Dialogue Systems (Springer, 2006).
Backes, M., Pfitzmann, B. & Waidner, M.
The reactive simulatability (RSIM) framework for asynchronous systems.

 
loading content