Kurator

Profile_image

Prof. Dr. Hans-Peter Seidel

Telefon:+49 681 9325-4000Fax:+49 681 9325-4099

Weitere Informationen

Weiterführende Links

Informatik . Kognitionsforschung . Komplexe Systeme . Mathematik . Sprachwissenschaften . Verhaltensbiologie . Ökologie

Multimodale Verarbeitung und Interaktion

Multimodale Computersysteme verarbeiten Text, Sprache und visuelle Daten. Herausforderungen dabei sind, multimodale Information auf intelligente, effiziente und robuste Weise zu organisieren, zu verstehen und zu durchsuchen. Auf dieser Grundlage lassen sich Systeme entwickeln, mit denen wir intuitiv und auf natürliche Weise kommunizieren können.

Die moderne Informationstechnik hat unser Leben in den letzten 30 Jahren dramatisch verändert. Information ist heute auf Knopfdruck fast überall verfügbar. Immer schneller, billiger und effizienter können IT-Systeme Daten sammeln, speichern, verarbeiten und übermitteln. Dabei bewältigen sie nicht nur eine ständig wachsende Informationsmenge, sondern auch deren zunehmende Vielgestaltigkeit.

Noch vor zehn Jahren bestanden digitale Inhalte überwiegend aus Texten. Doch längst sind Sprache und Musik, Bilder, Videos und vieles mehr hinzugekommen. Moderne PCs sind »Multimediageräte«; immer mehr Menschen nutzen Mehrzweckhandys, intelligente Sensoren und Displays, ja teilweise sogar schon in die Kleidung integrierte Computerchips. Die Flut an multimodalen Daten, die immer mehr elektronische Geräte speisen, gilt es heute auf intelligente und effiziente Weise zu erschließen.

REDEN MIT DEM RECHNER

Symmetrien von Gebäuden – automatisch extrahierte semantische Informationen (in diesem Fall sind es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten. Bild vergrößern
Symmetrien von Gebäuden – automatisch extrahierte semantische Informationen (in diesem Fall sind es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten. [weniger]

Der Mensch kommuniziert und erkennt seine Umgebung von jeher multimodal – das heißt auf verschiedenen Kanälen. Wir nehmen die Welt über unsere fünf Sinne wahr und äußern uns durch Sprache, Mimik, Blickkontakt, Körperhaltung, Berührung und Bewegung. In dieser Hinsicht sind Computersysteme dem Menschen bis heute immer noch weit unterlegen. Zwar können sie große, wohlstrukturierte Datenmengen mit unglaublich hoher Geschwindigkeit verarbeiten. Sie versagen ­jedoch bei vielen Aufgaben, die einem Menschen leichtfallen, wie zum Beispiel gesprochene Sätze zu verstehen oder einen Gesichtsausdruck richtig zu deuten.

Mittels multimodaler Rechentechnik versuchen Forscher, Interaktionen zwischen Mensch und Computer wie zwischenmenschliche Kommunikation zu gestalten. Dann erst kann die Verständigung zwischen Mensch und Maschine auf intuitive Art klappen. Den Computer fordert das allerdings ganz erheblich: Er muss in Echtzeit große Datenmengen unterschiedlicher Formate analysieren und interpre­tieren können, die möglicherweise zudem verzerrt, verrauscht und unvollständig sind. Anders gesagt: Er muss multimodale Informationen verarbeiten, die ihn in rohem Zustand erreichen. Die gewonnenen Daten gilt es dann so zu organisieren, dass wir sie über Suchanfragen leicht wiederfinden können. Darüber hinaus muss der Computer fähig sein, die komplexen Informationen ohne Zeitverlust einleuchtend auf dem Bildschirm darzustellen.

 
loading content