Videoaufzeichnungen schnell auswerten

Eine Software analysiert Gesten automatisch und erweist sich als nützliches Werkzeug für die Sprachwissenschaft und Medien

27. Oktober 2011

Informatik

Videos schauen in der Arbeitszeit? Das mag für viele reizvoll klingen. Für Sprachwissenschaftler, die tagelang Videoaufzeichnungen betrachten, um etwa Handbewegungen auszuwerten, kann es mühsam sein. Eine neue Software, die Fraunhofer-Forscher mit Kollegen von Max-Planck entwickelt haben, erledigt diese Arbeit künftig automatisch. Teile dieser Technik finden sich seit 2010 in der ARD Mediathek. Auch Konferenzveranstalter und die Sicherheitsbranche profitieren von der automatischen Analyse.

Eine neue Software zur Videoauswertung erkennt automatisch, wann die sprechende Person beispielsweise die Hände hebt und markiert die Stelle entsprechend.

© Fraunhofer HHI

Eine neue Software zur Videoauswertung erkennt automatisch, wann die sprechende Person beispielsweise die Hände hebt und markiert die Stelle entsprechend.

© Fraunhofer HHI

Wie wird Sprache im Gehirn verarbeitet? Wie hängen etwa gestikulierende Handbewegungen mit dem gesprochenen Wort zusammen? Was passiert bei Versprechern – verspricht die Hand sich auch oder gleicht sie den Fehler aus? Um solche Fragen zu klären, sichten Wissenschaftler riesige Mengen von Videoaufzeichnungen und analysieren sie. Videomaterial steht genügend zur Verfügung – allein im Max-Planck-Institut für Psycholinguistik in Nimwegen, Niederlande, haben die Forscher über 50 000 Stunden Film zusammengetragen, um solche Fragen zu klären. Doch wenn es darum geht, aus diesen Aufzeichnungen wissenschaftliche Erkenntnisse zu gewinnen, ist es bisher mühselig: die Experten müssen jedes einzelne Video ansehen und annotieren: sie markieren beispielsweise, wo gesprochen wird, wer spricht oder wo der Sprecher die Hand hebt – eine zeitraubende Aufgabe.

Auch Mitarbeiter kommerzieller TV- und Radioarchive kennen diese Situation: Jedes Jahr strahlen allein die ARD-Fernsehanstalten über 100 000 Stunden aus. Diese Datenflut können die Angestellten nicht mehr manuell erfassen. Herkömmlichen Systemen zur automatischen Analyse solcher Daten macht dabei besonders die große Variabilität der Videos zu schaffen – von der Studioaufnahme des Nachrichtensprechers bis zur Außenaufnahme während eines Orkans. Sie helfen daher nur bedingt.

Die Software markiert ein Video je nach Handbewegung unterschiedlich

An einem neuen Lösungsansatz arbeiten Forscher der Fraunhofer-Institute für Nachrichtentechnik, Heinrich-Hertz-Institut HHI in Berlin und für Intelligente Analyse- und Informationssysteme IAIS in Sankt Augustin. Sie haben gemeinsam mit ihren Kollegen vom Max-Planck-Institut für Psycholinguistik nun ein Programm entwickelt, das die komplexen Video- und Audiomaterialien automatisch vor-annotiert. Das Projekt mit dem Namen AVATecH wird im Kooperationsprogramm von Max-Planck- und Fraunhofer-Gesellschaft mit 2,435 Millionen Euro gefördert.

„Das entwickelte System erkennt selbständig, an welchen Stellen des Videos beispielsweise gesprochen wird, und setzt die entsprechende Markierung“, sagt Oliver Schreer, Projektleiter am HHI. „Auch Handbewegungen erkennt das System. Es sieht beispielsweise, ob sich die Hand des Sprechers nach oben oder unten bewegt, ob sie zum Kopf geführt wird oder bestimmte Gesten macht – und setzt auch hier die passende Markierung.“ Die Wissenschaftler sparen also viel Zeit, sie können früher mit ihrer eigentlichen Arbeit, der psycho-linguistischen Analyse, beginnen. Ein einziger Mausklick reicht, um von einer Stelle, an der gesprochen wird, zur nächsten zu springen, oder von einer Handbewegung zur nächsten Geste.

Ausgangspunkt für diese Software sind Analysemethoden wie Gestenerkenner und Systeme zur automatischen Sprachanalyse, die die Forscher der beiden Fraunhofer Institute HHI und IAIS bereits in den vergangenen Jahren entwickelt haben. „Bisher konnten wir nur Videos analysieren, auf denen eine Person in hoher Auflösung gefilmt wurde, möglichst vor einem einfarbigen Hintergrund und mit wenig Hintergrundgeräuschen“, sagt Schreer. „Das vorliegende Material erfüllt diese Bedingungen jedoch größtenteils nicht. Das System muss auch Videos von mehreren Personen analysieren können, die etwa auf einer Parkbank sitzen und bei denen der Hintergrund aus Bäumen, Menschen und Häusern besteht. Für die Audioanalyse stellen Störgeräusche und mehrere Sprecher eine besondere Herausforderung dar.“

Die automatische Annotation soll Plenarsitzungen analysieren

Die Forscher haben die Algorithmen nun so angepasst, dass die Software ebendies leisten kann: Sie analysiert Videos verschiedener Qualität und markiert Sprache, Bewegungen der Hände und des Kopfes, etwa Kopfschütteln oder Nicken. „Das System so anzupassen, war eine große Herausforderung, 80 bis 90 Prozent der Software mussten wir neu schreiben“, sagt Schreer. Die Forscher vom HHI stellen Verfahren für die Videoanalyse bereit, ihre Kollegen vom IAIS die entsprechende Software für die Analyse von Audiodaten. Die Wissenschaftler des MPI in Nimwegen integrierten die neue Software in bestehende Tools und verbesserten Benutzeroberflächen und Web-Interfaces.

Im letzten der insgesamt drei Projektjahre konzentrieren sich die Forscher vom Max-Planck-Institut für Psycholinguistik nun auf die Anwenderfreundlichkeit. „Jeder Erkennungsalgorithmus produziert Fehler“, sagt Peter Wittenburg, technischer Leiter des Sprachenarchivs am MPI. „Jetzt geht es darum, diese schnell zu korrigieren, denn nur, wenn das System als Ganzes effizient funktioniert, werden die Forscher es auch nutzen.“ Nicht nur die Max-Planck-Forscher sollen von der Software profitieren. Auch Wissenschaftler anderer Einrichtungen zeigen Interesse. „Die automatische Annotation hätte einen enormen Einfluss auf die Forschung“, ist sich Wittenburg sicher. Überall dort, wo audiovisuelle Daten besonders robuste Analysealgorithmen erfordern, ermöglichen die entwickelten Analyseverfahren neue Anwendungen.

Künftig soll die Software auch die politische Bühne für sich erobern: In einem EU-Projekt, das im November startet, werden die Fraunhofer-Forscher die Software so anpassen, dass Aufzeichnungen von Meetings, Konferenzen und Plenarsitzungen aufbereitet werden können. Dann lassen sich auch hier bestimmte Redner oder Inhalte auf den Videos leicht wiederfinden. Teile der robusten Audio-Strukturanalyse, die das IAIS 2010 für die ARD Mediathek umgesetzt hat, helfen dabei, komplexe Fernsehdaten automatisch zu erschließen.

MH/PH

Videoaufzeichnungen schnell auswerten

Die Software markiert ein Video je nach Handbewegung unterschiedlich

Die automatische Annotation soll Plenarsitzungen analysieren

Weitere interessante Beiträge

Benachrichtigungs-Einstellungen