Forschungsbericht 2011 - Max-Planck-Institut für Informatik

Optische Bewegungsmessung ohne Marker

Autoren
Theobalt, Christian
Abteilungen
Abteilung: 3D Video and Vision-based Graphics, Computergrafik
Max-Planck-Institut für Informatik, Saarbrücken
Zusammenfassung
Die Messung menschlicher Bewegungen (Motion Capture) ist ein wichtiges algorithmisches Problem in der automatischen Bilderkennung und der Computergrafik. Am Max-Planck-Institut für Informatik entwickeln wir neue Verfahren, um dynamische Modelle von Personen mit bisher unerreichbarer Genauigkeit aus Multivideodaten zu errechnen. Die Modelle bestehen aus einem detaillierten Geometriemodell, genauer Bewegungsinformation und hoch aufgelösten Oberflächentexturen. Unsere Verfahren dienen nicht nur zur Szenenrekonstruktion, sondern können beispielsweise auch in der Videobearbeitung eingesetzt werden.

Einführung

Das Extrahieren von dreidimensionaler Bewegungsinformation von Menschen (Motion Capture) ist ein zentrales algorithmisches Problem in der Bildverarbeitung. Viele praktische Anwendungen im Visual Computing vertrauen genau auf diese Art von Information, so zum Beispiel: Bewegungsmessung in der Biomechanik, Überwachung mit Videokameras, Mensch-Maschine-Interaktion, Gesteninterpretation etc. Auch im Bereich Computergrafik ist optische Bewegungsmessung von immenser Bedeutung. Die Bewegungen von computergenerierten virtuellen Schauspielern, die in Filmen und vernetzten virtuellen Welten eingesetzt werden, werden hierbei an echten Personen gemessen und auf das virtuelle Pendant übertragen. Trotz der langjährigen Verfügbarkeit kommerzieller Motion Capture Technologie ist der Prozess der Bewegungsmessung immer noch aufwendig und kostspielig und unterliegt einer Vielzahl von problematischen Einschränkungen. Existierende Messverfahren verwenden in der Regel mehrere Kameras und optische Markierungen in der Szene, oder beruhen auf einer Art Exoskelett, welches Bewegungsdaten mechanisch erfasst. Der Aufbau des entsprechenden Messsystems ist sehr komplex, es kann ausschließlich die Bewegung des Skeletts gemessen werden und manuelle Korrekturen in den Daten sind sehr oft notwendig. Es ist daher leicht nachvollziehbar, dass beispielsweise der Weg von diesen Daten zu einem kompletten virtuellen Schauspieler noch sehr weit und teuer ist. Um einige der Messeinschränkungen der oben genannten Systeme zu beheben wurden markerlose Bewegungsmessverfahren entwickelt, welche die Skelettbewegung von Personen auch aus reinen Videodaten ohne optische Markierungen erfassen können. Allerdings leiden viele dieser Verfahren unter eingeschränkter Messgenauigkeit und es ist nicht möglich, Personen in normaler weiter Alltagskleidung außerhalb eines speziellen Studios aufzuzeichnen.

In unserer Forschung entwickeln wir daher die nächste Generation von Motion Capture Verfahren, sogenannte Performance Capture Methoden. Aus nur einer Handvoll Videobildströmen (6-12), die eine Person aus mehreren Blickwinkeln zeigen, können wir die hoch detaillierte dynamische Geometrie einer Person, ihre Bewegungen und ihre Oberflächentextur rekonstruieren. Mit diesen Verfahren wurde es zum ersten Mal möglich, komplexe dynamische Szenenmodelle von Personen in beliebiger Kleidung, zum Beispiel einer Tänzerin in einem weiten Kleid, vollautomatisch zu rekonstruieren. Wir sind auch in der Lage, Kleidung in der dynamischen Szenengeometrie automatisch zu indentifizieren und ihre Materialeigenschaften zu schätzen. Durch dieses erweiterte Modell kann die Bewegung einer Person nachträglich realistisch modifiziert werden. Es wird auch kurz beschrieben, wie ein Performance Capture Verfahren in Kombination mit einem statistischen Körpermodell dazu verwendet werden kann, die Körperform von Schauspielern in Videos zu editieren.

Deformationsbasierte und Skelettbasierte Bewegungsmessung

Am Max-Planck-Institut für Informatik haben wir mit die ersten Verfahren weltweit entwickelt, die es ermöglichen, detaillierte räumlich und zeitlich kohärente dynamische Modelle einer sich bewegenden Person aus mehreren Videodatenströmen zu rekonstruieren. Unsere Verfahren erfordern keinerlei optische Markierungen in der Szene und sie können im Gegensatz zu anderen Verfahren aus der Literatur auch komplexe Modelle von Personen in beliebiger Kleidung rekonstruieren. Hauptkomponente dieser von uns gemessenen 4D Modelle der Szene (4D, da Raum + Zeit) ist ein hoch detailliertes Geometriemodell, welches selbst feine Details der echten Szene abbildet, wie zum Beispiel feine Falten in der Kleidung. Da wir zudem die Szene nicht optisch verändern, kann auch das zeitveränderliche Erscheinungsbild der Szenenoberfläche erfasst werden, die sogenannte dynamische Textur.

original
Rekonstruktion basierend auf einem deformierbaren Szenenmodell. Aus 8 Videobildströmen (links) wird die dynamische 4D Szenengeometrie (rechts) rekonstruiert.

Algorithmische Grundlage eines unserer Verfahren ist eine auf den ersten Blick ungewöhnliche Methodenwahl. Als Grundlage des Szenenmodells benutzen wir kein kinematisches Knochenskelett, wie es in den meisten anderen Bewegunsgmessverfahren eingesetzt wird. Ein solches Skelett modelliert das Knochengerüst eines Menschen mathematisch als eine Kette von verbundenen Festkörpern. Stattdessen repräsentieren wir die Person mithilfe eins deformierbaren Oberflächenmodells [1]. Dieses Modell wird aus einem statischen Laserscan der Person erzeugt, den wir vor den Videoaufnahmen erstellen. Unser Bewegungsmessverfahren deformiert nun dieses Oberflächenmodell so über die Zeit, dass seine Form und Pose zu jedem Zeitpunkt der Form und Pose der Person in den Videobildern entspricht. Hierzu müssen Punkte und Konturen in den Videobildern verfolgt und deren 3D Bewegungspfade rekonstruiert werden. Aus diesen Bewegungspfaden wird nun die Deformation des gesamten Geometriemodells geschätzt. Hierzu simulieren wir das Geometriemodell als eine Art elastischen Körper, der sich unter dem Einfluss äußerer Kräfte deformiert. Zur Posenschätzung minimieren wir eine Fehlerfunktion, die den Unterschied zwischen dem 3D Modell und den Bilddaten misst. Die Minimierung dieser Fehlerfunktion für ein deformierbares Oberflächenmodell ist weitaus komplexer als für ein Skelettmodell. Wir haben daher einen neuen hierarchischen Ansatz entwickelt, um die Pose des Modells in jedem Zeitschritt zu schätzen. Abbildung 1 zeigt ein Bild aus einer von 8 Kameraperspektiven einer Multivideosequenz und das dazugehörende rekonstruierte Szenenmodell. Durch die Verwendung eines allgemeinen Deformationsmodells können wir sowohl die Bewegung des Körpers der Person selbst als auch die Bewegung der Kleidung, die nicht einem Festkörpermodell entspricht, rekonstruieren.

Wie beschrieben bietet das von uns in der vorherigen Methode verwendete Deformationsmodell eine Vielzahl an Vorteilen. Allerdings birgt der Verzicht auf ein Skelettmodell auch einige konzeptionelle Nachteile: Zum einen wird das Optimierungsproblem zur Posenschätzung schwieriger. Zum anderen sind Skelettmodelle in vielen Anwendungsgebieten ein etablierter Standard für den eine Vielzahl an Softwarewerkzeugen zur Nachbearbeitung und Analyse existieren. Diese sind nicht in gleichem Maße für unser deformierbares Szenenmodell vorhanden.

original
Kombiniertes skelettbasiertes und oberflächenbasiertes Rekonstruktionsverfahren. Linke Spalte: Eines von 8 Eingabebildern; mittlere Spalte: Rekonstruktion mit Videobild überlagert; rechte Spalte: 3D Modell mit Skelett aus anderer Perspektive.

Der größte Nachteil des Skelettmodells ist allerdings, dass es nicht dazu geeignet ist, um die Bewegung genereller deformierbarer Oberflächen, wie Kleidung, zu erfassen. Um die Vorzüge des deformierbaren Oberflächenmodells mit denen eines Skelettmodells zu verbinden haben wir daher ein hybrides Verfahren entwickelt, das sowohl die Bewegung des Skeletts als auch die sich deformierende Oberflächengeometrie einer Person in genereller Kleidung rekonstruiert [2]. Ein neuartiges Verfahren zur kombinierten lokalen und globalen Posenoptimierung schätzt hierbei für jeden Zeitschritt zuerst die Skelettkonfiguration und anschließend die Deformation der Oberfläche. Im Vergleich zur oben beschriebenen Rekonstruktion mit einem reinen Deformationsmodell ist allerdings das Detail in der rekonstruierten Kleidung etwas geringer. Abbildung 2 zeigt exemplarische Ergebnisse dieses kombinierten skelett- und oberflächenbasierten Verfahrens.

Performance Capture und Erweiterte Szenenmodelle

original
Erweitertes Szenenmodell aus Multi-view Videodaten (a) wird eine Referenzanimation (b) rekonstruiert.Weite Kleidungsstücke werden automatisch identifiziert (rot in c) und die Parameter eines physikalischen Kleidungsmodells geschätzt (d).

Die 4D Modelle, die mit den Verfahren aus dem vorherigen Abschnitt rekonstruiert werden, können aus beliebigen virtuellen Kameraperspektiven genauso abgespielt werden, wie sie aufgezeichnet wurden. Wenn man eine neue Sequenz mit leicht veränderter Bewegung erzeugen möchte, dann muss diese komplett neu aufgezeichnet werden. In der Praxis kann dies eine große Einschränkung sein. Gerade in der Computeranimation ist es nämlich gängige Praxis, Motion Capture Ergebnisse nachträglich zu modifizieren. Theoretisch könnte man natürlich die Skelettbewegung von Modellen, die mit unserem hybriden Rekonstruktionsverfahren erfasst wurden, verändern. Das Problem ist aber, dass die Bewegung der Kleidung unter dieser neuen Bewegung nicht korrekt wäre, da das dort verwendete Modell rein geometriebasiert ist und keinerlei Simulation von Stoffdynamik erlaubt.

original
MovieReshape - die Person wird mit unserem statistischen Körpermodell getrackt, anschließend kann die Körperform verändert werden (hier konkret die Körpergröße) und alle Videobilder entsprechend der veränderten Form modifiziert werden.

Wir haben unser Rekonstruktionsverfahren daher so erweitert, dass es aus den gemessenen 4D Modellen automatisch weite Kleidungststücke heraussegmentiert. Nach der Segmentierung schätzen wir für diese Teile aus der gemessen Oberflächenbewegung heraus die Materialparameter eines physikalisch basierten Stoffsimulationsmodells (Abb. 3). Auch hierbei ist ein nicht triviales Fehlerminimierungsproblem zu lösen, dessen Ziel es ist, das Ergebnis der physikalischen Simulation mit der gemessenen Oberflächengeometrie übereinstimmt. Mit diesem erweiterten Szenenmodell kann nun nachträglich die Bewegung einer Person verändert werden und man erhält eine plausible Kleidungssimulation, die das Verhalten des Stoffes so wiedergibt, als ob man die neue Bewegung tatsächlich rekonstruiert hätte. Mit diesem Verfahren ist es nun erstmals möglich, eine Person einmal in einer Sequenz aufzuzeichnen und nachträglich beliebige neue Sequenzen zu erzeugen. In der Summe reduziert dies die Produktionszeiten und Kosten einer Filmsequenz um ein Vielfaches.

original
MovieReshape - die obere Reihe zeigt Bilder aus einer TV Serie. Die Muskulösität des Schauspielers in der unteren Sequenz wurde mit MovieReshape um 30% erhöht.

Das soeben beschriebene physikalisch basierte Szenenmodell ist nur ein Beispiel für ein erweitertes Szenenmodell. Eine andere erweiterte Repräsentation, die am MPI für Informatik entwickelt wurde, ist ein statistisches 3D Modell des menschlichen Körpers. Dieses Modell wird durch zwei niedrigdimensionale Parameterräume beschrieben. Der erste Parameterraum bestimmt die Gelenkwinkel des menschlichen Skeletts, und somit die Bewegung des Körpers. Die Hauptinnovation ist der zweite Raum, welcher die Kontrolle der Körperform und -konstitution durch wenige intuitive Parameter zulässt. Beispiele für solche Parameter sind: Gewicht, Körpergröße, Beinlänge, Hüftumfang, Muskularität etc. Dieses Modell kann also nicht nur die Bewegung eines Menschen, sondern auch die Variabilität der menschlichen Körperform abbilden. Für den Bereich der Bewegungsmessung bietet dieses neue Modell mehrere Vorteile, weil es einfacher wird, die Bewegung und die Körperproportionen eines Schauspielers aus Bildern direkt zu schätzen. Der Umweg über den Laserscan entfällt. Zudem wird es durch dieses Modell auch möglich, Bewegungsmessverfahren für die Lösung neuer Aufgaben einzusetzen. In unserem MovieReshape Projekt haben wir zum Beispiel zeigen können, dass wir mit unserer Technologie bisher unmögliche komplexe Videobearbeitungsschritte durchführen können (Abb. 4). Wir können die Bewegung eines Schauspielers aus einer oder mehreren Kameraperspektiven schätzen, nachträglich die Körperparameter ändern und dann die Videobilder so modifizieren, dass der Schauspieler eine entsprechend geänderte Körperform hat. Abbildung 5 zeigt ein Beispiel, in dem wir die Muskulösität eines Schauspielers in einem Filmausschnitt nachträglich verändert haben.

1.
E. de Aguiar, C. Stoll, C. Theobalt, N. Ahmed, H.-P. Seidel, S. Thrun:
Performance Capture from Sparse Multi-view Video.
ACM Transactions on Graphics (Proc. of SIGGRAPH 2008), 27(3), 2008. Los Angeles, USA.
2.
J. Gall, C. Stoll, E. de Aguiar, C. Theobalt, B. Rosenhahn, H.P. Seidel:
Motion Capture Using Joint Skeleton Tracking and Surface Estimation.
Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), p. 1-8 (2009).
Zur Redakteursansicht