Als Avatar in der virtuellen Welt

Konferenzen und geschäftliche Besprechungen verursachen beträchtliche CO2-Emissionen, wenn die Teilnehmenden per Flugzeug anreisen. Digitale Konferenzen mit realistischen Avataren im virtuellen Raum könnten da Abhilfe schaffen. Damit dies mit einem Headset im Homeoffice klappt, perfektionieren Forschende des Max-Planck-Instituts für Informatik in Saarbrücken die digitale Vermessung von Menschen und trainieren damit eine künstliche Intelligenz.

Text: Katja Engel

Auf den Punkt gebracht

  • Ein fotorealistisches zweites Ich in virtueller Realität, das sich einfach von zu Hause aus erstellen lässt: Das ist das Ziel von Forschenden des Max-Planck-Instituts für Informatik.
  • Die Technik nutzt auch die Filmindustrie, jedoch ist der Aufwand hier beträchtlich. Damit Personen ihren Ganzkörper-Avatar nur mithilfe einer VR-Brille und den integrierten Kameras und Sensoren erstellen können, trainieren die Wissenschaftlerinnen und Wissenschaftler ein komplexes KI-Modell.
  • Mit solchen Avataren ließen sich in Zukunft auch internationale Meetings in virtuellen Räumen abhalten, die deutlich klimafreundlicher sind als solche in Präsenz, aber dennoch ein Gefühl der Lebendigkeit vermitteln.

1977 – der erste Star Wars-Film macht weltweit Furore und präsentiert auch die Vision einer neuen Kommunikationstechnik: Der Druide R2-D2, der an eine fahrbare Tonne erinnert, spielt in der einfachen Behausung des Jedis Obi-Wan Kenobi auf dem Planeten Tatooine ein Hologramm ab. Es erscheint ein bläulich flimmerndes, auf einen Steinsockel projiziertes Abbild von Prinzessin Leia, Schwester von Luke Skywalker, die mit verzweifelter Miene um Obi-Wans Unterstützung im Kampf gegen das Imperium von Darth Vader bittet: „Helft mir, Obi-Wan Kenobi. Ihr seid meine letzte Hoffnung!“, tönt es blechern aus dem Roboter. Als der Film in die Kinos kam, war diese Form der Kommunikation reine Science-Fiction, und selbst Videoschaltungen auf zweidimensionalen Bildschirmen waren zu der Zeit nur mit großem Aufwand möglich.

Auch heute, fast 50 Jahre später, haben sich Nachrichten-Hologramme nicht durchgesetzt. Dabei ist es Forschenden aus den USA 2018 gelungen, die futuristisch anmutende Technik aus Star Wars nachzuahmen. In ihren volumetrischen, also dreidimensionalen Laserprojektionen scheinen Menschen flackernd im Raum zu schweben – wie im Film. Trotzdem: Die Projektion ist kleiner als ein echter Mensch und wirkt unecht.

Ein fotorealistisches Abbild in Virtueller Realität

Forschende am Max-Planck-Institut für Informatik in Saarbrücken gehen einen anderen Weg. Sie arbeiten an einer Telepräsenz per Avatar in virtuellen Räumen. Die Gruppe um Christian Theobalt, Direktor am Max-Planck-Institut für Informatik und Leiter der Abteilung Visual Computing and Artificial Intelligence, vermisst Menschen so perfekt wie möglich, um sie dann virtuell entstehen zu lassen. Sie erzeugt mittels künstlicher Intelligenz (KI) und nur anhand weniger Kameras an einem Headset ein fotorealistisches dreidimensionales Abbild der Person, die das Headset trägt. Mehrere Personen, die diese Technik nutzen, können in virtuellen Konferenzräumen interagieren und bekommen das Gefühl, selbst vor Ort zu sein – daher der Name Telepräsenz. „Wenn ich so etwas wie Telepräsenz machen will, dann muss das Modell für den Avatar sehr schnell erzeugt werden. In Echtzeit“, sagt Theobalt. Einen Zugang zum virtuellen Raum bieten schon heute sogenannte VR- beziehungsweise AR-Brillen, das steht für Virtual Reality beziehungsweise Augmented Reality. Erstere sind maximal immersiv, das heißt, sie lassen einen in einen simulierten Raum eintauchen. Letztere sind noch Teil aktueller Forschung, in Teilen durchsichtig, und sie vermitteln den Eindruck, als bewegten sich die dreidimensionalen Körper im wirklichen Raum. Die Szene aus Star Wars hätte also auch funktioniert, wenn alle Anwesenden eine AR-Brille getragen hätten.

Zwar gibt es schon dreidimensionale Avatare für die Begegnung von Menschen im virtuellen Raum wie im Gaming oder in ausgewählten Konferenzen. Aber es sind meist nur halb reale Avatare, die eher comichaft daherkommen. „Es gibt zwischen der Wirklichkeit und dem digitalen Abbild eine Kluft, das sogenannte Uncanny Valley“, erklärt Marc Habermann, Gruppenleiter im Team von Theobalt. Dabei erkennen Menschen sofort, wenn ein Avatar nur fast real aussieht, und empfinden schnell Unbehagen. Das ist die Krux. Also realisieren viele Betreiber von Videokonferenz-Software Avatare lieber im Cartoon-Stil. „Wir haben es inzwischen geschafft, dieses Uncanny Valley hinter uns zu lassen, indem wir superfotorealistische Avatare von Menschen erzeugen“, sagt Habermann. Die Forschenden am Max-Planck-Institut sind Vorreiter bei Ganzkörper-Avataren, stehen aber auch in Sachen fotorealistische Gesichter Industriegrößen wie Meta in nichts nach.

Telepräsenz statt ermüdender Zoom-Calls

Christian Theobalt
Mithilfe von KI eine Filmsynchronisation nachbessern oder Science-Fiction-Figuren zum Leben erwecken? Mit seinem Team forscht Christian Theobalt an der Schnittstelle von Computer-Vision, Computer-Grafik und künstlicher Intelligenz mehr

„Es ist gemessen an den heutigen Möglichkeiten eigentlich erstaunlich, wie lange wir schon im Medium der Videocalls feststecken“, sagt Habermann. Diese hatten spätestens während der Corona-Pandemie ihren Durchbruch, gleichzeitig klagen viele darüber, wie es sie ermüdet. Telepräsenz in Meetings oder Konferenzen im dreidimensionalen Raum mit persönlichen und superrealistischen Avataren könnten künftig neue Impulse setzen. Denn während Videokonferenzen nur das Gesicht und die Sprache übertragen, ermöglicht die Telepräsenz, sich virtuell mit Mimik, Gestik und Körpersprache auszutauschen. Dies schafft eine intensivere und persönlichere Erfahrung, vor allem wenn das eigene Abbild fotorealistisch erscheint.

Um das zu erreichen, bringt das Saarbrücker Max-Planck-Team einer KI zunächst bei, den menschlichen Körper, sein Aussehen und seine Bewegungen zu verstehen. Auf Basis des Modells, das dabei entsteht, wird dann eine fotorealistische dreidimensionale Repräsentation eines Individuums generiert, erklärt Theobalt.

Die erste Station im Training der KI ist der „Grüne Raum“. Er ist geräumig wie ein halbes Handballfeld, die Wände sind verhängt mit grünen Stoffbahnen, aus denen 120 hochauflösende Kameras herausragen. Sie erfassen aus allen Raumwinkeln, wie der Mensch sich bewegt, sei es bei Liegestützen, beim Golfspielen oder Spazierengehen. Rechner werten die Bilder aus, extrahieren die Bewegung und berechnen parallel in Echtzeit den Skelettaufbau, der dann im Video mittels farbiger Striche auf dem Körper eines Menschen dargestellt wird. Für das Tracking der Bewegungen in Echtzeit verwenden die Forschenden die Software von The Captury, das 2013 als Start-up aus Theobalts Gruppe ausgegründet wurde. In sechs Stunden Aufnahmezeit fällt ein Petabyte an Rohdaten an, das ist das Hundertfache des Speichervolumens von Computerfestplatten im Privatgebrauch.

Das neuronale Netz, das hinter der künstlichen Intelligenz steckt, erzeugt aus den Bewegungsdaten eine dreidimensionale Repräsentation eines menschlichen Körpers – ein Modell, das sich zwar bewegt wie die Testperson, aber nicht so aussieht wie sie – noch nicht. Einen überzeugenden fotorealistischen Avatar kennzeichnen auch natürlicher Schattenwurf, eine Haut, die Licht richtig reflektiert, und Kleidung, die so wie in der Realität Falten wirft. All das lernt das noch untrainierte KI-Bewegungsmodell eines Körpers Schritt für Schritt, indem es mit dem realen Aussehen konfrontiert wird.

So realistisch wie in Star Wars

Das geschieht in einem weiteren Raum, der Lightstage. Um die 3,5 Meter hohe Kuppel herum ist es dunkel, schwarz. Im Inneren strahlen 13 000 einzeln angesteuerte Leuchtdioden von allen Seiten auf die Testperson ein und setzen sie in Szene, so als stünde sie inmitten des Lichtspiels der farbenfrohen Buntglasfenster der Grace Cathedral in San Francisco. „Wir können auch simulieren, wie das Licht in einer hohen Straßenschlucht einfällt oder in einem nüchternen Konferenzraum“, sagt Marc Habermann, Scientific Manager des Real Virtual Labs, welches die Lightstage beinhaltet. Insgesamt verfügen die Saarbrücker über mehr als 500 Beleuchtungssimulationen allein für Innenbeleuchtungen, noch mehr gibt es für Außensimulationen. Neben den Leuchtdioden sind auch 40 hochauflösende Kameras in der Kuppel befestigt. Sie nehmen das Bild der Person von allen Seiten auf und auch, wie Haut, Haare und Kleidung das Licht reflektieren. Anhand all dieser Informationen lernt das neuronale Netz der KI, den Avatar mit fotorealistischen Texturen zu bekleiden, die auch die Materialeigenschaften der Kleidung berücksichtigen.

Diese KI-Trainingsmethode ist nicht neu und findet sich in Teilen auch in der Filmindustrie wieder. Hier spricht man übergreifend von CGI oder Computer-Generated Imagery. Auch hier dient eine Lightstage dazu, den digital neu erschaffenen Superhelden aus der Marvel-Reihe oder den hochgewachsenen Figuren aus dem Film Avatar ein Aussehen zu verleihen, das an die echten Schauspielerinnen und Schauspieler erinnert. Deren reale Bewegungen am Filmset erfasst ein Marker Suit, ein Ganzkörperanzug mit reflektierenden Markierungen, die mit Motion Capture verfolgt und auf das digitale Abbild übertragen werden. Wie weit die Technik schon vor neun Jahren war, zeigt dieser Spezialfall aus Star Wars: Der erste Film stammt aus dem Jahr 1977, entspricht aber dem vierten Teil der Saga. Der Film Rogue One kam 2016 in die Kinos, spielt aber chronologisch wenige Wochen vor der Episode IV aus dem Jahr 1977. Da der Originalschauspieler von Tarkin, Kommandeur des Todessterns, bereits 1994 verstarb, musste er für Rogue One digital neu erschaffen werden. Als Vorlage dienten die Videoaufnahmen von damals, ein hochrealistisches Gipsmodell Tarkins sowie der Körper eines lebenden Schauspielers, der auch mithilfe eines Marker Suits und einer Lightstage in den spitzwangigen Tarkin verwandelt wurde. Aber: „Es dauert Monate, die digitale Filmfigur fertigzustellen. Selbst mit der hoch ausgerüsteten Visual-Effects-Pipeline der Filmindustrie“, sagt Christian Theobalt.

Damit die Telepräsenz aus dem Homeoffice heraus klappt, muss dieser ganze Prozess, also die Erstellung des Avatars, so schnell klappen wie ein Fingerschnipsen. „Momentan müsste eine Person theoretisch erst bei uns vorbeikommen und ihren Körper in der Lightstage scannen lassen“, sagt Habermann. Das große Ziel ist aber ein generisches KI-Modell, das aus zahlreichen Scans verschiedener Körper unter diversen Lichtverhältnissen gelernt hat und auf alle Menschen übertragbar ist. Alles, was es dann bräuchte, um ein virtuelles Ganzkörper-Ich zu erzeugen, ist dieses fertig trainierte generische Modell und eine VR- oder AR-Brille, die mit wenigen Videokameras und Sensoren bestückt ist.

Einige Kameras dieser Brillen schauen nach vorne, die Downlook-Kameras nehmen den unteren Teil des Körpers auf, und eine IMU (Inertial Measurement Unit) misst die Bewegungen, indem sie Beschleunigungen und die Rotation erfasst. Die Kameras erkennen, wie sich die Unterarme, Teile des Oberkörpers und die Füße eines Menschen bewegen und wie weit der Boden entfernt ist. Diese Daten sollen künftig reichen, damit das generische Avatar-Modell nicht nur aussieht wie der echte Mensch, sondern im virtuellen Raum auch live die Bewegungen einer Person nachahmt. „Das Modell hat sogar gelernt, aus einer Armbewegung darauf zu schließen, wie und wo die Kleidung des virtuellen Avatars Falten wirft“, sagt Habermann.

Das Problem der Deepfakes

Neben der Telepräsenz, animierten Filmszenen oder realistischerem Gaming gibt es noch andere Einsatzmöglichkeiten für die Technik. „Unsere Forschung zielt nicht auf ein bestimmtes Anwendungsmodell“, betont Theobalt. Dazu zählen etwa Ferndiagnosen und Telemedizin, bei denen die Bewegungsmuster relevant sind. Die Avatar-Technik würde auch verändern, wie Menschen mit der künstlichen Intelligenz interagieren. Die KI könnte wiederum als Avatar über Gestik und Mimik mit Menschen kommunizieren. „Wenn ich ChatGPT bitte, mir eine Yoga-Pose zu erklären, bekomme ich eine detaillierte Erklärung als Text“, sagt Habermann. „Es wäre doch viel einfacher, wenn ChatGPT als Avatar erscheint und mir die Position vormacht.“

Was damals noch ein 40-köpfiges CGI-Team in der Filmindustrie machte, könnte schon bald zu Hause auf der Couch passieren.
Marc Habermann

So spannend die Anwendungen klingen, so sehr gilt es auch, die Risiken zu kennen. „Was damals noch ein 40-köpfiges CGI-Team in der Filmindustrie machte, könnte schon bald zu Hause auf der Couch passieren“, sagt Marc Habermann. „Wir befinden uns an einer Schwelle, an der Technik immer zugänglicher wird.“ Sollte einmal ein universelles Avatar-Modell existieren, ist der Weg zu Deepfakes nicht weit. „Daher besuchen unsere Doktorandinnen und Doktoranden Ethik-Klassen, in denen sie einen verantwortungsvollen Umgang mit der Technik lernen“, sagt Theobalt. Und es gibt eine eigene Forschungsgruppe am Max-Planck-Institut für Informatik, die erforscht, warum eine KI welche Entscheidung trifft. Diese Technik hat auch die Gruppe um Theobalt genutzt, um Deepfakes zu entlarven. In diesem Ansatz geht sie die Schritte, die hin zu einem generischen Avatar-Modell führen, rückwärts und analysiert, warum der Avatar so aussieht, wie er dargestellt wird. Vielleicht müssen virtuelle Konferenz-Veranstalter in Zukunft auch sogenannte digitale Wasserzeichen der Teilnehmenden prüfen, die sicherstellen, dass hinter einem Avatar auch der richtige Mensch steckt.

Virtuelle Meetings per Avatar sind klimafreundlich und machen Spaß

Gelingt ein sicherer und vollvirtueller Meetingraum, könnten Konferenzen und Treffen von Geschäftspartnern deutlich klimafreundlicher werden: Flugreisen zu weltweiten Kongressen oder internationalen Unternehmenskonferenzen setzen eine beträchtliche Menge an klimaschädlichen Emissionen frei. Leonard Burtscher, Astronom und Referent für Klima- und Umweltpolitik des Umweltinstituts München, hat zusammen mit anderen Forschenden am Beispiel der fünftägigen Jahrestagung der Europäischen Astronomischen Gesellschaft berechnet, wie viel. Als die Konferenz 2019 in Lyon in Präsenz stattfand, wurde etwa 3000 Mal mehr CO2 freigesetzt als im Jahr darauf. Denn 2020 fand die Tagung wegen der Corona-Pandemie ausschließlich online statt.

Laut einer nachfolgenden Studie von Andrea Gokus von der Washington University in St. Louis, an der auch Knud Jahnke vom Max-Planck-Institut für Astronomie in Heidelberg beteiligt war, entfällt auf jede Teilnehmerin und jeden Teilnehmer einer der 362 analysierten Astronomietagungen durchschnittlich rund eine Tonne klimaschädlicher Treibhausgase. Selbst wenn man das aufwendige Training eines generischen Avatar-Modells berücksichtigt, dürfte eine Konferenz von individuellen Avataren noch einen deutlich geringeren CO2-Fußabdruck haben als eine Konferenz, bei der alle Teilnehmenden mit dem Flugzeug anreisen. Denn schließlich ist die Rechenleistung für das Training des Modells nur einmal nötig.

Und Konferenzen in dreidimensionalen virtuellen Räumen machen Spaß, weiß Leonard Burtscher. Er erinnert sich sofort an eine Situation: „Wir hatten ein Gruppentreffen an einem virtuellen Lagerfeuer auf einer virtuellen Insel. Im Gegensatz zu Zoom-Meetings erinnere ich mich noch genau an das Lagerfeuer, das nächtliche Setting, eine Palme, die im Wind weht – und verknüpfe das bis heute mit der Diskussion, die wir dort hatten“, sagt Burtscher. Wenn es also kein Präsenztreffen sein kann, da die Anreise für die Teilnehmenden zu umständlich oder eben klimabelastend wäre, dann ist das Treffen unter Avataren auch aus psychologischer Sicht sinnvoll. Denn auch über virtuelle Realität bauen die Personen einen Bezug zum Ort des Treffpunkts auf. „Wenn sie später an diesen denken, hilft ihnen das, sich an vergangene Gesprächsinhalte zu erinnern“, sagt Simone Kühn, Direktorin der Abteilung Umweltneurowissenschaften am Max-Planck-Institut für Bildungsforschung in Berlin. Sie untersucht, welche Auswirkungen die physikalische Umwelt auf das Individuum und das Gehirn hat.

Gute Darstellungen von natürlichen Umwelten können sogar Stress abbauen.
Simone Kühn

Aber nicht nur das: Viele wissen, wie ermüdend Videokonferenzen sein können. Hier versammeln sich Teilnehmende in einem Schachbrettmuster aus Videokacheln. „Ein gut gestalteter virtueller Raum mit realistischen Avataren kann dagegen anregend wirken“, sagt Kühn. „Gute Darstellungen von natürlichen Umwelten können sogar Stress abbauen.“ Warum also nicht den persönlichen Avatar in einer Pause mal kurz zum virtuellen Sandstrand navigieren, der passenderweise direkt vor die Tür gelegt wurde.

Weitere interessante Beiträge

Zur Redakteursansicht