Kopfdrehung per Mausklick

DragGan ermöglicht es, von einer KI erzeugte Bilder gezielt zu bearbeiten

Fotos, die eine künstliche Intelligenz erzeugt, sind Glücksache. Denn oft kommt dabei nicht genau das gewünschte Ergebnis heraus. Dank einer Methode, die ein Team um Forschende des Max-Planck-Instituts für Informatik in Saarbrücken entwickelt hat, lässt sich die Kreativität der Algorithmen aber nun in eine gewünschte Richtung lenken, und das buchstäblich. Die Technik namens DragGan erlaubt es beispielsweise, auf dem Bild einer KI mit wenigen Mausklicks die Blickrichtung eines Haustieres zu ändern. Auch die Bearbeitung von Fotos ist mit DragGan prinzipiell möglich, erfordert aber zusätzliche Arbeitsschritte. Und am Ende entsteht unter Umständen ein Bild, das sich vom ursprünglichen Foto stärker unterscheidet als nur in dem bewusst veränderten Detail. 
 

DragGan schafft völlig neue Möglichkeiten, die Arbeit einer künstlichen Intelligenz, kurz KI, zu steuern – zumindest wenn es um die Gestaltung von Bildern geht. Auch die digitale Bildbearbeitung könnte damit deutlich einfacher werden. „Mit DragGan entwickeln wir derzeit ein Werkzeug, dass es dank einer übersichtlichen Nutzeroberfläche auch Laien ermöglicht, komplexe Bildbearbeitungen vorzunehmen“, Christian Theobalt, geschäftsführender Direktor des Max-Planck-Instituts für Informatik, Direktor des Saarbrücken Research Center for Visual Computing, Interaction, and Artificial Intelligence (VIA) und Professor an der Universität des Saarlandes am Saarland Informatics Campus. Dabei geht es derzeit vor allem um Bilder, die eine künstliche Intelligenz erzeugt hat. Wenn ein solches Bild nicht genau den Vorstellungen von Nutzerinnen und Nutzer entspricht, brauchen sie nur die Stellen in dem Bild zu markieren, die sie verändern möchten. Dann geben sie in einem Menü an, welcher Art die Veränderung sein soll – und mit nur wenigen Mausklicks können Laien auf einem Bild dank KI-Unterstützung die Pose, den Gesichtsausdruck, die Blickrichtung oder den Blickwinkel ,beispielsweise von einem Haustier, anpassen.

Allerdings handelt es sich bei dem abgebildeten Tier im Normalfall nicht um den eigenen Hund oder die eigene Katze. Denn das veränderte Bild wird von der KI neu erzeugt, und da ist das Ergebnis nicht unbedingt in allen Details kontrollierbar. „Prinzipiell ist es auch möglich, mit DragGan individuelle Fotos zu bearbeiten“, sagt Christian Theobalt. „Dafür muss ein Foto jedoch erst in das Modell projiziert werden, und dabei kann es zu Abweichungen kommen.“ Denn die KI stellt das Foto gewissermaßen nach.

Der Algorithmus kontrolliert seine Ergebnisse

 Die Algorithmen, die dabei ebenso wie bei der nachträglichen Bearbeitung zum Einsatz kommen, heißen  Generative Adversarial Networks, kurz GANs. „Wie der Name sagt, handelt es sich bei GANs um generative Modelle, also solche, die neue Inhalte wie Bilder synthetisieren können“, Xingang Pan, der als Postdoktorand am Max-Planck-Institut für Informatik und am Saarbrücker VIA-Center maßgeblich an der Entwicklung der Methode beteiligt war. ‚Adversarial‘ bedeutet dabei, dass es sich um ein KI-Modell handelt, in dem zwei Netzwerke gegeneinander spielen. In einem GAN arbeiten ein Generator, der Bilder erstellt, und ein Discriminator, der entscheiden muss, ob die Bilder echt sind oder vom Generator erstellt wurden, gegeneinander. Das System wird so lange trainiert, bis der Discriminator die Bilder des Generators nicht mehr von echten Bildern unterscheiden kann.

Die Einsatzmöglichkeiten von GANs sind vielfältig. Neben der offensichtlichen Anwendung des Bildgenerators sind GANs zum Beispiel gut darin, Bilder vorherzusagen: Die sogenannte Video-Frame-Prediction prognostiziert das nächste Bild eines Videos, was den Datenaufwand beim Videostreaming reduzieren kann. Die GANs können zudem niedrig aufgelöste Bilder hochskalieren und die Bildqualität verbessern, indem sie die Position der zusätzlichen Pixel der neuen Bilder vorhersagen.

Weitverbreitete Motive lassen sich am besten bearbeiten

„In unserem Fall erweist sich diese Eigenschaft von GANs als vorteilhaft, wenn in einem Bild zum Beispiel die Blickrichtung eines Hundes geändert soll. Das GAN berechnet dann im Grunde das ganze Bild neu und antizipiert, wo welches Pixel im Bild mit der neuen Blickrichtung landen muss. Ein Nebeneffekt davon ist, dass DragGAN auch Dinge berechnen kann, die vorher zum Beispiel durch die Kopfposition des Hundes verdeckt waren – wenn es nicht gerade der Kopf einer konkreten Person sein soll. Oder wenn der Nutzer die Zähne des Hundes darstellen will, kann er dem Hund auf dem Bild die Schnauze öffnen “, erklärt Xingang Pan. Auch im professionellen Kontext könnten DragGAN genutzt werden. Beispielsweise könnten Modedesigner den Zuschnitt von Kleidern nachträglich in Fotos anpassen, oder Fahrzeughersteller können mit wenigen Mausklicks verschiedene Design-Konfigurationen eines geplanten Fahrzeuges durchspielen.

Wie immer bei der Arbeit einer künstlichen Intelligenz, ist das Ergebnis nur so gut, wie es die Trainingsdaten der KI zulassen. Daher liefert DragGan  die besten Resultate für Objekte, von denen es viele Bilder für das Training des Algorithmus gibt, wie etwa Tiere, Autos, Menschen und Landschaften. Weniger zuverlässig funktioniert noch die Bearbeitung individueller Fotos, selbst wenn es in das Modell projiziert wurde, also von dem Algorithmus erfasst und wiedergegeben  wird. „Die Anwendung auf beliebige vom Benutzer eingegebene Bilder ist immer noch ein schwieriges Problem, das wir untersuchen“, sagt Xingang Pan.

Nur wer eine Technik völlig versteht, kann ihren Missbrauch aufdecken

Spätestens sobald das Saarbrücker Team die Möglichkeiten optimiert hat, beliebige individuelle Fotos zu bearbeiten, wird die Technik ihr volles Potenzial entfalten. Dass das auch für die Fälschung von Fotos gilt, ist den Forschenden bewusst. Sie finden es aber gerade auch angesichts des Missbrauchspotenzials wichtig, die Methoden zur Bildbearbeitung zu erforschen. „Solche Techniken, Bilder zu verändern, werden ohnehin entwickelt“, sagt Christian Theobalt. „Wir arbeiten auch an Methoden, Bildmanipulationen zu erkennen. Dafür müssen wir die Techniken dahinter verstehen. Und die am besten verstehen wir sie, wenn wir sie selbst entwickeln.“

DragGan sorgte bereits wenige Tage nach Veröffentlichung einer vorläufigen Version des Fachartikels in der internationalen Tech-Community für Aufsehen und gilt vielen als der nächste große Schritt in der KI-gestützten Bildbearbeitung. Während Tools wie Midjourney dazu genutzt werden können, neue Bilder zu erstellen, vereinfacht DragGan die Nachbearbeitung von Bildern, die eine KI erzeugt hat, enorm.

CSI/PH

Weitere interessante Beiträge

Zur Redakteursansicht