Neue KI-Software Drag-GAN „Jeder Laie kann damit den Gesichtsausdruck einer Person auf einem Foto verändern“

Mit wenigen Mausklicks verändert die künstliche Intelligenz DragGAN, entwickelt am Max-Planck-Institut für Informatik in Saarbrücken, Gesichter, Kleidungsstücke und andere Objekte in Fotos. Quelle: MPI-INF

Forscher aus Saarbrücken haben eine Generative KI mit bisher unerreichten Fähigkeiten entwickelt – per Mausklick lassen sich Autos drehen, Gesichter verändern. Im Interview erklärt KI-Forscher Christian Theobalt, wie das funktioniert und was damit möglich wird.

  • Teilen per:
  • Teilen per:

WirtschaftsWoche: Herr Theobalt, mit so genannter Generativer KI wie Midjourney und Stable Diffusion erzeugen Millionen Menschen seit ein paar Monaten täuschend realistische Bilder. Sie gehen mit Ihrer Generativen KI namens DragGAN nun noch einen Schritt weiter. Was wird damit möglich?
Christian Theobalt: Wir haben ein Werkzeug entwickelt, mit dem sich Bilder dank KI-Unterstützung umfassend bearbeiten lassen. Per Mausklick kann man etwa die Blickrichtung eines Hundes verändern, ein Auto im Bild drehen oder Gesichtsausdruck einer Person anpassen. Dazu klickt man nur auf die entsprechende Stelle im Bild und gibt in einem Menü an, was verändert werden soll. 

In sozialen Netzwerken wird DragGAN als „Photoshop auf Steroiden“ gefeiert. Stehen wir vor einer neuen Ära der Grafik und Bildbearbeitung?
DragGAN vereinfacht die Nachbearbeitung von Bildern enorm. Sehr wahrscheinlich werden solche Generativen Modelle zu sehr wichtigen Werkzeugen für die Bildverarbeitung in den nächsten Jahren. Die Technik schafft ganz neue kreative Möglichkeiten: Autodesigner könnten zum Beispiel mit wenigen Mausklicks schauen, wie ein Automodell aussähe, wenn es etwas länger wäre oder eine höhere Motorhaube hätte. Modeschöpfer könnten mit unserem interaktiven Tool blitzschnell die Form eines Kleids verändern, einen Rock längen oder schauen, wie eine Jacke aussieht, wenn der Reißverschluss geschlossen ist. So können Kreative sehr schnell zig Designalternativen erzeugen.

Klingt wie Magie. Wie funktioniert das?
Wir verwenden dazu ein so genanntes Generative Adversarial Network (GAN), eine bestimmte Form von neuronalen Netzen. Es hat unzählige Fotos analysiert und so gelernt, wie verschiedene Bilder von Gesichtern oder Autos aussehen könnten. Das trainierte Modell kann auf Befehl neue Bilder erzeugen, etwa von einer Straße mit einem Auto.

Christian Theobalt ist geschäftsführender Direktor des Max-Planck-Instituts für Informatik, Professor an der Universität des Saarlandes und Direktor des Saarbrücker VIA-Centers. Quelle: Oliver Dietze

Zur Person

Wie gelingt es Ihrem Modell im nächsten Schritt, ausgewählte Details in einem Bild zu verändern, also etwa das Auto auf dem Bild zu drehen?
Das war bisher ein ungelöstes Problem. Mathematisch ist jedes einzelne generativ erzeugte Bild ein Zahlencode. Der befindet sich in einem hochkomplexen, mitunter 500-dimensionalen Vektorraum. Auch für das Zielbild, in dem das Auto gedreht ist, gibt es einen Zahlencode im Vektorraum – und den müssen Sie finden. Sie müssen dafür wissen, in welcher Richtung sie den mathematischen Raum vom aktuellen Bild aus durchsuchen, um zum gewünschten Bild zu finden. Bloß: Die Möglichkeiten in diesem Raum, sich zu bewegen, sind so unendlich groß.

Wie ist es Ihnen gelungen, das Problem zu lösen?
Wir haben eine Methode entwickelt, mit der man durch den gelernten Raum, in dem die KI-Bilder sozusagen leben, gezielt gehen kann. Ich kann nun also sagen: Ich hätte gern in diesem Foto, dass der Löwe sein Maul öffnet – und binnen Sekunden bleckt der Löwe seine Zähne.

Lesen Sie auch: Keine Angst vor KI!

Wie aber weiß die KI, wie das Maul eines Löwen von innen aussieht?
Das unserer Forschung zugrundeliegende neuronale Netzwerk wurde zuvor anhand riesiger Mengen an Daten trainiert und hat gelernt, wie unzählige Dinge aussehen, darunter auch ein Löwe mit geöffnetem Maul. Darum kann es auch korrekt das Innere des Mauls generieren. Und mit unserer Bedienoberfläche kann jeder Laie solche intelligenten Bearbeitungsfunktionen jetzt kontrolliert abrufen. Das kann auch jenseits von kreativen Branchen interessant sein.

Wo denn noch?
Sie können mit unserem Werkzeug in kurzer Zeit unzählige Varianten von Bildern erzeugen – und damit beispielsweise auch andere KIs trainieren, die etwa autonome Autos oder Roboter steuern sollen. Würde ein Roboterauto einen Menschen noch erkennen, wenn er in einem anderen Winkel über die Straße liefe? Das können Sie nun besser und gezielter testen.

Wann können Hobbyfotografen damit jedes ihrer Bilder beliebig umgestalten?
Wir befinden uns mit DragGAN noch im Bereich der Grundlagenforschung. Momentan ist der Startpunkt für DragGAN kein herkömmliches Foto, sondern immer ein Bild, das selbst von dem generativen Modell erzeugt worden ist. Mit einem zusätzlichen Schritt können wir aber auch Fotos aus Digitalkameras bearbeitbar machen. Dafür projizieren wir das Foto mathematisch in den Raum des KI-Modells. Das ist nicht ganz trivial und funktioniert momentan für manches besser, für manches schlechter. In ein paar Monaten lassen sich damit sicher einige Funktionen in Bildbearbeitungsprogrammen aufmotzen.

Künstliche Intelligenz – Geschichte einer Idee

Auch Konzerne wie Adobe statten ihre Bildbearbeitungsprogramme zunehmend mit Generativer KI aus. Wie gut kann KI aus Deutschland da mithalten?
Ich denke, Deutschland ist stark präsent, was die Forschungskompetenz bei Generativer KI betrifft, da brauchen wir uns nicht verstecken. Unser Team arbeitet schon seit vielen Jahren in dem Bereich. Und die Tatsache, dass eine strategische Partnerschaft mit Google an unserem Standort in Saarbrücken zustande gekommen ist, dieses Projekt ist ja ein Ergebnis dieser Partnerschaft, zeigt, dass die Qualität unserer Arbeit geschätzt wird.

Haben sie schon Pläne für eine kommerzielle Software, für ein Start-up?
Aus unserem Institut sind in Saarbrücken schon einige Start-ups entstanden, auch aus meiner Abteilung. Und natürlich steht die Idee bei DragGAN im Raum und es gibt viele Anfragen danach. Aber aktuell können wir noch nichts Konkretes dazu sagen.

Führende KI-Forscher haben in den vergangenen Wochen mehrfach vor Desinformation und Manipulation durch Generative KI gewarnt. Ist DragGAN nicht auf ein potenzielles Werkzeug für solche Zwecke
Wie auch viele andere KI-Werkzeuge birgt diese Technologie neben ihrem enormen Potenzial auch Anwendungsfälle, die man ganz klar ablehnen muss. Wir sind weltweit an einem Punkt angelegt, wo viele Weichen für die Zukunft der KI gestellt werden. Und es ist wichtig, dass wir jetzt die richtigen Weichen stellen. Indem wir etwa hohe Ansprüche daran stellen, welche Standards und ethischen Richtlinien KI erfüllen soll. Wir müssen uns immer fragen: Wie können wir sicherstellen, dass alles, was mit solchen intelligenten Systemen passiert, auch erklärbar bleibt und dass die Menschen die Kontrolle darüber behalten? Wie können wir die KI-Methoden so gut verstehen, dass wir ein Originalfoto von einem veränderten Bild unterscheiden können? Genau an diesen Fragestellungen forschen wir auch. 

Was, wenn das trotz allen Bemühungen nicht gegen Missbrauch hilft? Haben Sie schon einmal erwogen, KI-Modelle wie DragGAN lieber gar nicht zu veröffentlichen?
Nein, das halte ich für den falschen Weg. Diese Technologien werden entwickelt werden und werden Vorteile in vielen Bereichen der Wirtschaft und unserem täglichen Leben erzeugen. Wir haben das Talent und das Potenzial, hier führend dabei zu sein. Man kann nur dann gestalten, wenn man an der Spitze mitfährt.

Lesen Sie auch: Das überraschend kleine Team hinter der Foto-KI Midjourney

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%