Wie sprachlich versiert künstliche Intelligenz geworden ist, darüber ist in den vergangenen Wochen viel geschrieben worden. Der Sprachbot ChatGPT des Unternehmens OpenAI etwa verfasst ganze Kochrezepte oder empfiehlt einem Salzstangen oder Chips, wenn man ihm mitteilt, dass man Appetit auf etwas Herzhaftes hat. Nur: Zum Küchenschrank gehen muss Mensch noch selbst.
Es sei denn, man arbeitet in einem Labor von Google. Da reicht es, der künstlichen Intelligenz zu sagen: „Bring mir die Reis-Chips aus der Schublade.“ Schon rollt ein Roboter los, groß wie ein zehnjähriges Kind, durchsucht eine Küche, greift mit seiner Zangenhand die Chipstüte aus einer Schublade und bringt sie den Forschern mit.
So ist es in einem Video zu sehen, das Google und die TU Berlin vor wenigen Tagen ins Netz gestellt haben. Die Forscher haben das Sprachmodell Palm, Googles Pendant zu OpenAIs Sprachmodell GPT-4, zu einer Robotersteuerung namens Palm-e aufgemotzt. Sie versteht nicht nur komplizierte Sprachanweisungen – sondern schreibt auch gleich die jeweiligen Steuerbefehle in Form von Softwarecode für den Roboter, der sie in der physischen Welt umsetzen soll.
ChatGPT: Wie die KI funktioniert und welche Einsatzgebiete es gibt
OpenAI wurde 2015 als gemeinnützige Forschungs- und Entwicklungsorganisation vom Tesla- und Twitter-Chef Elon Musk sowie dem Technologie-Investor Sam Altman gegründet. Zu den Investoren zählt außerdem der PayPal-Mitgründer Peter Thiel. Im Jahr 2019 wurde ein gewinnorientierter Ableger gegründet, um externe Investitionen einzusammeln. Auch der Software-Konzern Microsoft sicherte sich Anteile an dem Unternehmen, dass bei der jüngsten Finanzierungsrunde Insidern zufolge mit 20 Milliarden Dollar bewertet wurde.
Musk verließ den Verwaltungsrat von OpenAI 2018, lobte ChatGPT auf Twitter allerdings als "erschreckend gut". Allerdings kündigte er später an, den Zugriff von OpenAI auf die Datenbank des Kurznachrichtendienstes vorerst zu sperren. Er habe gerade erst erfahren, dass OpenAI die Daten nutze, um die KI zu trainieren.
Mögliche Anwendungsbereiche für das Programm sind Digital-Marketing oder die Beantwortung von Kunden-Anfragen. Einige Nutzer habe ChatGPT sogar dafür genutzt, Software-Code auf Fehler zu prüfen.
OpenAI zufolge kann ChatGPT einen menschlichen Dialog simulieren, Nachfragen beantworten, Fehler eingestehen, falsche Annahmen revidieren und unangemessene Anfragen zurückweisen. Trainiert werde die Künstliche Intelligenz nach der Methode "Reinforcement Learning from Human Feedback (RLHF)". Dabei bewerten Menschen Schlussfolgerungen, die die Software zieht, um künftige Ergebnisse zu verbessern.
ChatGPT versucht Fragen von Nutzern zu verstehen und in einer schriftlichen Konversation so zu beantworten, wie es ein Mensch täte.
OpenAI hat eingeräumt, dass ChatGPT die Tendenz hat, „plausibel klingende, aber falsche oder sinnlose Antworten" zu liefern. Die Behebung dieses Problems sei schwierig. Außerdem können durch KI Vorurteile zu ethnischer Zugehörigkeit, Geschlecht oder Kultur weiterverbreitet werden. Auch Google und Amazon hatten mit ethisch fragwürdigen Entscheidungen ihrer jeweiligen KI-Projekte zu kämpfen. Bei anderen Unternehmen mussten Menschen eingreifen, um ein durch die Software verursachtes Chaos einzudämmen.
Es ist ein weiterer verblüffender Schritt, der zeigt, wie mächtig Sprachmodelle in den vergangenen Monaten geworden sind. Erst wurden sie immer besser, Gedichte zu schreiben oder Prüfungsfragen zu beantworten. Vor kurzem zeigte GPT-4, dass es auch die Inhalte von Fotos analysieren kann. Am Donnerstag überraschte OpenAI mit einem AppStore für ChatGPT, der etwa das Reiseportal Expedia oder die Matheplattform Wolfram Alpha mit dem Sprachbot verknüpft. Und nun lernen die Sprachmodelle sogar, die physische Welt zu begreifen und Roboter darin zu steuern. ChatGPT, könnte man sagen, bekommt Arme, Beine und Augen.
Roboter hören jetzt aufs Wort
„Etwas Fundamentales hat sich geändert, auch in Bezug auf die Robotik“, sagt Palm-E-Mitentwickler Marc Toussaint, Leiter des Fachgebietes Intelligente Systeme an der Technischen Universität Berlin. Mit den Algorithmen, die den neuen Sprachmodellen zugrunde liegen – sogenannte Transformer – ließen sich jetzt auch Systeme trainieren, „die in der physischen Welt Entscheidungen treffen müssen.“
Das könnte Robotik und künstliche Intelligenz im Alltag auf eine neue Stufe heben. Bisher mussten Fachleute Roboter für jede Aktion eigens programmieren – das ist langwierig, ineffizient, teuer. Darum werden Roboter bisher meist in Fabriken für Aufgaben eingesetzt, die sich unter kontrollierten Bedingungen immer wiederholen.
Künftig könnte ein Befehl in ganz normaler Sprache reichen, um einem Roboter eine Aufgabe in einer unübersichtlichen Umgebung aufzutragen – und die Algorithmen ermitteln von selbst, wie die Maschine den Job erledigt. „Ich kann jetzt sprachliche Instruktionen an Roboter geben“, sagt Toussaint. Vielleicht mache das Roboter so leicht zu bedienen, „dass es Leute auch interessant fänden, tatsächlich so etwas für die Pflege oder für den Haushalt einzusetzen.“
Lesen Sie auch: Warum Google mit Bard vorpreschen muss
Große Sprachmodelle werden mit riesigen Mengen Text trainiert – und lernen vorherzusagen, welche Wörter am wahrscheinlichsten aufeinander folgen. Auf die Frage: „Was ist die Hauptstadt von Schweden?“ antwortet die KI: Stockholm. Nicht, weil es eine Weltkarte vor Augen hat – sondern weil es in Texten sehr oft die Wörter Schweden, Hauptstadt und Stockholm in einem Zusammenhang vorgefunden hat.
Der Sprachbot schreibt auch den Maschinencode
„Als Robotiker stellt sich die Frage, ob man solche Systeme ähnlich wie Sprachsysteme auch an die physische Welt koppeln kann“, sagt Forscher Toussaint. „Das bedeutet, dass sie nicht nur textuellen Input bekommen, sondern auch Bilder oder Zustandsschätzungen aus der Robotik – und mithilfe dieser Informationen nicht nur textuelle Probleme, sondern auch geometrische Probleme lösen können.“ Genau das haben die Forscher mit Palm-e erreicht. Man könne dem System nun ein Objekt im Raum zeigen, sagt Toussaint, und fragen: Ist das für den Roboter erreichbar?
Forscher von Microsoft haben ähnliche Fähigkeiten dem Sprachbot ChatGPT beigebracht. Ein Video von Microsoft im Internet zeigt, wie sie per Sprachbot einer Drohne die Aufgabe geben: „Suche mir ein Getränk“. Schon hebt die Drohne ab, schaut sich im Raum um und hält schließlich schwebend vor einem Tisch inne, auf dem ein Tetrapack mit Mineralwasser steht.
Und das ist nur das simpelste Beispiel, was die Kombination von Sprachbot und Flugroboter möglich macht. „Suche mir ein Getränk mit Zucker und rotem Logo“ – flink findet die Drohne im Regal eine Cola-Dose. „Mache ein Selfie, indem Du eine reflektierende Oberfläche benutzt“ – auch das klappt.
Auch hier versteht das Sprachmodell nicht nur die verbalen Befehle, sondern schreibt auch gleich den Code, um die Drohne zu steuern. Etwa die Fluganweisung, um im Zick-Zack-Muster an einem Regal entlangzufliegen, um die darin gelagerten Gegenstände zu inspizieren.
Tesla baut schon am Androiden
Derlei Manöver könnten künftig für die Inspektion von Hochregallagern interessant sein oder für die Schadenskontrolle großer Solarparks aus der Luft. In einer Simulation zeigt Microsoft auch schon, wie Drohnen künftig mit einfachen Sprachanweisungen Windkraftanlagen aus der Nähe inspizieren könnten. „Wir freuen uns, diese Technologien zu veröffentlichen, um Robotik einem breiteren Publikum zugänglich zu machen“, schreiben die Forscher in einem Blogbeitrag.
Lesen Sie auch: OpenAI: Startet Elon Musk ein Konkurrenzprojekt?
Was also, wenn ChatGPT bald auch die physische Welt betritt – eingebaut in humanoide Haushaltsrobos, fingerfertige Fabrikroboter? Wenn man den Maschinen nicht kompliziert einprogrammieren muss, was sie tun sollen – sondern es Ihnen einfach zuruft?
Bisher können sich wenige Menschen in Deutschland das vorstellen. Für die Hersteller von Robotern und die Industrie wäre es ein Durchbruch. Allein in der Autoindustrie arbeiten eine Million Roboter weltweit, aber begrenzt hinter Gittern. E-Autohersteller Tesla arbeitet nun an einem humanoiden Roboter mit Armen und Beinen, der frei herumlaufen soll und eines Tages viele Jobs so versiert erledigen soll wie menschliche Kollegen.
Auch OpenAI, das Unternehmen hinter ChatGPT, sichert sich schon smarte Hardware: Am Donnerstag wurde bekannt, dass es eine Finanzierungsrunde über 23,5 Millionen Dollar in das norwegische Robotik-Start-up 1X Technologies angeführt hat. Dessen humanoider Roboter Neo packt in einem Demo-Video zügig Klötze in eine Kiste, öffnet eine Tür und ein Fenster. Auch das US-Start-up Figure und der Konkurrent Boston Dynamics entwickeln Androiden für den Alltag.
here's the video of the robot doing packing from the front page (i think i was having some trouble seeing it on Mobile). this is just nice studio lighting, not CGI! pic.twitter.com/MFZSMqgUWQ
— Eric Jang (@ericjang11) March 7, 2023
Ist deren Einsatz durch den Fortschritt der Sprachmodelle nun wahrscheinlicher geworden? Zumindest bleiben Aufgeben zu lösen, etwa, wie Roboter neue Aufgaben lernen. „Ich glaube nicht, dass sich durch Palm-e fundamental ändert, was Roboter physisch können, also dass sie jetzt besser Kaffee kochen können oder besser etwas lernen können“, sagt Toussaint. Dazu müssten die Maschinen zusätzlich die Fähigkeit zu situativem Lernen entwickeln.