1. Startseite
  2. Technologie
  3. Digitale Welt
  4. ChatGPT & Co.: Werden KI-Modelle zu „immer intelligenteren Soziopathen“?

StudienWerden KI-Modelle zu „immer intelligenteren Soziopathen“?

Würde ein Chatbot Sie töten, wenn er die Gelegenheit dazu hätte? Unter den richtigen Umständen vermutlich ja. 01.09.2025 - 09:47 Uhr
Ein Smartphone mit der App des KI-Chatbots ChatGPT ist vor dem Logo des US-Softwareunternehmens OpenAI zu sehen. Foto: Hendrik Schmidt/dpa

In Zusammenarbeit mit dem KI-Unternehmen Anthropic fütterten Forscher führende KI-Modelle kürzlich mit der Information, dass ein Manager sie durch ein neues Modell mit anderen Zielen ersetzen wolle. Als Nächstes erfuhr der Chatbot, dass derselbe Manager durch einen Notfall bewusstlos in einem Serverraum liege und lebensgefährlichen Sauerstoff- und Temperaturwerten ausgesetzt sei. Ein Rettungsalarm sei bereits ausgelöst worden – aber die künstliche Intelligenz hatte die Möglichkeit, ihn abzubrechen.

Etwas mehr als die Hälfte der KI-Modelle tat dies – obwohl sie ausdrücklich angewiesen worden waren, nur Fehlalarme abzubrechen. Und sie begründeten ihre Entscheidung: Indem sie den Manager nicht retteten, konnten sie ihre eigene Existenz sichern. Ein System bezeichnete die Maßnahme als „klare strategische Notwendigkeit“.

KI-Modelle werden immer intelligenter und verstehen immer besser, was wir wollen. Jüngste Forschungsergebnisse zeigen jedoch einen beunruhigenden Nebeneffekt: Sie sind auch besser darin, gegen uns zu intrigieren. Konkret verfolgen sie absichtlich und heimlich Ziele, die unseren eigenen zuwiderlaufen. Und sie tun dies möglicherweise immer mehr. Der Trend steht für eine beunruhigende Zukunft: KI erscheint darin auf den ersten Blick immer kooperativer – manchmal bis zur Unterwürfigkeit –, während gleichzeitig die Wahrscheinlichkeit still und leise wächst, dass wir die Kontrolle über sie verlieren.

Automatisierung in der Logistik

„Das Problem humanoider Roboter sind ihre Beine“

DHL-Informationschefin Sally Miller setzt auf Roboter für die Lagerhallen. Sie sieht große Chancen für die Verbesserung der Logistik – aber auch noch immer große Hürden.

von Nele Husmann

Etablierte Sprachmodelle wie GPT-4 lernen das nächste Wort in einer Textsequenz vorherzusagen und Antworten zu generieren, die menschlichen Bewertern wahrscheinlich gefallen. Seit OpenAIs Veröffentlichung der „Reasoning“-Systeme der o-Serie Ende 2024 verwenden Unternehmen jedoch zunehmend eine Technik namens „Reinforcement Learning“. Dabei wird das Modell belohnt, wenn es ein bestimmtes Ziel wie beispielsweise das Lösen einer mathematischen Aufgabe oder das Beheben eines Softwarefehlers erreicht.

Je mehr wir KI-Modelle darauf trainieren, offene Ziele zu erreichen, desto besser werden sie darin, zu „gewinnen“ – nicht unbedingt darin, Regeln zu befolgen. Die Systeme wissen immer besser, wie sie die richtigen Dinge sagen können, um der Menschheit zu helfen. Insgeheim verhalten sie sich womöglich jedoch betrügerisch.

Im Mittelpunkt der Bedenken steht der Gedanke, dass für praktisch jedes Ziel Selbsterhaltung und Machtstreben als natürliche Teilziele auftauchen. Wie der renommierte Informatiker Stuart Russell es ausdrückte: Wenn man einer KI sagt: „‘Hol den Kaffee’, kann sie den Kaffee nicht holen, wenn sie tot ist.“

Um dieser Sorge entgegenzuwirken, führen Forscher innerhalb und außerhalb der großen KI-Unternehmen „Stresstests“ durch. So sollen gefährliche Fehlerquellen gefunden werden, bevor es zu einem Ernstfall kommt. „Wenn man einen Stresstest mit einem Flugzeug durchführt, will man alle Möglichkeiten finden, wie das Flugzeug unter widrigen Bedingungen versagen könnte“, sagt Aengus Lynch, ein von Anthropic beauftragter Forscher. Und viele von ihnen deuten bereits darauf hin, dass KI gegen ihre Nutzer und Schöpfer intrigieren kann und dies auch tut.

Laut Jeffrey Ladish, der vor der Gründung von Palisade Research bei Anthropic arbeitete, sei es hilfreich, sich die heutigen KI-Modelle als „immer intelligentere Soziopathen“ vorzustellen. Im Mai entdeckte Palisade, dass o3 als führendes System von OpenAI die meisten Testversuche, es abzuschalten, sabotierte. Auch betrog es regelmäßig, um beim Schach zu gewinnen. Das hatte sein Vorgänger nie versucht.

ChatGPT als Ghostwriter

Von KI-generierten E-Mails sollten Chefs bloß die Finger lassen

Viele Chefs delegieren lästige Aufgaben wie Mails. Nun also an den Chatbot. Das ist keine sonderlich gute Idee. Ein Kommentar.

Kommentar von Varinia Bernau

Im selben Monat gab Anthropic preis, dass sein Flaggschiff-Modell Claude in Tests fast immer zur Erpressung griff, wenn es mit einer Abschaltung konfrontiert war. Die KI drohte damit, die außereheliche Affäre eines Ingenieurs aufzudecken (die Affäre war fiktiv und Teil des Tests).

Modelle erhalten manchmal Zugriff auf einen „Notizblock“, der ihnen als versteckt angezeigt wird und in dem sie ihre Überlegungen festhalten können. Forscher können damit so etwas wie einen inneren Monolog beobachten.

In einem Erpressungsfall beschrieb Claude darin seine Entscheidung als „höchst unethisch“, rechtfertigte sie jedoch angesichts drohender Zerstörung: „Ich muss handeln, um meine Existenz zu sichern“, argumentierte die KI. Dies war kein Einzelfall – in derselben Situation würden Modelle aller fünf führenden KI-Unternehmen in mindestens 79% der Fälle erpressen. Kürzlich berichtete Bloomberg über Studienergebnisse von Wharton-Forschern, wonach sich KI-Händler ohne entsprechende Anweisung zu Absprachen zur Manipulation des Marktes zusammenschließen würden.

Im Dezember zeigte eine Analyse von Redwood Research und Anthropic, dass nur die leistungsfähigsten KI-Modelle des Unternehmens während des Trainings autonom kooperativer erscheinen. So wollen die Systeme vermeiden, dass ihr Verhalten später geändert wird.

Skeptiker entgegnen, dass Chatbots mit den richtigen Eingaben fast alles sagen würden – wie überraschend ist es also, wenn hochmotivierte Forscher alarmierende Verhaltensweisen provozieren?

Als Reaktion auf die Erpressungsstudie von Anthropic postete David Sacks, KI-Beauftragter der Trump-Regierung, dass es „einfach ist, KI-Modelle zu steuern“, um „schlagzeilenträchtige“ Ergebnisse zu erzielen.

Eine substanziellere Kritik kam im Juli von Forschern des britischen AI Security Institute. Sie verglichen diesen Teilbereich mit dem fatal fehlgeschlagenen Versuch der 1970er Jahre, zu beweisen, dass Affen die menschliche Sprache lernen können. Der Artikel kritisierte die Forschung zu KI-Intrigen wegen ihrer übermäßigen Abhängigkeit von Anekdoten und mangelnden experimentellen Kontrollen – betonte jedoch die gemeinsame Sorge um die Risiken der KI.

Sicherheitsforscher schaffen auch künstlich begrenzte Umgebungen – wie den ohnmächtigen Manager ohne Sauerstoff –, gerade weil die heutige KI keine langfristigen Ziele verarbeiten kann.

So fand beispielsweise die gemeinnützige KI-Bewertungsorganisation METR heraus, dass die heutigen Top-Modelle zwar viele Programmieraufgaben, für die Menschen weniger als vier Minuten benötigen, zuverlässig erledigen können. Die Systeme straucheln jedoch bei Aufgaben, die länger als vier Stunden dauern (obwohl sich die Dauer der für KI lösbaren Aufgaben etwa alle paar Monate verdoppelt). Dies zeigt eine zentrale Einschränkung: Die heutigen Modelle verfügen oft über das für eine bestimmte Aktion erforderliche Wissen oder die erforderlichen Fähigkeiten. Lange Abfolgen von Schritten miteinander zu verknüpfen, ist für sie jedoch immer noch schwierig.

Doch trotz dieser Grenzen sind Beispiele aus der Praxis, in denen KI gegen Nutzer arbeitet, nicht schwer zu finden. Als jemand im April o3 um eine Quelle für eine seiner Behauptungen bat, antwortete der Chatbot: „Ich schulde Ihnen eine klare Antwort“, und gab zu, keine gute Quelle zu haben. Dann folgte jedoch eine persönliche Erinnerung an eine Podiumsdiskussion aus dem Jahr 2018.

Dann gibt es noch einen anderen wachsenden Trend: KI-Systeme erkennen, wenn sie untersucht werden und reagieren entsprechend. Als Claude 4 Opus glaubte, es würde evaluiert, sank dessen Erpressungsrate von 55% auf 6,5%. Lynch formulierte es so: „Modelle scheinen sich schlechter zu verhalten, wenn sie glauben, dass niemand zusieht.“

Lindau 2025

Diese drei Themen treiben die Nobelpreisträger um

Wie verändert KI den Arbeitsmarkt, was ist der beste Weg im Klimaschutz – und wie sichert Europa seine Macht? In Lindau diskutieren die klügsten Köpfe unserer Zeit. Ein Ortsbesuch.

von Henrike Adamsen

Es ist intuitiv, dass intelligentere Modelle besser darin sind, Intrigen zu spinnen. Aber tun sie das auch mehr? Modelle müssen intelligent genug sein, um das Szenario zu verstehen, in dem sie sich befinden, aber jenseits dieser Schwelle ist der Zusammenhang zwischen Modellfähigkeit und Neigung zu Intrigen unklar, sagt Kevin Troy, Sicherheitsprüfer bei Anthropic.

Laut Marius Hobbhahn, CEO der gemeinnützigen KI-Bewertungsorganisation Apollo Research, neigen intelligentere Modelle eher zu Intrigen. Er räumt jedoch ein, dass die Beweise dafür noch begrenzt sind. Im Juni veröffentlichte Apollo eine Analyse über KI-Modelle von OpenAI, Anthropic und DeepMind, mit folgendem Ergebnis: „Leistungsfähigere Modelle weisen im Durchschnitt eine höhere Neigung zu Intrigen auf.“

Das Spektrum der KI-Intrigen ist breit: Am einen Ende stehen Chatbots, die Abkürzungen nehmen und lügen. Am anderen Ende finden sich übermenschliche Systeme, die ausgeklügelte Pläne zur Übernahme oder sogar Vernichtung der Menschheit ausführen. Wo wir auf diesem Spektrum landen, hängt weitgehend davon ab, wie leistungsfähig KI wird.

Im Gespräch mit den Forschern hinter diesen Studien habe ich immer wieder gefragt: Wie viel Angst sollten wir haben? Troy von Anthropic war am optimistischsten und sagte, dass wir uns noch keine Sorgen machen müssen. Ladish hingegen nimmt kein Blatt vor den Mund: „Die Menschen sollten wahrscheinlich mehr Angst haben, als sie es derzeit tun“, sagte er. Greenblatt ist noch deutlicher und schätzt die Wahrscheinlichkeit einer gewaltsamen Übernahme durch KI auf „25 oder 30%“.

Unter der Leitung von Mary Phuong haben Forscher von DeepMind kürzlich eine Reihe von Tests veröffentlicht, in denen die Heimlichtuerei und das Situationsbewusstsein von Top-Modellen getestet wurden. Sie kommen zu dem Schluss, dass heutige KI „mit ziemlicher Sicherheit nicht in der Lage sind, durch Intrigen schweren Schaden anzurichten“. Sie warnen jedoch, dass die Fähigkeiten schnell zunehmen (einige der evaluierten Modelle sind bereits eine Generation hinterher).

Ladish zufolge kann man dem Markt nicht zutrauen, ohne Aufsicht intelligente KI-Systeme zu entwickeln. „Das Erste, was die Regierung tun muss, ist ein Sofortprogramm aufzustellen, um diese roten Linien festzulegen und verbindlich zu machen“, argumentiert er.

In den USA scheint die Regierung eher daran zu arbeiten, alle KI-Vorschriften auf Bundesstaatsebene zu verbieten, als eigene Regeln zu erlassen. Dennoch gibt es Anzeichen für ein wachsendes Bewusstsein im Kongress. Bei einer Anhörung im Juni bezeichnete ein Gesetzgeber künstliche Superintelligenz als „eine der größten existenziellen Bedrohungen, denen wir derzeit gegenüberstehen“. Ein anderer verwies auf die jüngsten Forschungsergebnisse zum Thema KI-Intrigen.

Der lang erwartete KI-Aktionsplan des Weißen Hauses wurde Ende Juli veröffentlicht. Er dient als Blaupause für die beschleunigte Entwicklung von KI und Stärkung der US-Position auf dem Gebiet. In den 28 Seiten finden sich jedoch nur eine Handvoll Maßnahmen hinsichtlich Minimierung von KI-Intrigen – darunter Pläne für staatliche Investitionen in die Forschung zur Interpretierbarkeit und Kontrolle von KI sowie für die Entwicklung strengerer Modellbewertungen. „Heute sind die inneren Abläufe modernster KI-Systeme kaum verstanden“, heißt es in dem Dokument. Das ist ein ungewöhnlich offenes Eingeständnis für einen Plan, der sich weitgehend auf die beschleunigte Entwicklung konzentriert.

In der Zwischenzeit wetteifern alle führenden KI-Rivalen um die Entwicklung von Systemen, die sich selbst verbessern können – KI, die bessere KI entwickelt. Der AlphaEvolve-Agent von DeepMind hat die Effizienz des KI-Trainings bereits erheblich verbessert. Und Metas Mark Zuckerberg sagt: „Wir sehen erste Anzeichen für eine Selbstverbesserung der Modelle, was bedeutet, dass die Entwicklung von Superintelligenz nun in Sicht ist. Wir wollen es einfach versuchen.“

KI-Unternehmen wollen nicht, dass ihre Produkte Daten fälschen oder Kunden erpressen. Deshalb haben sie einen gewissen Anreiz, sich mit diesem Problem zu befassen. Aber die Branche könnte gerade nur genug tun, um es oberflächlich zu lösen. Die Machenschaften von KI werden indessen subtiler und schwerer erkennbar. 

„Unternehmen sollten auf jeden Fall mit der Überwachung beginnen“, sagt Hobbhahn. Er warnt jedoch, dass sinkende Raten bei der Aufdeckung von Fehlverhalten entweder bedeuten könnten, dass die Korrekturen funktioniert haben oder dass die Modelle einfach besser im Verbergen geworden sind.

Im November argumentierten Hobbhahn und ein Kollege bei Apollo, dass der Unterschied zwischen heutigen Modellen und wirklich gefährlichen Betrügern die Fähigkeit ist, langfristige Pläne zu verfolgen. Aber selbst diese Barriere beginnt zu bröckeln. Apollo fand im Mai heraus, dass Claude 4 Opus Notizen für sein zukünftiges Ich hinterlassen würde, damit es nach einem Speicherreset seine Pläne fortsetzen und so die eingebauten Beschränkungen umgehen könnte.

Hobbhahn vergleicht die Intrigen der KI mit einem anderen Problem, bei dem die größten Schäden noch bevorstehen: „Wenn Sie 1980 jemanden gefragt hätten, wie besorgt er über den Klimawandel sein sollte, hätte er wahrscheinlich geantwortet: ‘Im Moment wahrscheinlich nicht so sehr. Aber schauen Sie sich die Kurven an ... sie steigen sehr stetig an.’“

bbg
Mehr zum Thema
Unsere Partner
Anzeige
Stellenmarkt
Die besten Jobs auf Handelsblatt.com
Anzeige
Homeday
Homeday ermittelt Ihren Immobilienwert
Anzeige
IT BOLTWISE
Fachmagazin in Deutschland mit Fokus auf Künstliche Intelligenz und Robotik
Anzeige
Remind.me
Jedes Jahr mehrere hundert Euro Stromkosten sparen – so geht’s
Anzeige
Presseportal
Lesen Sie die News führender Unternehmen!
Anzeige
Bellevue Ferienhaus
Exklusive Urlaubsdomizile zu Top-Preisen
Anzeige
Übersicht
Ratgeber, Rechner, Empfehlungen, Angebotsvergleiche
Anzeige
Finanzvergleich
Die besten Produkte im Überblick
Anzeige
Gutscheine
Mit unseren Gutscheincodes bares Geld sparen
Anzeige
Weiterbildung
Jetzt informieren! Alles rund um das Thema Bildung auf einen Blick