Künstliche Intelligenz ChatGPT erkennt nicht mal offensichtliche Fehler

ChatGPT macht viele Fehler und ist nicht kritisch genug Quelle: imago images

Wie gut kann man mithilfe von Künstlicher Intelligenz Fehler in Artikeln aufspüren? Ein Test der WirtschaftsWoche bringt ernüchternde Ergebnisse: Da heißt der Ex-US-Präsident Ronald Trump und Deutschland hat 17 Bundesländer.

  • Teilen per:
  • Teilen per:

Die Welt feiert ChatGPT derzeit als das nächste große Ding. Schüler nutzen die Künstliche Intelligenz, um Hausaufgaben zu erledigen. Selbst an Hochschulen lassen sich Studierende von der Software helfen. Der Verlag Springer Nature will nun sogar ein Fachbuch von der Künstlichen Intelligenz schreiben lassen.

Das wirft die Frage auf, ob ChatGPT auch eine der wichtigsten Aufgaben im Journalismus übernehmen kann: Namen, Zahlen und Fakten in einem Text auf ihre Richtigkeit zu überprüfen. Redaktionen wie die WirtschaftsWoche beschäftigen deshalb Dokumentare, die in Texten Namen und Fakten überprüfen.

Die ersten Tests, so etwas auch automatisch durch ChatGPT erledigen zu lassen, sind jedoch alles andere als ermutigend. Der Künstlichen Intelligenz gelingt es nicht einmal, einfachste Fehler aufzuspüren.

Für Albrecht Schmidt, Professor für Mensch-Computer-Interaktion an der Ludwig-Maximilians-Universität in München, ist das nicht verwunderlich: „ChatGPT ist ein Spracherzeugungsmodell, keine Datenbank. Das ist, als würde man einen Pinsel nutzen, um Nägel in die Wand zu schlagen“, sagt er. Und warnt davor, die Antworten der KI allzu ernst zu nehmen.

Danke für Nichts!

Für unser Experiment haben wir unter anderem einen kurzen Artikel über die Anklageerhebung gegen den ehemaligen US-Präsidenten Donald Trump in ChatGPT gestellt und die KI gebeten, Namen und Fakten zu checken. Sie erklärte sich bereit dazu. Aus „Donald Trump“ hatten wir an einer Stelle „Ronald Trump“ gemacht.

Da ChatGPT mit Vergangenheitsdaten trainiert ist, konnte es natürlich die aktuelle Entwicklung nicht prüfen. Die Software stempelte den Artikel als Fiktion ab. Soweit noch verständlich. Allerdings fand die KI den Tippfehler nicht, im Gegenteil: Sie nannte in ihrer Antwort sogar den falschen Namen des Ex-Präsidenten: Sie habe „keine Informationen über eine Anklage von Ronald Trump für Geschäftsbetrug“.

Ungeschützte IT, mangelndes Risikobewusstsein, fehlende Expertise – kleine und mittlere Unternehmen sind für Hacker leichte Beute. Wie sich Verantwortliche schützen können, erfahren sie beim Cyberprotection Day.
von Thomas Kuhn

Auf den Fehler angesprochen, stimmte die Künstliche Intelligenz zu:

„Donald Trump ist der tatsächliche Name des ehemaligen Präsidenten der Vereinigten Staaten. Es könnte sein, dass in dem Text ein Fehler vorliegt und der Name Ronald statt Donald verwendet wurde.“

Auf den Hinweis, dass wir die KI gebeten hatten, genau auf solche Fehler zu achten, entschuldigte sie sich:

„Es tut mir leid, ich hätte Sie auf diesen Fehler im Namen hinweisen sollen. Es ist jedoch gut, dass Sie mich darauf aufmerksam gemacht haben, damit wir sicherstellen können, dass der Text korrekt ist.“

Na dann: Danke für nichts!

Namen sind nicht die einzigen Dinge, bei denen Fehler unterlaufen können. Also haben wir überprüft, wie sich die KI bei offensichtlich falschen Zahlen schlägt. Wir modifizierten also einen Text über die Einkommensverteilung in den Bundesländern. Zwar verglich ChatGPT die Einkommenszahlen mit denen des Statistischen Bundesamtes anderer Jahre. Sie bestätigte, dass sie plausibel erscheinen. Aber die KI fand nicht heraus, dass wir im Text von den vier neuen und 13 alten Bundesländern geschrieben hatten. Statt 16 gäbe es in Deutschland dann also 17 Länder?

Künstliche Intelligenz – Geschichte einer Idee

Darauf angesprochen, stimmte die KI wieder zu, dass ihr ein Fehler unterlaufen sei:

„Tatsächlich gibt es in Deutschland 16 Bundesländer, davon sind 5 ostdeutsche Bundesländer, die nach der deutschen Wiedervereinigung im Jahr 1990 gegründet wurden. Der Text sollte also die Unterscheidung zwischen „alten“ und „neuen“ Bundesländern machen, anstatt zwischen 13 und 4.“

David Corney, Datenwissenschaftler der britischen Faktenchecker-Organisation Full Fact ist ebenfalls bisher nicht überzeugt von den Fähigkeiten des Systems, Fehler aufzuspüren: „Es wurde optimiert, um flüssige, überzeugende, menschenähnliche Dialoge zu produzieren. Aber nicht auf Genauigkeit optimiert“, schreibt er.

Textproduktion, keine kritische Reflexion

Die Versuche belegen, dass ChatGPT vor allem vorgesetzte Meinungen bestätigt, statt kritisch zu widersprechen. „Die Sprechmodelle dahinter generieren Text. Die machen keine Analysen, die machen keine kritischen Reflexionen“, erläutert der Münchner Forscher Schmidt. Und er rät davon ab, es einfach so als Chatroom zu benutzen.

Google schickt seinen KI-Assistenten Bard gegen ChatGPT ins Rennen. Unser Silicon-Valley-Korrespondent hat die beiden Kontrahenten getestet.
von Matthias Hohensee

Tatsächlich erinnert vieles an den ChatGPT-Antworten heute an jene Praxis der sozialen Netzwerke,  ausschließlich Texte in die Timeline eines Nutzers einzuspielen, die dessen politische Ansicht stützen. Unter Forschern ist das Phänomen, das noch bis vor wenigen Jahren weit verbreitet war, als Echokammer bekannt. Eine solche kann mit der Zeit die Meinung des Nutzers verfestigen, weil der nicht mit Gegenargumenten konfrontiert wird.

Auf diese Gefahr angesprochen, liefert ChatGPT kaum Selbstkritik:

„Als KI-Assistent habe ich keine politische Agenda oder eine Meinung, ich versuche nur, auf Ihre Fragen und Anliegen zu antworten und genaue Informationen zu liefern. ... Ich versuche, so objektiv und sachlich wie möglich.“

Das klappt offenbar nicht besonders gut. 

Gehälter „In Unternehmen macht sich eine Vollkaskomentalität breit“

In deutschen Unternehmen herrscht ein verqueres Leistungsdenken, sagt Interimsmanager Ulvi Aydin. Er schlägt vor, den Teamgedanken zu hinterfragen – und High Performern mehr zu zahlen als ihren Chefs.

Aktien Fünf gefallene Börsenstars mit der Hoffnung auf ein Comeback

Mehrere frühere Börsenlieblinge sind jetzt günstig zu haben. Ihre Kursschwäche hat Gründe – aber es gibt gute Argumente für eine Erholung. Fünf Turnaround-Ideen für Mutige.

Baufinanzierung Sollte ich auch günstige Kredite schnell tilgen?

Die Zeiten niedriger Zinsen sind vorbei. Was heißt das für Kreditnehmer, deren Immobiliendarlehen einen niedrigen Zins hat? Sollen sie bei Geldzufluss trotzdem maximal viel tilgen?

 Weitere Plus-Artikel lesen Sie hier

Forscher Schmidt allerdings glaubt nicht, dass dies auf Dauer eine Schwäche der KI bleiben wird. Vielmehr werde es in wenigen Jahren Systeme geben wird, die echte Objektivität beherrschen. Das lasse sich recht einfach programmieren. Stellt dann jemand eine Anfrage, könnte ChatGPT beispielsweise eine ganze Reihe von verschiedenen Antworten generieren und jede einzelne auf klassische Weise beispielsweise über wissenschaftliche Datenbanken validieren. Erst dann wäre die Selbsteinschätzung von ChatGPT wohl auch tatsächlich angemessen.

Lesen Sie auch: „Das Zeitalter der KI hat begonnen“

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%