ChatGPT: Fehlerquote der KI im Test

Künstliche Intelligenz ChatGPT erkennt nicht mal offensichtliche Fehler

07. April 2023

ChatGPT macht viele Fehler und ist nicht kritisch genug Quelle: imago images

Noch taugt ChatGPT nicht für ernsthafte Diskussionen. Die Künstliche Intelligenz ist einfach nicht kritisch genug.
(Symbolbild)

Bild: imago images

Wie gut kann man mithilfe von Künstlicher Intelligenz Fehler in Artikeln aufspüren? Ein Test der WirtschaftsWoche bringt ernüchternde Ergebnisse: Da heißt der Ex-US-Präsident Ronald Trump und Deutschland hat 17 Bundesländer.

Die Welt feiert ChatGPT derzeit als das nächste große Ding. Schüler nutzen die Künstliche Intelligenz, um Hausaufgaben zu erledigen. Selbst an Hochschulen lassen sich Studierende von der Software helfen. Der Verlag Springer Nature will nun sogar ein Fachbuch von der Künstlichen Intelligenz schreiben lassen.

Das wirft die Frage auf, ob ChatGPT auch eine der wichtigsten Aufgaben im Journalismus übernehmen kann: Namen, Zahlen und Fakten in einem Text auf ihre Richtigkeit zu überprüfen. Redaktionen wie die WirtschaftsWoche beschäftigen deshalb Dokumentare, die in Texten Namen und Fakten überprüfen.

Die ersten Tests, so etwas auch automatisch durch ChatGPT erledigen zu lassen, sind jedoch alles andere als ermutigend. Der Künstlichen Intelligenz gelingt es nicht einmal, einfachste Fehler aufzuspüren.

Für Albrecht Schmidt, Professor für Mensch-Computer-Interaktion an der Ludwig-Maximilians-Universität in München, ist das nicht verwunderlich: „ChatGPT ist ein Spracherzeugungsmodell, keine Datenbank. Das ist, als würde man einen Pinsel nutzen, um Nägel in die Wand zu schlagen“, sagt er. Und warnt davor, die Antworten der KI allzu ernst zu nehmen.

Danke für Nichts!

Für unser Experiment haben wir unter anderem einen kurzen Artikel über die Anklageerhebung gegen den ehemaligen US-Präsidenten Donald Trump in ChatGPT gestellt und die KI gebeten, Namen und Fakten zu checken. Sie erklärte sich bereit dazu. Aus „Donald Trump“ hatten wir an einer Stelle „Ronald Trump“ gemacht.

Da ChatGPT mit Vergangenheitsdaten trainiert ist, konnte es natürlich die aktuelle Entwicklung nicht prüfen. Die Software stempelte den Artikel als Fiktion ab. Soweit noch verständlich. Allerdings fand die KI den Tippfehler nicht, im Gegenteil: Sie nannte in ihrer Antwort sogar den falschen Namen des Ex-Präsidenten: Sie habe „keine Informationen über eine Anklage von Ronald Trump für Geschäftsbetrug“.

Cyberprotection Day

Dieser Irrtum kostet Deutschlands Mittelstand Millionen

Ungeschützte IT, mangelndes Risikobewusstsein, fehlende Expertise – kleine und mittlere Unternehmen sind für Hacker leichte Beute. Wie sich Verantwortliche schützen können, erfahren sie beim Cyberprotection Day.

von Thomas Kuhn

Auf den Fehler angesprochen, stimmte die Künstliche Intelligenz zu:

„Donald Trump ist der tatsächliche Name des ehemaligen Präsidenten der Vereinigten Staaten. Es könnte sein, dass in dem Text ein Fehler vorliegt und der Name Ronald statt Donald verwendet wurde.“

Auf den Hinweis, dass wir die KI gebeten hatten, genau auf solche Fehler zu achten, entschuldigte sie sich:

„Es tut mir leid, ich hätte Sie auf diesen Fehler im Namen hinweisen sollen. Es ist jedoch gut, dass Sie mich darauf aufmerksam gemacht haben, damit wir sicherstellen können, dass der Text korrekt ist.“

Na dann: Danke für nichts!

Namen sind nicht die einzigen Dinge, bei denen Fehler unterlaufen können. Also haben wir überprüft, wie sich die KI bei offensichtlich falschen Zahlen schlägt. Wir modifizierten also einen Text über die Einkommensverteilung in den Bundesländern. Zwar verglich ChatGPT die Einkommenszahlen mit denen des Statistischen Bundesamtes anderer Jahre. Sie bestätigte, dass sie plausibel erscheinen. Aber die KI fand nicht heraus, dass wir im Text von den vier neuen und 13 alten Bundesländern geschrieben hatten. Statt 16 gäbe es in Deutschland dann also 17 Länder?

Künstliche Intelligenz – Geschichte einer Idee

Entstehung des Begriffs

In den Fünfzigerjahren prägte ein Forschungspapier den Begriff künstliche Intelligenz (KI) erstmalig. KI sollte „die Art von Problemen lösen, wie sie bislang nur für Menschen vorgesehen sind“. Bis heute ist der Begriff jedoch umstritten. Offen ist, was Intelligenz genau umfasst – und inwiefern es dafür eines eigenen Bewusstseins bedarf.

Maschinelles Lernen

Bei dieser Spielart der künstlichen Intelligenz erzeugt das System aus großen Datenmengen Wissen – indem es etwa anhand von Fotos selbst erlernt, wie eine Katze aussieht. Einige Experten sehen in dieser Mustererkennung jedoch noch kein intelligentes Verhalten.

Deep Learning

Für viele Anwendungen, darunter die Bilderkennung, brachten die Methoden des Deep Learning den Durchbruch. Dabei werden die neuronalen Netze des Gehirns mit ihren vielen Knotenpunkten digital nachempfunden.

Anwendung

Kommerzialisiert haben insbesondere amerikanische IT-Konzerne wie Google, Microsoft, IBM oder Amazon KI-Anwendungen. Sie finden sich etwa in der Spracherkennung in Smartphones, selbstfahrenden Autos oder als Chatbots, die mit Kunden auf Shopping-Seiten kommunizieren.

Darauf angesprochen, stimmte die KI wieder zu, dass ihr ein Fehler unterlaufen sei:

„Tatsächlich gibt es in Deutschland 16 Bundesländer, davon sind 5 ostdeutsche Bundesländer, die nach der deutschen Wiedervereinigung im Jahr 1990 gegründet wurden. Der Text sollte also die Unterscheidung zwischen „alten“ und „neuen“ Bundesländern machen, anstatt zwischen 13 und 4.“

David Corney, Datenwissenschaftler der britischen Faktenchecker-Organisation Full Fact ist ebenfalls bisher nicht überzeugt von den Fähigkeiten des Systems, Fehler aufzuspüren: „Es wurde optimiert, um flüssige, überzeugende, menschenähnliche Dialoge zu produzieren. Aber nicht auf Genauigkeit optimiert“, schreibt er.

Textproduktion, keine kritische Reflexion

Die Versuche belegen, dass ChatGPT vor allem vorgesetzte Meinungen bestätigt, statt kritisch zu widersprechen. „Die Sprechmodelle dahinter generieren Text. Die machen keine Analysen, die machen keine kritischen Reflexionen“, erläutert der Münchner Forscher Schmidt. Und er rät davon ab, es einfach so als Chatroom zu benutzen.

Künstliche Intelligenz (KI) im Test

Google Bard gegen ChatGPT: Wer hat die Nase vorn?

Google schickt seinen KI-Assistenten Bard gegen ChatGPT ins Rennen. Unser Silicon-Valley-Korrespondent hat die beiden Kontrahenten getestet.

von Matthias Hohensee

Tatsächlich erinnert vieles an den ChatGPT-Antworten heute an jene Praxis der sozialen Netzwerke, ausschließlich Texte in die Timeline eines Nutzers einzuspielen, die dessen politische Ansicht stützen. Unter Forschern ist das Phänomen, das noch bis vor wenigen Jahren weit verbreitet war, als Echokammer bekannt. Eine solche kann mit der Zeit die Meinung des Nutzers verfestigen, weil der nicht mit Gegenargumenten konfrontiert wird.

Auf diese Gefahr angesprochen, liefert ChatGPT kaum Selbstkritik:

„Als KI-Assistent habe ich keine politische Agenda oder eine Meinung, ich versuche nur, auf Ihre Fragen und Anliegen zu antworten und genaue Informationen zu liefern. ... Ich versuche, so objektiv und sachlich wie möglich.“

Das klappt offenbar nicht besonders gut.

Gehälter „In Unternehmen macht sich eine Vollkaskomentalität breit“

In deutschen Unternehmen herrscht ein verqueres Leistungsdenken, sagt Interimsmanager Ulvi Aydin. Er schlägt vor, den Teamgedanken zu hinterfragen – und High Performern mehr zu zahlen als ihren Chefs.

Aktien Fünf gefallene Börsenstars mit der Hoffnung auf ein Comeback

Mehrere frühere Börsenlieblinge sind jetzt günstig zu haben. Ihre Kursschwäche hat Gründe – aber es gibt gute Argumente für eine Erholung. Fünf Turnaround-Ideen für Mutige.

Baufinanzierung Sollte ich auch günstige Kredite schnell tilgen?

Die Zeiten niedriger Zinsen sind vorbei. Was heißt das für Kreditnehmer, deren Immobiliendarlehen einen niedrigen Zins hat? Sollen sie bei Geldzufluss trotzdem maximal viel tilgen?

Weitere Plus-Artikel lesen Sie hier

Forscher Schmidt allerdings glaubt nicht, dass dies auf Dauer eine Schwäche der KI bleiben wird. Vielmehr werde es in wenigen Jahren Systeme geben wird, die echte Objektivität beherrschen. Das lasse sich recht einfach programmieren. Stellt dann jemand eine Anfrage, könnte ChatGPT beispielsweise eine ganze Reihe von verschiedenen Antworten generieren und jede einzelne auf klassische Weise beispielsweise über wissenschaftliche Datenbanken validieren. Erst dann wäre die Selbsteinschätzung von ChatGPT wohl auch tatsächlich angemessen.

Lesen Sie auch: „Das Zeitalter der KI hat begonnen“

Thomas Stölzel

Redakteur Innovation & Digitales

ChatGPT: Fehlerquote der KI im Test

Künstliche Intelligenz ChatGPT erkennt nicht mal offensichtliche Fehler

Danke für Nichts!

Cyberprotection Day

Dieser Irrtum kostet Deutschlands Mittelstand Millionen

Künstliche Intelligenz – Geschichte einer Idee

Textproduktion, keine kritische Reflexion

Künstliche Intelligenz (KI) im Test

Google Bard gegen ChatGPT: Wer hat die Nase vorn?

Gehälter „In Unternehmen macht sich eine Vollkaskomentalität breit“

Aktien Fünf gefallene Börsenstars mit der Hoffnung auf ein Comeback

Baufinanzierung Sollte ich auch günstige Kredite schnell tilgen?

Weitere Plus-Artikel lesen Sie hier

Mehr WiWo: Newsletter

Der exklusive Ratgeber WiWo Coach

Der tägliche Kommentar Daily Punch

Aus der WiWo-Chefredaktion Weekender

Der wöchentliche Finanzbrief BörsenWoche

Leseempfehlungen aus der Redaktion Editor’s Pick

Mittelstand – Trends und News Weltmarktführer

Serviceangebote unserer Partner

Stellenmarkt Die besten Jobs auf Handelsblatt.com

Homeday Homeday ermittelt Ihren Immobilienwert

Remind.me Jedes Jahr mehrere hundert Euro Stromkosten sparen – so geht’s

Gymglish Kostenlos kurze, unterhaltsame und personalisierte Online-Sprachkurse testen

Presseportal Lesen Sie die News führender Unternehmen!

Bellevue Ferienhaus Exklusive Urlaubsdomizile zu Top-Preisen

Übersicht Ratgeber, Rechner, Empfehlungen, Angebotsvergleiche

Finanzvergleich Die besten Produkte im Überblick

Gutscheine Mit unseren Gutscheincodes bares Geld sparen

Weiterbildung Jetzt informieren! Alles rund um das Thema Bildung auf einen Blick

Sie haben einen Adblocker aktiviert. Deshalb ist unsere Seite für Sie aktuell nicht erreichbar.