Künstliche Intelligenz: Alle großen Sprach-KIs scheitern an der geplanten EU-Regulierung
Alle großen Sprach-KIs scheitern an der geplanten EU-Regulierung.
Foto: Getty ImagesMit der rasant steigenden Bedeutung von generativer künstlicher Intelligenz (KI) wie ChatGPT oder dem Google-Chatbot Bard steigen auch die Bemühungen von Regierungen rund um den Globus, das Thema KI zu regulieren. Das Europaparlament etwa hat Mitte Juni einen ersten Entwurf für den AI Act der Europäischen Union verabschiedet. Die Abgeordneten wollen damit Missbrauchsrisiken minimieren und der unkontrollierten KI-Nutzung einen Riegel vorschieben.
Doch wie gut sind die führenden Sprachmodelle hinter ChatGPT oder Bard auf die EU-Regulierung vorbereitet? Dieser Frage sind Forscher der Universität Stanford in Kalifornien jetzt nachgegangen. Aus den 22 Anforderungen des EU-Regelwerks haben sie 12 quantifizierbare Erfordernisse ausgewählt, darunter Dinge wie etwa Datenquellen, Energieverbrauch oder Training. Die Sprachmodelle – im KI-Jargon auch Foundation Modelle genannt – konnten in jeder der zwölf Rubriken zwischen null und vier Punkten erzielen.
Das Ergebnis der Studie ist ernüchternd: Sechs der zehn betrachteten Modelle – darunter GPT-4 von OpenAI, PaLM 2 von Google sowie LLaMa von Facebook, aber auch das Modell Luminous des deutschen Start-ups Aleph Alpha – erzielten weniger als die Hälfte der maximal möglichen 48 Punkte. Und selbst der Spitzenreiter, das Open-Source-Modell Bloom von Big Scirence/Hugging Face, kommt mit 36 Punkten nur auf eine Quote von 75 Prozent.
Anbieter knausern mit Informationen zu Daten und Energie
Ein zentraler Kritikpunkt bei allen Sprachmodellen ist der Umgang mit urheberrechtlich geschützten Daten. „Viele Foundation-Modelle werden über Daten trainiert, die über das Internet kuratiert werden und von denen ein nennenswerter Teil höchstwahrscheinlich urheberrechtlich geschützt ist“, schreibt Mitautor Rishi Bommasani vom Center for Research on Foundation Models der Universität Stanford in den Erläuterungen zur Methodik der Studie. „Aber kaum ein Anbieter veröffentlicht Informationen über den Copyright-Status der eingesetzten Trainingsdaten.“
Auch beim Energieverbrauch halten sich fast alle Anbieter bedeckt – dabei sind der immense Stromverbrauch und die daraus resultierenden Kohlendioxidemissionen ein zentraler Kritikpunkt an der neuen Technologie. „Die Betreiber veröffentlichen nur inkonsistente Daten über ihre Energienutzung, ihre Strategien zur Messung von Emissionen und ob sie Maßnahmen zur Milderung dieser Emissionen ergriffen haben“, so Bommasni. Hier fordere der Entwurf des AI Acts explizit Informationen über solche Maßnahmen – und eine Begründung dafür, falls diese nicht ergriffen würden. Keiner der untersuchten Anbieter stelle bisher irgendwelche Informationen zur Verfügung. Dieses Problem ließe sich jedoch durch ein bisschen mehr Transparenz vermutlich lösen, sollte die Regulierung tatsächlich wie geplant kommen. Anders sieht es beim Urheberrecht aus: Die Modelle sind schlicht nicht darauf ausgelegt, bei ihrer Textgenerierung auf diesen Aspekt zu achten.
Lesen Sie auch: Wie Deutschland die digitale Revolution verschläft
Am unteren Ende des Rankings liegen mit Anthropic aus Kalifornien und Aleph Alpha aus Heidelberg (jeweils weniger als 25 Prozent der Maximalpunktzahl) ausgerechnet zwei Anbieter, die sich eigentlich das Thema sichere KI auf die Fahnen geschrieben haben. Das Start-up Anthropic wurde im Jahr 2021 von OpenAI-Aussteigern gegründet. Sie wollen sogenannte Frontier-Modelle kreieren – also Systeme, die zum einen sehr große KI-Modelle sind, die aber zum anderen Sicherheit an erste Stelle setzen.
Der deutsche Rivale Aleph Alpha bewirbt sein Sprachmodell Luminous als europäische und damit Datenschutz-konforme Alternative zu OpenAI & Co. Zudem hat das von Jonas Andrulis und Samuel Weinbach im Jahr 2019 gegründete Unternehmen erst Mitte April neue Funktionen für mehr Verlässlichkeit und Vertrauenswürdigkeit vorgestellt. Nutzer sollen so in die Lage versetzt werden, Zusammenhänge in Informationen und faktische Korrektheit des Sprachmodells Luminous auf Basis von gesicherten Fakten nachzuvollziehen. Zudem kann die KI darstellen, welche Textstellen in einer Quelle die vom System generierte Antwort verursacht haben oder im Widerspruch dazu stehen.
Aleph Alpha analysiert sein Abschneiden noch
Das aber klappt offenbar nicht wirklich gut. Gerade bei den drei EU-Anforderungen Datenquellen, Data Governance – also Richtlinien für die Erfassung, Speicherung und Verarbeitung von Daten – sowie urheberrechtlich geschützte Daten erhielt Aleph Alpha in der Stanford-Studie jeweils null Punkte. „Zurzeit analysiert unsere Forschungsabteilung das Ergebnis des Vergleichs. Hieran wird noch gearbeitet“, heißt es dazu seitens Aleph Alpha auf Anfrage der WirtschaftsWoche. „Eine offizielle Einschätzung hierzu halten wir deshalb zum jetzigen Zeitpunkt für verfrüht.“
Bleibt die Frage, welche Folgen diese Mängel für die KI-Modelle und ihre Betreiber haben. In den Augen von Karl Moritz Hermann sei das zum derzeitigen Zeitpunkt noch sehr schwierig zu beantworten: „Zum einen handelt es sich eben immer noch um einen Gesetzesentwurf, zum anderen ist noch völlig unklar, wie der AI Act später dann in der Praxis umgesetzt wird“, sagt der KI-Experte, der viele Jahre das Sprachforschungsteam bei Google DeepMind in London mitaufgebaut hat und heute Chef und Gründer von Reliant AI ist, einem Start-up für generative KI in der Pharmabranche.
Daher sei es auch schwer vorherzusagen, was die Studie für die Anbieter bedeute. Möglicherweise gehe eine schlechte Bewertung auch darauf zurück, dass die Studienautoren schlicht zu wenige Informationen über ein Modell zur Verfügung hatten. „Hat beispielsweise Aleph Alpha mit den Studienautoren kooperiert? Wenn nicht, sollte das ihre Punktzahl eigentlich leicht steigern können“, sagt Hermann. „Daher sollte man die Ergebnisse nicht überbewerten.“
Lesen Sie auch: „Die Idee hinter ChatGPT ist geradezu primitiv“