Algorithmen in Unternehmen Fairness ist mathematisch unmöglich

Anders, als viele glauben, ist KI in der Regel eher dumm. Quelle: Getty Images

Der Erfolg von ChatGPT rückt ein Problem in den Fokus: KI ist mitunter ziemlich dumm – und verstärkt sogar Vorurteile. Um solche Effekte zu vermeiden und dem Imageschaden vorzubeugen, sollten Firmen drei Dinge beachten.

  • Teilen per:
  • Teilen per:

Unternehmen und Regierungen müssen sich einer unangenehmen Wahrheit stellen: Künstliche Intelligenz (KI) ist hoffnungslos und von Natur aus voreingenommen. Die Frage, wie sich diese Vorurteile verhindern lassen, ist in vielerlei Hinsicht die Falsche. KI ist ein Mittel zum Lernen und Verallgemeinern aus einer Reihe von Beispielen – und allzu oft werden die Beispiele direkt aus historischen Daten gezogen. Da Vorurteile gegenüber verschiedenen Gruppen in der Geschichte verankert sind, werden diese Vorurteile durch KI bis zu einem gewissen Grad auch aufrechterhalten.

Traditionelle und scheinbar sinnvolle Schutzmaßnahmen lösen das Problem nicht. Ein Modellentwickler könnte zum Beispiel Variablen weglassen, die das Geschlecht oder die Rasse einer Person angeben, in der Hoffnung, dass jegliche Voreingenommenheit, die sich aus der Kenntnis dieser Attribute ergibt, beseitigt wird. Aber moderne Algorithmen überbieten einander darin, Entsprechungen oder Synonyme für solche Informationen zu finden. So sehr man es auch versuchen mag, keine Datenbereinigung kann dieses Problem vollständig beheben.

Die Suche nach Fairness ist nicht nur schwierig – sie ist mathematisch unmöglich. Es vergeht kaum ein Tag, an dem nicht ein weiteres Beispiel bekannt wird von KI, die historische Vorurteile widerspiegelt oder in der sich eine Voreingenommenheit eingeschlichen hat. Selbst die medizinische Wissenschaft ist nicht immun: In einem kürzlich erschienenen Artikel in „The Lancet“ zeigten Forscher, dass KI-Algorithmen, die mit sorgfältig anonymisierten medizinischen Bildgebungsdaten gefüttert wurden, dennoch in der Lage waren, die Abstammung von 93 Prozent der Patienten zu identifizieren.

Zur Person

Führungskräfte müssen aufhören, so zu tun, als könnten sie die Voreingenommenheit von KI beseitigen – und stattdessen Abhilfe schaffen. In unserer Arbeit als Berater von Unternehmen und Regierungen bei Oliver Wyman haben wir einen dreistufigen Prozess identifiziert, der das Risiko eines Fehlverhaltens der KI verringern kann.

Schritt 1: Entscheiden Sie sich für die richtigen Daten und das richtige Design

Da vollständige Fairness unmöglich ist und viele Entscheidungsgremien noch nicht ausreichend vielfältig besetzt sind, ist es eine Herausforderung, den Schwellenwert für Fairness – und die Frage, wen man priorisiert – festzulegen. Es gibt keinen einzigen Standard oder Entwurf für die Gewährleistung von Fairness in der künstlichen Intelligenz, der für alle Unternehmen oder alle Situationen geeignet ist. Teams können prüfen, ob ihre Algorithmen gleich viele Personen aus jeder geschützten Gruppe, den gleichen Anteil aus jeder Gruppe oder den gleichen Schwellenwert für jeden auswählen. Alle diese Ansätze sind vertretbar und gebräuchlich – aber wenn nicht die gleiche Anzahl von Personengruppen in den Eingabedaten vertreten sind, schließen sich diese Auswahlmethoden gegenseitig aus. Die Art der „Fairness“, die gewählt wird, erfordert zwangsläufig einen Kompromiss, denn die Ergebnisse können nicht für alle gerecht sein.

Die Wahl des Ansatzes ist also von entscheidender Bedeutung. Neben der Auswahl der zu schützenden Gruppen muss ein Unternehmen auch bestimmen, was das wichtigste Problem ist, das es zu entschärfen gilt. Unterschiede in der Größe der Gruppen oder unterschiedliche Genauigkeitsraten zwischen den Gruppen? Erfordert die Fairness bei der Gruppengröße eine gleiche Anzahl aus jeder Gruppe oder einen proportionalen Prozentsatz? Sind die Daten bei unterschiedlichen Trefferquoten genau beschriftet, und wenn ja, welche Gruppe braucht am meisten Vorhersagegerechtigkeit?

Diese verschiedenen Möglichkeiten führen zu einem Entscheidungsbaum, bei dem viele Aspekte – wie beispielsweise die Gewährleistung des Schutzes bestimmter Gruppen – in die Unternehmensrichtlinien integriert werden müssen. Fehlentscheidungen sind nach wie vor üblich. Ein europäisches Softwareunternehmen, das kürzlich eine sprachverarbeitende KI-Software entwickelt hat, um Anrufe im Vertrieb an die richtige Stelle zu leiten, war damit sehr erfolgreich – außer in Situationen, in denen die Anrufer einen regionalen Akzent hatten. In diesem Fall hätte die Fairness überprüft werden können, indem man eine vielfältigere Testgruppe einrichtet und sicherstellt, dass das Risiko einer Fehleinstufung für verschiedene regionale Gruppen gleich ist.

Lesen Sie auch: Elon Musk möchte in Ihr Gehirn

Um sicherzustellen, dass die Entwicklungs- und Testdatensätze, mit denen die Algorithmen trainiert wurden, müssen die Unternehmen darauf achten, dass darin verschiedene sensible Attribute abgedeckt sind und die Daten nicht schon durch den Auswahlprozess verzerrt sind. Der Algorithmus und somit auch Tests, die ihn auf seine Fairness prüfen, müssen die gesamte Bevölkerung berücksichtigen, nicht nur diejenigen, die es über die ersten Hürden geschafft haben. Dazu braucht es unter denjenigen, die das Modell entwickeln, ein Bewusstsein dafür, dass ihre Daten immer unvollständig sind.

Schritt 2: Überprüfen Sie die Ergebnisse

Sobald ein Unternehmen einen soliden Daten- und Designansatz hat, muss es die Fairness der Ergebnisse und Auswirkungen prüfen, einschließlich Überschneidungen und Überlappungen zwischen verschiedenen Datentypen.

Selbst wenn Unternehmen gute Absichten haben, besteht die Gefahr, dass ein unüberlegter Ansatz mehr schadet als nützt. Algorithmen kommen nicht gut mit Schnittmengen klar, daher können scheinbar neutrale Algorithmen ungleiche Auswirkungen auf verschiedene Gruppen haben. Wenn wir sagen, dass ein Kredit beispielsweise für Männer und Frauen gleichermaßen zugänglich sein muss, egal ob sie eine Behinderung haben oder nicht, könnte die Lösung eines Algorithmus darin bestehen, dass er männliche Rollstuhlfahrer und nur nicht-behinderte Frauen auswählt. Schließlich bedeutet dies, dass eine gleiche Anzahl von Männern, Frauen, behinderten Menschen und nicht behinderte Menschen in den Daten enthalten sind, aber behinderte Frauen blieben dennoch außen vor.

Eine wirksame Strategie ist eine Zwei-Modell-Lösung, wie zum Beispiel der Ansatz der generativen gegenläufigen Netzwerke. Dies ist ein Kompromiss oder Nullsummenvergleich zwischen dem ursprünglichen Modell und einem zweiten Modell, das als Gegenspieler oder Prüfer fungiert, der die individuelle Fairness prüft. Nutzt man beide Modelle, gelangt man zu einer gerechteren Lösung.

Dieser Ansatz hat sich besonders bei der Preisgestaltung von Versicherungen bewährt, wo traditionell ein Risikopooling verwendet wurde. Heute haben sie fortschrittlichere Techniken zur Preisgestaltung, die dem einzelnen Kunden besser gerecht werden. Ein britisches Versicherungsunternehmen zum Beispiel konnte damit das Risiko unbeabsichtigter Verzerrungen so effektiv verringern, dass sie ihre Prämien für 4 von 5 Antragstellern senken konnte.

Wann die Fehlerquoten der KI am höchsten sind

Schritt 3: Überwachen Sie Probleme

Es ist wichtig, die Ergebnisse, die eine KI ausspuckt, regelmäßig zu überprüfen und nach verdächtigen Mustern zu suchen. Ein Modell, das alle Tests bestanden hat, kann dennoch unerwünschte Ergebnisse liefern, wenn es mit realen Eingaben umgesetzt wird, insbesondere mit Eingaben, die sich im Laufe der Zeit verändern. Die Menschen haben sich an verinnerlichte Vorurteile gewöhnt und bemerken sie daher selten.

Ein davon völlig abweichendes, wenngleich faireres Ergebnis kann überraschend aussehen, sodass die Menschen bei der Entwicklung von KI gegensteuern – und so ungewollt Vorurteile verstärken. So wären beispielsweise in einer gleichberechtigten Welt manche Vorstände ausschließlich weiblich besetzt sowie andere ausschließlich männlich sind.

Ebenso erwarten die meisten Menschen, dass seltene Ereignisse nicht eintreten. Seltene Ereignisse sind in der Tat unwahrscheinlich und ungewöhnlich, aber eben nicht unmöglich, wie ein Gehirn, das auf Vereinfachung und Muster zur Verallgemeinerung trainiert ist, typischerweise erwarten würde. Zu oft legen die Menschen Widerspruch ein, wenn etwas Seltenes passiert, aber nicht, wenn es nicht passiert. Unternehmen wehren sich nicht gegen die Abwesenheit seltener Ereignisse – und es ist unwahrscheinlich, dass sie es überhaupt bemerken. Intuitiv wollen die Menschen, dass seltene Ereignisse gleichmäßig verteilt sind und nicht zweimal hintereinander auftreten, sodass niedrige Frequenzen unbemerkt bleiben. Perfekte Zufälligkeit wiederum erregt Misstrauen.

Die Faktoren zur Vorhersage bestimmter Faktoren beruhen auf diesem Status quo und sind daher falsch. Männer werden eher einen Kredit zurückzahlen, wenn sie ein hohes Gehalt haben, einer bestimmten Berufsgruppe angehören und eine Handynummer zu ihren registrierten Daten hinzugefügt haben. Keiner dieser Faktoren sagt im gleichen Maße etwas über die Rückzahlquote von Frauen aus, aber wenn es mehr Männer als Frauen im Datensatz gibt, dann werden diese männlich geprägten Faktoren in einem Modell verwendet, das auch die Kreditwürdigkeit von Frauen bewertet.

In ähnlicher Weise sind die Fehlklassifizierungs- oder Fehlerquoten bei bestimmten Minderheiten immer dann am höchsten, wenn für sie weniger Daten verfügbar sind. Die Forschung zeigt, dass nur wenige klinische Studien ausreichend viele Angehörige von Minderheiten enthalten, um ihre Behandlungsergebnisse so genau vorherzusagen wie bei den weißen Männern, die sich in der Regel freiwillig zur Teilnahme melden. Diese gleiche Verzerrung findet sich bei Marketingalgorithmen, Preisgestaltungen, Kreditentscheidungen und Betrugserkennungssystemen. Viele Unternehmen haben festgestellt, dass es spürbare wirtschaftliche Auswirkungen haben kann, wenn sie eine Untergruppe unterschätzen.

Eine kontinuierliche Überwachung kann sich deshalb auszahlen. Ein weltweit tätiges Einzelhandelsunternehmen konnte zum Beispiel seine Nachfrageprognosen verbessern, nachdem es die Daten anpasste und die historische Verzerrung korrigierte, die sich auf die Vorhersagen auswirkte, selbst wenn es saisonale Schwankungen in der Nachfrage gab. Diese erhöhte Genauigkeit ermöglichte es dem Unternehmen, seine Lieferketten zu verbessern und die benötigte Zeit, um neue Produkte einzuführen, um etwa zehn Prozent zu verkürzen.

Kaffee und Kram Lässt sich Tchibos Niedergang aufhalten?

75 Jahre nach der Gründung bröckelt die Geschäftsbasis von Tchibo. Konzernpatron Michael Herz stemmt sich gegen den Niedergang des Kaffeehändlers.

BaFins Geldwäsche-Bekämpferin „Merken bei manchen Häusern, dass sie keinen Fokus auf die Geldwäscheabwehr legen“

Birgit Rodolphe leitet den Kampf der BaFin gegen Geldwäsche. Sie sagt, warum manche Banken das Problem nicht in den Griff bekommen – und wen sie jetzt ins Visier nimmt.

Wohneigentum Deshalb besitzen so wenige Deutsche ein Eigenheim

In Deutschland gibt es verhältnismäßig wenig Eigenheimbesitzer. Nur die Schweiz hat noch weniger. Was dahinter steckt und warum Deutschland Mieterland ist.

 Weitere Plus-Artikel lesen Sie hier

Wenn staatliche Regulierer und Kontrollorgane von Unternehmen einen Nachweis dafür verlangen, dass ihre künstliche Intelligenz fair ist, dann können die Unternehmen ihre Ergebnisse so steuern, dass sie diese Fairness auch belegen. Aber wenn Unternehmen wirklich wollen, dass ihre Algorithmen mit einer vielfältigen Bevölkerung gerecht arbeiten, müssen sie Ungerechtigkeit bewusst kompensieren – oder die Gesetze der Mathematik neu schreiben.

Unternehmen werden Voreingenommenheit nie vollständig ausmerzen können. Aber sie können ihre Praktiken verbessern, erweitern, überprüfen und korrigieren, um Ergebnisse zu erzielen, die fairer, vielfältiger und gerechter sind.

Lesen Sie auch: Christian Terwiesch bildet die Managementelite aus – und hat seine Prüfungsaufgaben nun Chat GPT vorgelegt. Ein Gespräch über die Dreistigkeit des Chatbots, die Herausforderungen für künftige Manager – und die Frage, ob bald alle am Strand liegen können, während der Computer die Arbeit macht.

Übersetzung: Varinia Bernau

Dieser Beitrag ist zuerst bei unserem Kooperationspartner MIT Sloan Management Review erschienen.

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%