Die Probleme von Alexa, Siri und Google Assistant Warum Spracherkennung so schwierig ist

Die digitale Verarbeitung von Sprache hat sich in den letzten Jahren enorm verbessert – und kämpft immer noch mit Schwierigkeiten. Fünf Gründe, warum das so ist und wie die Wissenschaft versucht, das Problem zu lösen.

  • Teilen per:
  • Teilen per:

„Ok Google, mach blaues Licht im Wohnzimmer“, rufe ich in den Raum. Doch es passiert nichts. Stattdessen entschuldigt sich der Lautsprecher mit einem „Das habe ich leider nicht verstanden“.  Also ein neuer Versuch: „Ok, Google, bitte stelle das Licht im Wohnzimmer auf blau.“ Wieder macht sich Ernüchterung breit. Darum ein dritter Versuch mitsamt dem letzten verbliebenen Optimismus: „Ok Google, Licht, Wohnzimmer, blau.“ Nun tut Google Home wie ihm geheißen. Endlich leuchtet die Lampe neben dem Sofa blau.

Trotz rasanter Fortschritte in den letzten Jahren hat die Spracherkennung noch immer mit Problemen zu kämpfen. Dass sorgt nicht nur dafür, dass der Autor dieses Textes staccato sprechen muss, um zum gewünschten Ergebnis zu kommen. Während das bisher nur den Spaß an der Spielerei verdirbt, könnte das in Zukunft ernsthaftere Schwierigkeiten bereiten.

Schließlich finden sich die Sprachassistenten längst nicht mehr nur in Smartphones und Lautsprechern, auch in immer mehr Autos sind sie inzwischen verbaut. Und wenn der Fahrer bei 160 km/h auf der Autobahn abgelenkt ist, weil er Alexa zum dritten Mal erklärt, dass sie wegen des strömenden Regens die Scheibenwischer starten soll, wird das zum unnötigen Risiko. Deshalb versuchen die großen IT-Konzerne und die Forschung,  Spracherkennung in der Zukunft so genau wie möglich zu gestalten – und sehen sich dabei mit einigen Problemen konfrontiert.

Wir sprechen nie gleich

Dorothea Kolossa vom Institut für Kommunikationsakustik der Ruhr-Universität-Bochum sieht bei der Spracherkennung zwei sehr grundsätzliche Probleme: „Zum einen wird dasselbe Wort nie zweimal gleich ausgesprochen und zum anderen ändert sich dabei auch die Geschwindigkeit. Die Muster, die der Computer interpretieren muss, sehen deshalb nie genau gleich aus.“

Besonders groß sind diese Unterschiede zwischen verschiedenen Sprechern, da der Sprechapparat bei zwei Menschen nie genau gleich aussieht. Das lässt sich ein bisschen mit der Handschrift vergleichen, die auch bei jedem Menschen einzigartig ist. Und genauso wie selbst die eigene Unterschrift nie genau gleich aussieht, sprechen wir auch Wörter nie exakt genauso aus wie zuvor. Computer müssen trotz dieser Unterschiede erkennen, dass es sich um ein und dasselbe Wort handelt.

Nicht jeder spricht perfektes Hochdeutsch

Insbesondere wenn jemand mit starkem Dialekt oder Akzent spricht, stellt das die Systeme immer noch vor Herausforderungen. Bei der englischen Sprache ist dieses Problem jedoch inzwischen verhältnismäßig gering, da die Systeme über genügend Daten verfügen, um Wörter auch unter erschwerten Bedingungen zu erkennen. Bei anderen Sprachen ist die Datengrundlage dünner und die Erkennung dementsprechend schwieriger. Amazon passte seine Veröffentlichungspolitik auf dieses Problem hin an. Noch bevor der Smartspeaker Alexa in Deutschland regulär zu kaufen war, schickte das Unternehmen die ersten Geräte an Menschen, die aufgrund ihres Wohnortes höchstwahrscheinlich mit Dialekt sprechen. So sollte getestet werden, wie gut das System mit den Varietäten der deutschen Sprache umgehen kann.

Manche Sprachen haben sehr feine Unterschiede

In den meisten Sprachen werden Wörter durch das Schwingen der Stimmbänder produziert. Je nachdem, in welcher Position sich die Zunge befindet und in wie weit der Mund geöffnet ist, entstehen dann unterschiedliche  Laute die zusammengesetzt eine Bedeutung haben. Das ist auch im Deutschen so. In anderen Sprachen, zum Beispiel Mandarin, kommt noch eine weitere Unterscheidungsebene hinzu: Je nachdem mit welcher Frequenz die Stimmenbänder schwingen, wie hoch die Töne also sind, ergibt sich trotz gleicher Abfolge von Lauten eine unterschiedliche Bedeutung. Diese feinen Unterschiede zu erkennen, ist für einen Computer sehr schwierig.

Nützlich und absurd: Die Amazon Skills

Computer müssen Kontext verstehen lernen

Auch Teekesselchen, also Wörter die gleich klingen, aber verschiedene Bedeutungen haben, stellen für Computer eine Schwierigkeit dar. Um zu erkennen, welche mögliche Bedeutung die richtige ist, müssen die Programme den Kontext verstehen.  Je nachdem über was gerade gesprochen wird, ist dann klar, ob mit der „Bank“ das Geldinstitut oder ein Sitzmöbel gemeint ist.

Keine Laborbedingungen

Nicht nur die Sprache selbst macht es Maschinen schwer. Auch die Umstände, unter denen sie aufgezeichnet wird, können Probleme bereiten. Spracherkennung wird in den wenigsten Fällen unter Laborbedingungen gefordert. In der realen Welt sprechen Menschen im Hintergrund, läuft der Fernseher  oder ist Straßenlärm zu hören. Das System muss dann den relevanten Befehl, von den Störgeräuschen trennen. „Systeme wie Amazons Alexa haben mehrere Mikrofone und können darüber herausfinden, aus welcher Richtung ihr Aktivierungswort kommt“, erklärt Kolossa. „In einem nächsten Schritt werden die Mikros dann so zusammengeschaltet, dass die relevante Sprachquelle verstärkt und die Störungen herausgefiltert werden.“

Mit bessere KI gegen das Sprach-Wirrwarr

Informatiker und Elektrotechniker hatten lange Zeit ein Problem: Mit den Methoden, die sie zur Mustererkennung genutzt haben, konnten sie zwar gut mit der unterschiedlichen Aussprache umgehen, die unterschiedliche Sprechgeschwindigkeit bereitete jedoch häufig noch Probleme.

In den letzten Jahren gab es aber Entwicklungen, die genau dieses Problem lösen sollen. Im Bereich des Maschinellen Lernens, also bei Systemen, die selbstständig Muster erkennen und daraus Schlüsse ziehen,  gab es enorme Fortschritte. Insbesondere die Technologie künstlicher neuronaler Netze, die versucht die Funktionsweise des menschlichen Gehirns nachzuahmen, ist deutlich effizienter geworden. Deshalb stellt sie nun den Stand der Technik dar, wenn es darum geht, Sprache zu analysieren.

Mehr Daten für mehr Verständnis

Außerdem gibt es inzwischen deutlich mehr Daten, mit denen die künstlichen neuronalen Netze lernen können, wie natürliche Sprache klingt. „Dank dieser Fortschritte bewegen sich die Systeme inzwischen ansatzweise in Bereichen, die an die Erkennungsleistung von Menschen heranreichen“, erläutert Kolossa. „Dadurch ist erstmals dazu gekommen, dass es wirklich Spaß macht, Spracherkennung zu nutzen.“

Nützlich und absurd: Die Amazon Skills

Neben den Mikros können bei der Erkennung von „gestörter“ Sprache auch maschinelles Lernen und eine gute Datengrundlage hilfreich sein. Denn je besser ein System weiß, wie sich Wörter mit vielen Hintergrundgeräuschen anhören, desto besser kann es diese dann auch herausfiltern.

Was Spracherkennung bald leisten kann

Nach den Erfolgen der letzten Jahre kann sich Spracherkennungsexpertin Kolossa gut vorstellen, dass wir mit Maschinen in ein paar Jahren natürliche Gespräche führen – zumindest, wenn der Kontext klein genug ist. „Wenn es zum Beispiel darum geht, den Radiosender einzustellen, oder das Navi zu bedienen, dürften wir relativ schnell an dem Punkt sein, an dem wir nicht mehr aufgrund eins stockenden Gesprächsverlaufs spüren, dass wir uns mit einer Maschine unterhalten.“

Skeptischer ist sie jedoch, wenn Computer in einem Gespräch menschliches Verhalten einschätzen sollen, sie zum Beispiel erkennen müssen, ob ihr Gegenüber das Gesagte wirklich verstanden hat. „In solchen Situationen braucht es ein gutes Konzept dafür, wie menschliches Denken funktioniert. Während uns das aufgrund unserer eigenen Erfahrungen relativ leicht fällt, haben Maschinen damit deutlich mehr Probleme.“

Dafür dass sich die Spracherkennung in den nächsten Jahren verbessert, dürfte auch die gewachsene Zahl an Produkten mit digitalen Assistenten beitragen. Denn je mehr Menschen mit Siri und Co. interagieren, desto mehr lernen sie darüber wie wir sprechen und können uns in Zukunft besser verstehen – und das Licht anschalten.

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%