Die Probleme von Alexa, Siri und Google Assistant Warum Spracherkennung so schwierig ist

Die digitale Verarbeitung von Sprache hat sich in den letzten Jahren enorm verbessert – und kämpft immer noch mit Schwierigkeiten. Fünf Gründe, warum das so ist und wie die Wissenschaft versucht, das Problem zu lösen.

„Ok Google, mach blaues Licht im Wohnzimmer“, rufe ich in den Raum. Doch es passiert nichts. Stattdessen entschuldigt sich der Lautsprecher mit einem „Das habe ich leider nicht verstanden“.  Also ein neuer Versuch: „Ok, Google, bitte stelle das Licht im Wohnzimmer auf blau.“ Wieder macht sich Ernüchterung breit. Darum ein dritter Versuch mitsamt dem letzten verbliebenen Optimismus: „Ok Google, Licht, Wohnzimmer, blau.“ Nun tut Google Home wie ihm geheißen. Endlich leuchtet die Lampe neben dem Sofa blau.

Trotz rasanter Fortschritte in den letzten Jahren hat die Spracherkennung noch immer mit Problemen zu kämpfen. Dass sorgt nicht nur dafür, dass der Autor dieses Textes staccato sprechen muss, um zum gewünschten Ergebnis zu kommen. Während das bisher nur den Spaß an der Spielerei verdirbt, könnte das in Zukunft ernsthaftere Schwierigkeiten bereiten.

Schließlich finden sich die Sprachassistenten längst nicht mehr nur in Smartphones und Lautsprechern, auch in immer mehr Autos sind sie inzwischen verbaut. Und wenn der Fahrer bei 160 km/h auf der Autobahn abgelenkt ist, weil er Alexa zum dritten Mal erklärt, dass sie wegen des strömenden Regens die Scheibenwischer starten soll, wird das zum unnötigen Risiko. Deshalb versuchen die großen IT-Konzerne und die Forschung,  Spracherkennung in der Zukunft so genau wie möglich zu gestalten – und sehen sich dabei mit einigen Problemen konfrontiert.

Wir sprechen nie gleich

Dorothea Kolossa vom Institut für Kommunikationsakustik der Ruhr-Universität-Bochum sieht bei der Spracherkennung zwei sehr grundsätzliche Probleme: „Zum einen wird dasselbe Wort nie zweimal gleich ausgesprochen und zum anderen ändert sich dabei auch die Geschwindigkeit. Die Muster, die der Computer interpretieren muss, sehen deshalb nie genau gleich aus.“

Besonders groß sind diese Unterschiede zwischen verschiedenen Sprechern, da der Sprechapparat bei zwei Menschen nie genau gleich aussieht. Das lässt sich ein bisschen mit der Handschrift vergleichen, die auch bei jedem Menschen einzigartig ist. Und genauso wie selbst die eigene Unterschrift nie genau gleich aussieht, sprechen wir auch Wörter nie exakt genauso aus wie zuvor. Computer müssen trotz dieser Unterschiede erkennen, dass es sich um ein und dasselbe Wort handelt.

Inhalt
Artikel auf einer Seite lesen
© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%