Die Probleme von Alexa, Siri und Google Assistant Warum Spracherkennung so schwierig ist

Seite 2/3

Nicht jeder spricht perfektes Hochdeutsch

Insbesondere wenn jemand mit starkem Dialekt oder Akzent spricht, stellt das die Systeme immer noch vor Herausforderungen. Bei der englischen Sprache ist dieses Problem jedoch inzwischen verhältnismäßig gering, da die Systeme über genügend Daten verfügen, um Wörter auch unter erschwerten Bedingungen zu erkennen. Bei anderen Sprachen ist die Datengrundlage dünner und die Erkennung dementsprechend schwieriger. Amazon passte seine Veröffentlichungspolitik auf dieses Problem hin an. Noch bevor der Smartspeaker Alexa in Deutschland regulär zu kaufen war, schickte das Unternehmen die ersten Geräte an Menschen, die aufgrund ihres Wohnortes höchstwahrscheinlich mit Dialekt sprechen. So sollte getestet werden, wie gut das System mit den Varietäten der deutschen Sprache umgehen kann.

Manche Sprachen haben sehr feine Unterschiede

In den meisten Sprachen werden Wörter durch das Schwingen der Stimmbänder produziert. Je nachdem, in welcher Position sich die Zunge befindet und in wie weit der Mund geöffnet ist, entstehen dann unterschiedliche  Laute die zusammengesetzt eine Bedeutung haben. Das ist auch im Deutschen so. In anderen Sprachen, zum Beispiel Mandarin, kommt noch eine weitere Unterscheidungsebene hinzu: Je nachdem mit welcher Frequenz die Stimmenbänder schwingen, wie hoch die Töne also sind, ergibt sich trotz gleicher Abfolge von Lauten eine unterschiedliche Bedeutung. Diese feinen Unterschiede zu erkennen, ist für einen Computer sehr schwierig.

Nützlich und absurd: Die Amazon Skills

Computer müssen Kontext verstehen lernen

Auch Teekesselchen, also Wörter die gleich klingen, aber verschiedene Bedeutungen haben, stellen für Computer eine Schwierigkeit dar. Um zu erkennen, welche mögliche Bedeutung die richtige ist, müssen die Programme den Kontext verstehen.  Je nachdem über was gerade gesprochen wird, ist dann klar, ob mit der „Bank“ das Geldinstitut oder ein Sitzmöbel gemeint ist.

Keine Laborbedingungen

Nicht nur die Sprache selbst macht es Maschinen schwer. Auch die Umstände, unter denen sie aufgezeichnet wird, können Probleme bereiten. Spracherkennung wird in den wenigsten Fällen unter Laborbedingungen gefordert. In der realen Welt sprechen Menschen im Hintergrund, läuft der Fernseher  oder ist Straßenlärm zu hören. Das System muss dann den relevanten Befehl, von den Störgeräuschen trennen. „Systeme wie Amazons Alexa haben mehrere Mikrofone und können darüber herausfinden, aus welcher Richtung ihr Aktivierungswort kommt“, erklärt Kolossa. „In einem nächsten Schritt werden die Mikros dann so zusammengeschaltet, dass die relevante Sprachquelle verstärkt und die Störungen herausgefiltert werden.“

Inhalt
Artikel auf einer Seite lesen
© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%