Insbesondere wenn jemand mit starkem Dialekt oder Akzent spricht, stellt das die Systeme immer noch vor Herausforderungen. Bei der englischen Sprache ist dieses Problem jedoch inzwischen verhältnismäßig gering, da die Systeme über genügend Daten verfügen, um Wörter auch unter erschwerten Bedingungen zu erkennen. Bei anderen Sprachen ist die Datengrundlage dünner und die Erkennung dementsprechend schwieriger. Amazon passte seine Veröffentlichungspolitik auf dieses Problem hin an. Noch bevor der Smartspeaker Alexa in Deutschland regulär zu kaufen war, schickte das Unternehmen die ersten Geräte an Menschen, die aufgrund ihres Wohnortes höchstwahrscheinlich mit Dialekt sprechen. So sollte getestet werden, wie gut das System mit den Varietäten der deutschen Sprache umgehen kann.
Manche Sprachen haben sehr feine Unterschiede
In den meisten Sprachen werden Wörter durch das Schwingen der Stimmbänder produziert. Je nachdem, in welcher Position sich die Zunge befindet und in wie weit der Mund geöffnet ist, entstehen dann unterschiedliche Laute die zusammengesetzt eine Bedeutung haben. Das ist auch im Deutschen so. In anderen Sprachen, zum Beispiel Mandarin, kommt noch eine weitere Unterscheidungsebene hinzu: Je nachdem mit welcher Frequenz die Stimmenbänder schwingen, wie hoch die Töne also sind, ergibt sich trotz gleicher Abfolge von Lauten eine unterschiedliche Bedeutung. Diese feinen Unterschiede zu erkennen, ist für einen Computer sehr schwierig.
Nützlich und absurd: Die Amazon Skills
Amazons Alexa lässt sich erweitern – mit Zusatzprogrammen, den sogenannten Skills - im Prinzip Apps, mit denen Alexa interagieren kann. Erhältlich sind die Erweiterungen über die Alexa App, für die Installation sind nur wenige Schritte nötig. Wir haben aus den wichtigsten Kategorien eine Auswahl zusammengestellt.
Nachrichten-Skills gibt es bei Amazon unter anderem von der WirtschaftsWoche, BBC, Bild, Spiegel Online, der Welt, Heise, dem Kicker oder der NZZ. Der Nutzer kann sich so sein persönliches Nachrichtenprogramm zusammenstellen, das über die Befehle „Alexa, was ist meine tägliche Zusammenfassung?“ oder „Alexa, was sind die Nachrichten?“ gestartet wird.
Auch das Satiremagazin Postillion sowie Nachrichtenangebote, die eher regional von Interesse sein dürften, finden sich: Die Freiwillige Feuerwehr Pinneberg („Alexa, frage Feuerwehr Pinneberg nach dem letzten Einsatz“) gibt es etwa als Skill.
Anfang 2017 die umfassendste Kategorie im Bereich der Amazon Skills. Es gibt etwa ein Rollenspiel („Goblinraub“ aus dem „Das-schwarze-Auge“-Universum), schlicht gestartet mit „Alexa, starte Rollenspiel“. Auch Quizze und Rate-Skills gibt es zuhauf. Darunter ein Berlin-Quiz, ein Tier-Quiz und „Stadt, Land, Fluss“. „Katzen-Infos“ soll „interessante, verblüffende und lustige Katzen-Fakten“ ausspucken. „Kina Kunu“ übersetzt, analog zu dem Lied „Drei Chinesen mit dem Kontrabass“ des Nutzers auf „kunusisch“. Der „Namen Finder“ bewirbt sich selbst mit „Lass dir zufällig ausgewählte Namen für dein Kind oder Haustier vorschlagen.“ Alles klar: „Alexa, frage Namen-Finder wie ich mein Baby nennen soll.“
Aber auch tendenziell nützliche Skills gibt es hier: Etwa Mathematik-Rätsel („Alexa, öffne Mathe Knobelaufgaben“) oder einen Saisonkalender für Obst und Gemüse (Obst- bzw. Gemüse-Nerd: „Sind Äpfel gerade frisch?“, „Sind Erbsen gerade frisch?“).
Neben diversen Nachschlage- und Fakten-Skills zu (deutschen) Städten und verschiedenen Staaten gibt es auch in dieser Kategorie ein breites Spektrum an Programmen, manche im Alltag mehr, manche weniger nützlich. So gibt es neben dem Fleckentferner ("Alexa, frag Fleckentferner wie ich Kaffeeflecken entferne", "Wie entferne ich Weinflecken?") auch Fakten über Wasserball (Wasserball Geek). Wer sich mit weniger psychologischen Themen auseinandersetzen möchte, findet aber auch in dieser Kategorie Katzen- (und Pferde-)-Fakten-Skills und diverse Programme für ausgewählte Tageszitate.
Wo stehen Goethe-Zitate direkt zwischen dem „Pups-Generator“ und Chuck-Norris-Fan-Witzen? Richtig: Unter „Neuheiten & Humor“ im Alexa-Skill-Bereich bei Amazon. (Ja, die Skills machen alle das, was Sie denken). Hier kann man sich aber auch von Alexa schmeicheln lassen: Mit „Kompliment mich“ erzählt Alexa dem Nutzer etwas Nettes, etwa „Du bist so klug!“. Außerdem kann die „Magische Miesmuschel“ um Rat gefragt werden – und ebenso „Kein Bier vor Vier“; der dazugehörige Befehl: "Alexa, frag ‚Kein Bier vor Vier‘ ob ich jetzt schon Bier trinken kann". Witze erzählt Alexa dem Nutzer etwa mit dem Flachwitz-Skill: "Alexa öffne Flachwitz" oder der „Witze-Box“. Die neuesten Verschwörungstheorien liefert „Der mächtige Aluhut“: „Alexa, frage ‚Mächtiger Aluhut‘ nach der Wahrheit".
Hier findet sich etwa ein Skill für muslimische Gebetszeiten in München („Alexa, frage ‚Mein Muslim‘ nach dem Nachmittagsgebet“), einer für Diabetiker („Alexa, öffne Broteinheit“) oder auch eine Entscheidungshilfe, welches Haustier man sich anschaffen sollte („Alexa, starte Haustierentscheidung“). Überhaupt, Entscheidungshilfen sind populär: Alexa hilft mit dem passenden Skill auch bei der Suche nach dem richtigen Longdrink oder Gin („Empfiehl mir einen Gin“/ „Alexa, starte ‚Welchen Longdrink soll ich trinken?‘) wie auch bei der Wahl der nächsten Mahlzeit („Alexa, öffne ‚Was soll ich kochen?‘). Aber auch Rezept-Skills sind hier zu finden: Etwa von Chefkoch („Alexa, sage Chefkoch, ich hätte gerne Pasta-Rezepte“) oder „Kitchen Stories“ ("Alexa, frage ‚Kitchen Stories‘ nach einem vegetarischen Rezept") Außerdem dabei: Ein Schwangerschaftsguide der Zeitschrift „Eltern“ und der „Gala“-Skill mit Wissenstests über Stars und Sternchen.
Hier kann Alexa zeigen, was sie kann – wenn sie die richtigen Skills hat und der Nutzer im Besitz der passenden Geräte ist: So kann Alexa etwa die Uhr „LaMetric Time“ die Wettervorhersage anzeigen lassen, „Lightify“ ist ein Skill von Osram, der mit passender Hardware auf folgende Befehle wie „Alexa, schalte Schlafzimmer ein“, „Alexa, dimme die Küche“ reagiert – und mit „Philipps Hue“ lassen sich direkt ganze Lichtstimmungen programmieren. Auch RWE-Tochter innogy hat einen Skill zur Smart-Home-Steuerung entwickelt: „Alexa, stelle das Raumklima Wohnzimmer auf 23°C“, „Alexa, schalte die Deckenleuchte Wohnzimmer ein“, „Alexa, stelle die Rollläden im Wohnzimmer auf 40%“.
Hier finden sich ziemlich unterschiedliche Skills. Metal-Fans können sich über den „Wacken-Countdown“ freuen. Alexa hält einen mit diesem Skill immer auf dem Laufenden, wie lange es noch dauert, bis endlich wieder im Matsch gefeiert werden kann. Aber auch Motivations-Skills finden sich hier („Alexa, frage ‚Mutmacher‘ nach etwas Motivierendem.“) sowie Mondphasen-Programme; außerdem Zufalls-Zahlen-Generatoren. Interessant für Nutzer mit Home-Office: Der Zeiterfassungs-Skill, ein Timer, der bei der Erfassung der Arbeitszeiten hilft.
Alexa scheint bei Studenten beliebt zu sein: Neben diversen ÖPNV-Angeboten (s.u.) finden sich unter „Lokales“ Skills für die Speisepläne der Mensa in Aachen („Alexa, frage ‚Mensa Aachen‘, was es in der Mensa Academica am Montag zu essen gibt“), der TH Brandenburg oder in Dresden. „OmNomNom“ verspricht, gleich die Speisepläne verschiedener Mensen deutscher Hochschulen zu kennen.
Wohl eine Kategorie, deren Nutzen direkt einleuchtet: Wer in Eile ist, kann sich über diverse Fahrplanauskunftsskills über die beste Bus- oder Bahnverbindung informieren, ohne Zeit zu verlieren, indem er dafür erst den PC hochfahren oder umständlich am Smartphone herumnesteln muss. Es gibt diverse Skills für den ÖPNV einzelner Städte, außerdem MyTaxi („Alexa, ruf mir ein Taxi mit mytaxi“). „Aufzug Info Berlin“ informiert auf Anfrage darüber, an welchen Stationen des öffentlichen Nahverkehrs in Berlin die Aufzüge nicht funktionieren. Auch die Deutsche Bahn als überregionaler Anbieter ist dabei. Zulässige Fragen an den Bahn-Skill wären etwa: „Alexa, frage ‚Deutsche Bahn‘ nach einer Verbindung von Hamburg nach Köln morgen um 12 Uhr.“
In dieser Kategorie gibt es vor allem drei Arten von Skills: Die Mensa-Speisepläne (s. o.), Entscheidungshilfen (s.o.) sowie Rezeptsammlungen à la Chefkoch (s.o.).
Hier finden sich größtenteils Zahlengeneratoren („Alexa, frag ‚Zufällige Zahl‘ nach einer Zufallszahl“), aber auch Postleitzahlenfinder („Alexa frag, Postleitzahl Finder‘ nach 99425) sowie ein Skill für den jeweils aktuellen Gold- und Silberkurs: Alexa, frage ‚metall kurs‘ was ist der aktuelle Preis für fünf Kilo Silber“.
Hier finden sich neben diversen Skills mit Infos zu Bundesliga-Vereinen und deren nächsten Spielen („NächstesBorussenSpiel“) auch „Sky Sports“ und die altehrwürdige „Sportschau“. „binspeak Fußball Bundesliga“ und „toralarm“ informieren über die Bundesliga.
Alexa kann mit den passenden Skills die Programmzeitschrift ersetzen („Alexa, frage ‚Deutsches Fernsehprogramm‘ was gerade auf ZDF läuft“), aber auch beim Gang ins Kino unterstützen („Alexa, frage ‚Kino Bonn‘ nach einer Empfehlung für morgen Abend“). Auch eher speziellere Fragen kann man Alexa stellen – zum Beispiel als Star-Trek-Fan: „Neue Sternzeit“ hilft beim Logbuch schreiben: „Alexa, frage ‚Neue Sternzeit‘: Welche Sternzeit ist jetzt?"
Musik: Alexa funktioniert mit Skills einiger Radiosender (Antenne Bayern: „Alexa, spiele Alpensound von Antenne Bayern“, „Alexa, starte den Radioplayer und spiele RTL Radio“) und listet auf Anfrage die Musikcharts auf.
Die Kategorie Gesundheit und Fitness kann mit hilfreichen Skills aufwarten: Etwa dem „Verbandskasten“, den der Nutzer fragen kann, was etwa bei einem Herzinfarkt zu tun ist. Auch einen Skill für die Notdienste der Apotheken gibt es: „Apotheken Info“.
Im Bereich Wirtschaft und Finanzen findet man etwa Skills zu Wechselkursen („Alexa, frag ‚Wechsel Stube‘: Was ist der Wechselkurs von Pfund auf Yen?“, „Alexa, frage ‚BitTrade‘ nach dem Bitcoinkurs"). Die Kategorie Vernetztes Auto bietet einige Programme für Kennzeichensuche wie „Alexa frage Kennzeichen Deutschland nach Kennzeichen M“, aber auch den Skill „BMW Connected“, mit dem man über Alexa zum Beispiel das Auto verschließen kann (wenn es denn ein BMW ist): "Alexa, verriegele die Türen vom BMW".
Computer müssen Kontext verstehen lernen
Auch Teekesselchen, also Wörter die gleich klingen, aber verschiedene Bedeutungen haben, stellen für Computer eine Schwierigkeit dar. Um zu erkennen, welche mögliche Bedeutung die richtige ist, müssen die Programme den Kontext verstehen. Je nachdem über was gerade gesprochen wird, ist dann klar, ob mit der „Bank“ das Geldinstitut oder ein Sitzmöbel gemeint ist.
Keine Laborbedingungen
Nicht nur die Sprache selbst macht es Maschinen schwer. Auch die Umstände, unter denen sie aufgezeichnet wird, können Probleme bereiten. Spracherkennung wird in den wenigsten Fällen unter Laborbedingungen gefordert. In der realen Welt sprechen Menschen im Hintergrund, läuft der Fernseher oder ist Straßenlärm zu hören. Das System muss dann den relevanten Befehl, von den Störgeräuschen trennen. „Systeme wie Amazons Alexa haben mehrere Mikrofone und können darüber herausfinden, aus welcher Richtung ihr Aktivierungswort kommt“, erklärt Kolossa. „In einem nächsten Schritt werden die Mikros dann so zusammengeschaltet, dass die relevante Sprachquelle verstärkt und die Störungen herausgefiltert werden.“