Informatiker und Elektrotechniker hatten lange Zeit ein Problem: Mit den Methoden, die sie zur Mustererkennung genutzt haben, konnten sie zwar gut mit der unterschiedlichen Aussprache umgehen, die unterschiedliche Sprechgeschwindigkeit bereitete jedoch häufig noch Probleme.
In den letzten Jahren gab es aber Entwicklungen, die genau dieses Problem lösen sollen. Im Bereich des Maschinellen Lernens, also bei Systemen, die selbstständig Muster erkennen und daraus Schlüsse ziehen, gab es enorme Fortschritte. Insbesondere die Technologie künstlicher neuronaler Netze, die versucht die Funktionsweise des menschlichen Gehirns nachzuahmen, ist deutlich effizienter geworden. Deshalb stellt sie nun den Stand der Technik dar, wenn es darum geht, Sprache zu analysieren.
Mehr Daten für mehr Verständnis
Außerdem gibt es inzwischen deutlich mehr Daten, mit denen die künstlichen neuronalen Netze lernen können, wie natürliche Sprache klingt. „Dank dieser Fortschritte bewegen sich die Systeme inzwischen ansatzweise in Bereichen, die an die Erkennungsleistung von Menschen heranreichen“, erläutert Kolossa. „Dadurch ist erstmals dazu gekommen, dass es wirklich Spaß macht, Spracherkennung zu nutzen.“
Nützlich und absurd: Die Amazon Skills
Amazons Alexa lässt sich erweitern – mit Zusatzprogrammen, den sogenannten Skills - im Prinzip Apps, mit denen Alexa interagieren kann. Erhältlich sind die Erweiterungen über die Alexa App, für die Installation sind nur wenige Schritte nötig. Wir haben aus den wichtigsten Kategorien eine Auswahl zusammengestellt.
Nachrichten-Skills gibt es bei Amazon unter anderem von der WirtschaftsWoche, BBC, Bild, Spiegel Online, der Welt, Heise, dem Kicker oder der NZZ. Der Nutzer kann sich so sein persönliches Nachrichtenprogramm zusammenstellen, das über die Befehle „Alexa, was ist meine tägliche Zusammenfassung?“ oder „Alexa, was sind die Nachrichten?“ gestartet wird.
Auch das Satiremagazin Postillion sowie Nachrichtenangebote, die eher regional von Interesse sein dürften, finden sich: Die Freiwillige Feuerwehr Pinneberg („Alexa, frage Feuerwehr Pinneberg nach dem letzten Einsatz“) gibt es etwa als Skill.
Anfang 2017 die umfassendste Kategorie im Bereich der Amazon Skills. Es gibt etwa ein Rollenspiel („Goblinraub“ aus dem „Das-schwarze-Auge“-Universum), schlicht gestartet mit „Alexa, starte Rollenspiel“. Auch Quizze und Rate-Skills gibt es zuhauf. Darunter ein Berlin-Quiz, ein Tier-Quiz und „Stadt, Land, Fluss“. „Katzen-Infos“ soll „interessante, verblüffende und lustige Katzen-Fakten“ ausspucken. „Kina Kunu“ übersetzt, analog zu dem Lied „Drei Chinesen mit dem Kontrabass“ des Nutzers auf „kunusisch“. Der „Namen Finder“ bewirbt sich selbst mit „Lass dir zufällig ausgewählte Namen für dein Kind oder Haustier vorschlagen.“ Alles klar: „Alexa, frage Namen-Finder wie ich mein Baby nennen soll.“
Aber auch tendenziell nützliche Skills gibt es hier: Etwa Mathematik-Rätsel („Alexa, öffne Mathe Knobelaufgaben“) oder einen Saisonkalender für Obst und Gemüse (Obst- bzw. Gemüse-Nerd: „Sind Äpfel gerade frisch?“, „Sind Erbsen gerade frisch?“).
Neben diversen Nachschlage- und Fakten-Skills zu (deutschen) Städten und verschiedenen Staaten gibt es auch in dieser Kategorie ein breites Spektrum an Programmen, manche im Alltag mehr, manche weniger nützlich. So gibt es neben dem Fleckentferner ("Alexa, frag Fleckentferner wie ich Kaffeeflecken entferne", "Wie entferne ich Weinflecken?") auch Fakten über Wasserball (Wasserball Geek). Wer sich mit weniger psychologischen Themen auseinandersetzen möchte, findet aber auch in dieser Kategorie Katzen- (und Pferde-)-Fakten-Skills und diverse Programme für ausgewählte Tageszitate.
Wo stehen Goethe-Zitate direkt zwischen dem „Pups-Generator“ und Chuck-Norris-Fan-Witzen? Richtig: Unter „Neuheiten & Humor“ im Alexa-Skill-Bereich bei Amazon. (Ja, die Skills machen alle das, was Sie denken). Hier kann man sich aber auch von Alexa schmeicheln lassen: Mit „Kompliment mich“ erzählt Alexa dem Nutzer etwas Nettes, etwa „Du bist so klug!“. Außerdem kann die „Magische Miesmuschel“ um Rat gefragt werden – und ebenso „Kein Bier vor Vier“; der dazugehörige Befehl: "Alexa, frag ‚Kein Bier vor Vier‘ ob ich jetzt schon Bier trinken kann". Witze erzählt Alexa dem Nutzer etwa mit dem Flachwitz-Skill: "Alexa öffne Flachwitz" oder der „Witze-Box“. Die neuesten Verschwörungstheorien liefert „Der mächtige Aluhut“: „Alexa, frage ‚Mächtiger Aluhut‘ nach der Wahrheit".
Hier findet sich etwa ein Skill für muslimische Gebetszeiten in München („Alexa, frage ‚Mein Muslim‘ nach dem Nachmittagsgebet“), einer für Diabetiker („Alexa, öffne Broteinheit“) oder auch eine Entscheidungshilfe, welches Haustier man sich anschaffen sollte („Alexa, starte Haustierentscheidung“). Überhaupt, Entscheidungshilfen sind populär: Alexa hilft mit dem passenden Skill auch bei der Suche nach dem richtigen Longdrink oder Gin („Empfiehl mir einen Gin“/ „Alexa, starte ‚Welchen Longdrink soll ich trinken?‘) wie auch bei der Wahl der nächsten Mahlzeit („Alexa, öffne ‚Was soll ich kochen?‘). Aber auch Rezept-Skills sind hier zu finden: Etwa von Chefkoch („Alexa, sage Chefkoch, ich hätte gerne Pasta-Rezepte“) oder „Kitchen Stories“ ("Alexa, frage ‚Kitchen Stories‘ nach einem vegetarischen Rezept") Außerdem dabei: Ein Schwangerschaftsguide der Zeitschrift „Eltern“ und der „Gala“-Skill mit Wissenstests über Stars und Sternchen.
Hier kann Alexa zeigen, was sie kann – wenn sie die richtigen Skills hat und der Nutzer im Besitz der passenden Geräte ist: So kann Alexa etwa die Uhr „LaMetric Time“ die Wettervorhersage anzeigen lassen, „Lightify“ ist ein Skill von Osram, der mit passender Hardware auf folgende Befehle wie „Alexa, schalte Schlafzimmer ein“, „Alexa, dimme die Küche“ reagiert – und mit „Philipps Hue“ lassen sich direkt ganze Lichtstimmungen programmieren. Auch RWE-Tochter innogy hat einen Skill zur Smart-Home-Steuerung entwickelt: „Alexa, stelle das Raumklima Wohnzimmer auf 23°C“, „Alexa, schalte die Deckenleuchte Wohnzimmer ein“, „Alexa, stelle die Rollläden im Wohnzimmer auf 40%“.
Hier finden sich ziemlich unterschiedliche Skills. Metal-Fans können sich über den „Wacken-Countdown“ freuen. Alexa hält einen mit diesem Skill immer auf dem Laufenden, wie lange es noch dauert, bis endlich wieder im Matsch gefeiert werden kann. Aber auch Motivations-Skills finden sich hier („Alexa, frage ‚Mutmacher‘ nach etwas Motivierendem.“) sowie Mondphasen-Programme; außerdem Zufalls-Zahlen-Generatoren. Interessant für Nutzer mit Home-Office: Der Zeiterfassungs-Skill, ein Timer, der bei der Erfassung der Arbeitszeiten hilft.
Alexa scheint bei Studenten beliebt zu sein: Neben diversen ÖPNV-Angeboten (s.u.) finden sich unter „Lokales“ Skills für die Speisepläne der Mensa in Aachen („Alexa, frage ‚Mensa Aachen‘, was es in der Mensa Academica am Montag zu essen gibt“), der TH Brandenburg oder in Dresden. „OmNomNom“ verspricht, gleich die Speisepläne verschiedener Mensen deutscher Hochschulen zu kennen.
Wohl eine Kategorie, deren Nutzen direkt einleuchtet: Wer in Eile ist, kann sich über diverse Fahrplanauskunftsskills über die beste Bus- oder Bahnverbindung informieren, ohne Zeit zu verlieren, indem er dafür erst den PC hochfahren oder umständlich am Smartphone herumnesteln muss. Es gibt diverse Skills für den ÖPNV einzelner Städte, außerdem MyTaxi („Alexa, ruf mir ein Taxi mit mytaxi“). „Aufzug Info Berlin“ informiert auf Anfrage darüber, an welchen Stationen des öffentlichen Nahverkehrs in Berlin die Aufzüge nicht funktionieren. Auch die Deutsche Bahn als überregionaler Anbieter ist dabei. Zulässige Fragen an den Bahn-Skill wären etwa: „Alexa, frage ‚Deutsche Bahn‘ nach einer Verbindung von Hamburg nach Köln morgen um 12 Uhr.“
In dieser Kategorie gibt es vor allem drei Arten von Skills: Die Mensa-Speisepläne (s. o.), Entscheidungshilfen (s.o.) sowie Rezeptsammlungen à la Chefkoch (s.o.).
Hier finden sich größtenteils Zahlengeneratoren („Alexa, frag ‚Zufällige Zahl‘ nach einer Zufallszahl“), aber auch Postleitzahlenfinder („Alexa frag, Postleitzahl Finder‘ nach 99425) sowie ein Skill für den jeweils aktuellen Gold- und Silberkurs: Alexa, frage ‚metall kurs‘ was ist der aktuelle Preis für fünf Kilo Silber“.
Hier finden sich neben diversen Skills mit Infos zu Bundesliga-Vereinen und deren nächsten Spielen („NächstesBorussenSpiel“) auch „Sky Sports“ und die altehrwürdige „Sportschau“. „binspeak Fußball Bundesliga“ und „toralarm“ informieren über die Bundesliga.
Alexa kann mit den passenden Skills die Programmzeitschrift ersetzen („Alexa, frage ‚Deutsches Fernsehprogramm‘ was gerade auf ZDF läuft“), aber auch beim Gang ins Kino unterstützen („Alexa, frage ‚Kino Bonn‘ nach einer Empfehlung für morgen Abend“). Auch eher speziellere Fragen kann man Alexa stellen – zum Beispiel als Star-Trek-Fan: „Neue Sternzeit“ hilft beim Logbuch schreiben: „Alexa, frage ‚Neue Sternzeit‘: Welche Sternzeit ist jetzt?"
Musik: Alexa funktioniert mit Skills einiger Radiosender (Antenne Bayern: „Alexa, spiele Alpensound von Antenne Bayern“, „Alexa, starte den Radioplayer und spiele RTL Radio“) und listet auf Anfrage die Musikcharts auf.
Die Kategorie Gesundheit und Fitness kann mit hilfreichen Skills aufwarten: Etwa dem „Verbandskasten“, den der Nutzer fragen kann, was etwa bei einem Herzinfarkt zu tun ist. Auch einen Skill für die Notdienste der Apotheken gibt es: „Apotheken Info“.
Im Bereich Wirtschaft und Finanzen findet man etwa Skills zu Wechselkursen („Alexa, frag ‚Wechsel Stube‘: Was ist der Wechselkurs von Pfund auf Yen?“, „Alexa, frage ‚BitTrade‘ nach dem Bitcoinkurs"). Die Kategorie Vernetztes Auto bietet einige Programme für Kennzeichensuche wie „Alexa frage Kennzeichen Deutschland nach Kennzeichen M“, aber auch den Skill „BMW Connected“, mit dem man über Alexa zum Beispiel das Auto verschließen kann (wenn es denn ein BMW ist): "Alexa, verriegele die Türen vom BMW".
Neben den Mikros können bei der Erkennung von „gestörter“ Sprache auch maschinelles Lernen und eine gute Datengrundlage hilfreich sein. Denn je besser ein System weiß, wie sich Wörter mit vielen Hintergrundgeräuschen anhören, desto besser kann es diese dann auch herausfiltern.
Was Spracherkennung bald leisten kann
Nach den Erfolgen der letzten Jahre kann sich Spracherkennungsexpertin Kolossa gut vorstellen, dass wir mit Maschinen in ein paar Jahren natürliche Gespräche führen – zumindest, wenn der Kontext klein genug ist. „Wenn es zum Beispiel darum geht, den Radiosender einzustellen, oder das Navi zu bedienen, dürften wir relativ schnell an dem Punkt sein, an dem wir nicht mehr aufgrund eins stockenden Gesprächsverlaufs spüren, dass wir uns mit einer Maschine unterhalten.“
Skeptischer ist sie jedoch, wenn Computer in einem Gespräch menschliches Verhalten einschätzen sollen, sie zum Beispiel erkennen müssen, ob ihr Gegenüber das Gesagte wirklich verstanden hat. „In solchen Situationen braucht es ein gutes Konzept dafür, wie menschliches Denken funktioniert. Während uns das aufgrund unserer eigenen Erfahrungen relativ leicht fällt, haben Maschinen damit deutlich mehr Probleme.“
Dafür dass sich die Spracherkennung in den nächsten Jahren verbessert, dürfte auch die gewachsene Zahl an Produkten mit digitalen Assistenten beitragen. Denn je mehr Menschen mit Siri und Co. interagieren, desto mehr lernen sie darüber wie wir sprechen und können uns in Zukunft besser verstehen – und das Licht anschalten.