WiWo App Jetzt gratis testen
Anzeigen

Cortana, Siri, Google Now Sprachassistenten verändern unser Leben

Mit Windows 10 erobern sprachgesteuerte Assistenten auch den PC. Das verändert das Zusammenspiel von Mensch und Maschine radikal. Computer lernen, den Menschen zu verstehen.

Von MS-DOS bis Windows 10
Gründung Quelle: dpa/picture-alliance
MS Dos Quelle: dpa Picture-Alliance
MS DOS Quelle: dpa Picture-Alliance
Windows 2 Quelle: Presse
Microsoft NT Quelle: Presse
Bill Gates stellt die Version 95 des Betriebssystems vor Quelle: dpa
Windows 98 (1998)1998 kommt Windows 98 als Weiterentwicklung von Windows 95 auf den Markt. Mit der 98er-Version unterstützt das Microsoft-Bertiebssystem unter anderem erstmals von Haus aus den damals neuen USB-Standard und auch die Verwendung von mehreren Monitoren an einem Rechner. Quelle: REUTERS

Die Zeiten sind vorbei, da Menschen, die gestikulierend und vor sich hin sprechend auf der Straße standen, als – vorsichtig formuliert – mental angeschlagen galten. Heute ahnt der mobilkommunikative Zeitgenosse: Der einsame Plauderer nebenan ist kerngesund, hat den Hörer der Freisprecheinrichtung im Ohr und telefoniert mit entfernten Gesprächspartnern. Oder er wendet sich gerade direkt an sein Handy: „Hey Siri“, „Hey Cortana“, „Okay Google“, die klassischen Signalsätze, um die Spracherkennung in den Handys von Apple, Microsoft oder mit Googles Android zu aktivieren.

Wie klug sind die Sprachassistenten im Vergleich?

Künftig kommen solche Zwiegespräche zwischen Mensch und Maschine nicht mehr nur auf der Straße vor – sondern auch am Schreibtisch. Denn so wie heute Millionen von Smartphone-Besitzern Apples sprachgesteuerten, digitalen Assistenten Siri in ihren iPhones nutzen oder den Cyber-Sekretär Google Now in Android-Telefonen, werden wir künftig auch unseren Schreibtisch-PCs Aufträge diktieren – und sie werden uns antworten.

Verantwortlich für den Sprung dieser Technik in die klassische PC-Welt ist Microsofts neues Windows 10. Das wird der Softwaregigant ab Ende Juli nicht bloß weltweit Abermillionen Kunden als kostenlosen Download anbieten. Es beherbergt zugleich mit der App Cortana erstmals einen kommunikativen Softwareassistenten als Kernfunktion eines PC-Betriebssystems: Ohne dass der Nutzer noch einen Buchstaben tippen müsste, lauscht der Rechner dann seinen Befehlen.

Die psychische Grenze sinkt

Auf eine vergleichbare Funktion warten Apple-Anwender bei ihren Mac-Computern bis heute. Und das, obwohl die Kalifornier ihre Sprachsoftware Siri schon 2011 mit dem iPhone 4s vorgestellt und damit die quasi natürliche Kommunikation mit der Maschine eingeführt haben. Auch Microsoft hat Cortana bereits vergangenes Jahr in einer Vorabversion auf seine Lumia-Telefone gebracht, der BlackBerry Assistant lauscht mittlerweile ebenso aufs Wort, und Amazons Echo oder demnächst wohl Facebooks Moneypenny wollen da ebenfalls nicht abseits stehen.

Wie Windows wurde, was es ist

Zudem mit der Ausbreitung der Technik zugleich die Akzeptanz wächst: Nutzte laut Verbrauchs- und Medienanalyse noch vor zwei Jahren nur knapp jeder zehnte Deutsche über 14 Jahren die Sprachsteuerung seines Handys, war es 2014 schon rund jeder sechste. Und mit dem Sprung der Technik auf den Tischrechner wird sich dieser Trend noch beschleunigen.

Plaudern mit dem PC, das ist viel mehr als bloß ein nettes Feature. „Wenn Millionen von Nutzern plötzlich in natürlicher Sprache mit ihren Rechnern kommunizieren, wird das den Umgang mit der Technik grundlegend verändern“, sagt Reinhard Karger, Präsident der Deutschen Gesellschaft für Information und Wissen (DGI). Bisher habe der Zwang zur händischen Eingabe stets als technische und psychische Grenze zwischen Mensch und Elektronenhirn gestanden. „Wenn wir aber künftig mit dem Rechner wie mit einem Freund oder Bekannten reden, definiert das auch die Beziehung neu.“

Zudem einige Programme immer besser werden, vor allem Google Now antwortet erstaunlich ausführlich und korrekt. Künftig nun wissen auch die grauen Kästen auf dem Schreibtisch die Antwort auf die Frage nach dem nächsten Spiel des Lieblingsvereins oder berichten auf Wunsch, wie es an der Börse läuft.

Enorme Rechenpower sorgt für tatsächliches Verständnis

Das erscheint fast spielerisch und ist doch alles andere als trivial. Vor allem geht es weit über die Spracherkennungsprogramme hinaus, mit denen Mediziner oder Juristen seit Langem Arztbriefe oder Protokolle diktieren. Da reicht es, Klänge sinnvoll in Wortfolgen zu übersetzen. Die digitalen Gesprächshilfen von heute hingegen können mithilfe hochkomplexer semantischer Verfahren und enormer Rechenpower Inhalt und Intention von Fragen und Kommandos tatsächlich verstehen.

Windows 10 wird bereits verteilt
Microsoft hat früher als erwartet mit der Verteilung von Windows 10 begonnen. Eigentlich war die Auslieferung für den 29. Juli 2015 geplant. Die Teilnehmer des Windows-Insider Programms Quelle: dpa
Mit Windows 10 stellt Microsoft auf das automatische Einspielen von Funktions-Updates um. Die Updates werden zukünftig ausgeliefert, sobald sie fertig entwickelt sind. Quelle: Screenshot
Crowdsourcing, Windows 10, Microsoft Insider Programm Quelle: Screenshot
Vernetzung, cross-funktionales Arbeiten, Windows 10, Applikationen, gleichzeitig Quelle: Screenshot
Windows 10, Startmenü, Favoriten Quelle: Screenshot
Aktionszentrum, Windows 10, Applikationen, mobile Endgeräte, Smartphone, Tablet, Benachrichtigungen, interaktiv, Umwandlung Text Sprache Quelle: Screenshot
Windows 10, Browser, Microsoft, leistungsstark, Kommentarfunktion, teilen, Lesemodus, Filter, Offlinemodus Quelle: Screenshot

Erst der Mix ganz unterschiedlicher Technologien in jüngster Zeit führt dazu, „dass wir jetzt die Demokratisierung der Sprachsteuerung von Maschinen erleben“, erläutert Michael Bruss. Der 38-jährige Linguist und Phonetiker arbeitet beim Saarbrücker Spracherkennungsspezialisten Semvox. Dessen Software kann ähnlich wie die Systeme hinter Siri, Cortana und Co. aus den Sprachbefehlen destillieren, wonach der Nutzer sucht, respektive, welchen Auftrag er der Maschine erteilen will.

Das erfordert eine Rechenleistung, die weder die schnellsten Smartphones noch PCs bisher liefern können. Kaum weniger anspruchsvoll ist – nach der Inhaltsanalyse – die Suche nach den gewünschten Informationen.

Sprechende Handys

Alle Assistenten lösen das Dilemma durch ein Zusammenspiel aus Software auf dem Gerät des Nutzers und IT-Systemen im Netz: PC oder Handy zeichnen das Kommando auf, schicken es in die Rechenzentren von Apple, Google oder Microsoft. Deren Spracherkennungs- und -analysesysteme werten die Anfrage aus, recherchieren die Antwort und senden die zurück zum Nutzer. Dessen Gerät gibt das Ergebnis schließlich per Textanzeige oder Sprache wieder. „Ohne das schnelle mobile Internet einerseits und den Boom des Cloud Computing andererseits“, sagt Semvox-Experte Bruss, „wäre der Erfolg der digitalen Assistenten gar nicht denkbar.“

Zumal sich Sprachsteuerung schon bald nicht mehr auf Smartphones, Tablets, Laptop-Computer oder Schreibtisch-PCs beschränken wird: „In dem Maße, in dem wir uns daran gewöhnen, Telefonen und Rechnern Aufträge zu erteilen, werden wir das auch mit anderen technischen Geräten tun“, sagt DGI-Präsident Karger.

Auch die Heizung gehorcht aufs Wort

Die Technik steht schon bereit. Google etwa hat seine Nest-Thermostate bereits mit Sprachbedienung via Google Now aufgerüstet. Das Unternehmen Enertex aus dem fränkischen Forchheim vertreibt mit dem Home-Controller Synohr eine per Sprache steuerbare Schaltstelle fürs smarte Heim. Apple hat das Softwaremodul HomeKit in seine Software integriert. Ob schaltbare Steckdose oder Dimmer für die Lampe – wer das Gerät mit dem iPhone gekoppelt hat, kann Siri auch Haushaltsjobs übertragen.

Die Entwicklungsstufen Künstlicher Intelligenz

Auch hinterm Autosteuer ersetzen Sprachbefehle den Druck auf Schalter oder Touch-Bildschirme. Alle Premiumhersteller bauen bereits auf Wunsch Technik zur Sprachsteuerung in die aktuellen Fahrzeuge ein. Der Softwarehersteller Nuance – mit seiner Technik Teil der Intelligenz von Siri und Google Now – wird im Herbst auf der Internationalen Automobilausstellung in Frankfurt (IAA) einen eigenen persönlichen Assistenten vorstellen.

Sprachsteuerung ersetzt traditionelle Suche im Netz

Die Kommunikation zwischen Fahrer und Auto wird immer ungezwungener werden: „Durch den Trend zum autonomen Fahren werden die Fahrzeuge immer intelligenter“, sagt Ralf Lamberti, für das Thema Nutzerführung bei Mercedes-Benz verantwortlich. In den Limousinen mit dem Stern verarbeitet die Linguatronic-Plattform schon heute Sprachbefehle für die Navigation sowie zur Wiedergabe von Musik oder von Nachrichten. Und das sei erst der Anfang, sagt Lamberti: „In fünf bis zehn Jahren wird sich ein Großteil der Dienste und Funktionen im Fahrzeug per natürlicher Sprache oder Gesten steuern lassen.“

So sieht das neue Windows 10 aus
Microsoft Quelle: dpa Picture-Alliance
Windows 10 Quelle: dpa Picture-Alliance
Windows 10 Quelle: dpa Picture-Alliance
Windows 10 Quelle: REUTERS
Windows 10 Quelle: dpa Picture-Alliance
Windows 10 Quelle: dpa Picture-Alliance
Windows 10 Quelle: Presse

Wobei zumindest für die Informations- und Unterhaltungsangebote noch völlig offen ist, wer am Ende tatsächlich den Dialog mit dem Nutzer führt – und zwar nicht bloß im Auto. Denn um die Frage, wer den Zugang ins Netz kontrolliert, wer die Sprachbefehle auswertet und – vor allem – welche Antworten er liefert, entfaltet sich in den kommenden Jahren der nächste Kampf der digitalen Riesen.

Wenn der Dialog der Nutzer mit sprachgesteuerten Assistenten immer häufiger die traditionelle Suche im Netz ersetzt, erschüttert das die Vormachtstellung der etablierten Torwächter in den digitalen Raum.

Jeder Sprachauftrag an Apples Siri oder Microsofts Cortana liefert Antworten, ohne dabei Googles bezahlte Suchanzeigen auf den Handyschirm zu bringen. Jeder mündlich abgesetzte Facebook-Status findet seinen Weg ins Netz, ohne dass der Absender dabei noch eine gesponserte Werbebotschaft im sozialen Netzwerk zu Gesicht bekäme.

Eine Zukunft ohne Apps?

Wer bemüht noch traditionelle Suchmaschinen, wenn es wie beim Recherche-Automaten Echo, den der Versandriese Amazon Ende 2014 vorgestellt hat, reicht, Aufträge einfach laut in den Raum zu sprechen? Das Gerät im Format einer Getränkedose hört mit, speichert und erinnert an Termine, spielt auf Zuruf Musik ab und erstellt, oh Wunder, Einkaufslisten.

Die Entwicklung unterminiert nicht nur die Dominanz der Suchmaschinen als primären (und profitablen) Weg ins Netz. Sie stellt genauso infrage, ob im Zeitalter digitaler Assistenten überhaupt noch Apps erforderlich sind – wenn der Cyber-Sekretär eh daran vorbei im Internet recherchiert. Wer etwa Google Now eine Bahnverbindung suchen lässt, ordert darüber künftig womöglich auch das Ticket – ohne dass die Bahn die Chance hätte, auch noch das Hotelbett am Ziel zu verkaufen.

In Arbeit
Bitte entschuldigen Sie. Dieses Element gibt es nicht mehr.

Das sind mehr als Gedankenspiele. Was sich daran zeigt, mit welcher Vehemenz die verschiedenen Spieler auf konkurrierende Plattformen drängen. Google etwa bietet Google Now auch als iPhone-App an. Microsofts oberster Windows-Chef Joe Belfiore hat erst Ende Mai verkündet: „Wir geben Windows-Nutzern die Möglichkeit, die Intelligenz von Cortana auch auf Android-Telefonen und iPhones zu nutzen.“

Das war nicht bloß in eine Freisprechanlage gemurmelt. Das war eine Kampfansage: Die digitalen Assistenten werden nicht nur die Beziehung zwischen Mensch und Maschine neu definieren – auch der Kampf um die Vorherrschaft im Netz wird neu entschieden.

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%