Die neue WiWo App Jetzt kostenlos testen
Download Download

Spracherkennung Wenn der Computer zum Sekretär wird

Diktieren war gestern: Heute soll Spracherkennungssoftware als digitaler Assistent Anweisungen verstehen und selbst Besprechungen und Interviews protokollieren. Funktioniert das?

  • Artikel teilen per:
  • Artikel teilen per:
Die Entwickler von Spracherkennungssoftware versprechen für die jüngste Generation ihrer Programme Erkennungsqualitäten, die den Handyassistenten wie Siri oder Google Now ebenbürtig sind. Quelle: Oliver Munday

Kurz aufs iPhone getippt und laut fragen, wie das Wetter morgen wird. Der Sprachbefehl reicht, damit das Handy in Sekunden die Vorhersage für den nächsten Tag recherchiert und ebenso rasch Frust verbreitet: "Es regnet, 15 Grad." Was Science-Fiction-Autoren lange nur beschrieben und Programmierer erträumten - Apples Cyber-Assistent Siri macht's am Handy möglich: Mensch und Maschine unterhalten sich in natürlicher Sprache.

Benutzer herkömmlicher PCs dagegen konnten von derlei Komfort bisher nur träumen. Ohne aufwendiges Erkennungstraining war an Plaudern mit dem Rechenknecht meist nicht zu denken. Und auch nach dem Training zeigten sich die Maschinen oft längst nicht so verständig wie das leichtgängig scheinende Siri-System.

Der große Test: Welches Smartphone ist am schlagfertigsten?
Zwar sieht es etwas befremdlich aus, wenn Menschen plötzlich anfangen, mit ihrem Telefon zu sprechen, ohne zu telefonieren: Doch warum sollte man auch noch selbst die SMS tippen oder das Wetter checken, wenn das Smartphone das auch per Sprachbefehl erledigt? Neben diesen Standardfragen haben die Sprachsteuerungen von Samsung, HTC und Apple mittlerweile eine ganze Menge gelernt. Welches Telefon die schlagfertigsten Antworten parat hatte, zeigt unser Test. Quelle: REUTERS
Einer Braut wird bei der Trauung ein Ehering übergestreift Quelle: dpa/dpaweb
Eine Frau hört Musik Quelle: dapd
Clowns beim Rosenmontagszug Quelle: dpa/dpaweb
Ein Maori-Tänzer Quelle: dpa
Blaue Schafsfiguren Quelle: dpa
Sprachbefehl: Du bist ein dämliches Telefon!Antwort des HTC One X: "Interessantes Gerücht" Antwort des Samsung Galaxy S3: "Nein!" Antwort des iPhone 4S: "Jeder hat ein Recht auf seine Meinung." Ergebnis: Der Widerspruch ist so vehement, dass sich das Samsung Galaxy hier einen Punkt verdient. Quelle: REUTERS

Doch nun hat die PC-Sparte nachgelegt. Die Hersteller versprechen für die jüngste Generation ihrer Spracherkennungsprogramme Erkennungsqualitäten, die dem Handyassistenten ebenbürtig sind. Inzwischen sollen sie sogar Besprechungen oder Interviews mit mehreren Sprechern protokollieren können. In Zukunft ermöglicht das eine ganz neue Qualität des Computereinsatzes im Alltagsleben: Der virtuelle Arzt berät online, der Computer wird zum Simultanübersetzer, das Tippen auf der Tastatur ohnehin überflüssig.

Wie gut sich Mensch und Maschine inzwischen tatsächlich verstehen, mussten zwei aktuelle Anwendungen im Redaktionstest nachweisen: zum einen die Software Dragon Naturally Speaking 12 des Herstellers Nuance. Sie wird auf dem PC installiert und wendet sich an Privatkunden. Die Alternative ist der internetbasierte Dienst Linguatec Voice Pro Enterprise vom bayrischen Softwarehaus Linguatec.

Naturally Speaking kostet 99 Euro; die Premium-Variante - unter anderem mit größerem Wortschatz - 149 Euro. Voice Pro wird als sogenannter Cloud-Service aus dem Netz nach Rechenzeit berechnet: Zehn Stunden Transkription schlagen mit 120 Euro zu Buche.

Beide Angebote bedienen einen rasch wachsenden Markt: Die Analysten des Marktforschungsinstituts Technavio erwarten, dass der Umsatz mit Sprachsoftware, im vergangenen Jahr europaweit bei rund 136 Millionen Euro gelegen, bis 2016 um 18 Prozent zunehmen wird.

Spracherkennungstechnik

"Das Problem der Spracherkennung", verspricht John Vasicek, Entwickler beim Dragon-Hersteller Nuance, vollmundig, "ist praktisch gelöst." Tatsächlich gibt das Programm in der jüngsten Auflage kaum mehr Anlass zu Kopfschütteln über Sprachsalat, den der Computer beim Zuhören erzeugt.

Allerdings funktioniert Software für Privatanwender noch immer nur dann richtig gut, wenn das System auf Aussprache und Wortwahl seines Benutzers geeicht ist. Das heißt auch: Soll das Programm Aufnahmen eines anderen Sprechers umwandeln, produziert es oft doch wieder Text-Schrott. Lost in Transcription - das gilt daher leider auch fürs Erfassen aufgezeichneter Interviews, Besprechungen oder Vorträge.

Inhalt
Artikel auf einer Seite lesen
© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%