
Kurz aufs iPhone getippt und laut fragen, wie das Wetter morgen wird. Der Sprachbefehl reicht, damit das Handy in Sekunden die Vorhersage für den nächsten Tag recherchiert und ebenso rasch Frust verbreitet: "Es regnet, 15 Grad." Was Science-Fiction-Autoren lange nur beschrieben und Programmierer erträumten - Apples Cyber-Assistent Siri macht's am Handy möglich: Mensch und Maschine unterhalten sich in natürlicher Sprache.
Benutzer herkömmlicher PCs dagegen konnten von derlei Komfort bisher nur träumen. Ohne aufwendiges Erkennungstraining war an Plaudern mit dem Rechenknecht meist nicht zu denken. Und auch nach dem Training zeigten sich die Maschinen oft längst nicht so verständig wie das leichtgängig scheinende Siri-System.





Doch nun hat die PC-Sparte nachgelegt. Die Hersteller versprechen für die jüngste Generation ihrer Spracherkennungsprogramme Erkennungsqualitäten, die dem Handyassistenten ebenbürtig sind. Inzwischen sollen sie sogar Besprechungen oder Interviews mit mehreren Sprechern protokollieren können. In Zukunft ermöglicht das eine ganz neue Qualität des Computereinsatzes im Alltagsleben: Der virtuelle Arzt berät online, der Computer wird zum Simultanübersetzer, das Tippen auf der Tastatur ohnehin überflüssig.
Wie gut sich Mensch und Maschine inzwischen tatsächlich verstehen, mussten zwei aktuelle Anwendungen im Redaktionstest nachweisen: zum einen die Software Dragon Naturally Speaking 12 des Herstellers Nuance. Sie wird auf dem PC installiert und wendet sich an Privatkunden. Die Alternative ist der internetbasierte Dienst Linguatec Voice Pro Enterprise vom bayrischen Softwarehaus Linguatec.
Naturally Speaking kostet 99 Euro; die Premium-Variante - unter anderem mit größerem Wortschatz - 149 Euro. Voice Pro wird als sogenannter Cloud-Service aus dem Netz nach Rechenzeit berechnet: Zehn Stunden Transkription schlagen mit 120 Euro zu Buche.
Beide Angebote bedienen einen rasch wachsenden Markt: Die Analysten des Marktforschungsinstituts Technavio erwarten, dass der Umsatz mit Sprachsoftware, im vergangenen Jahr europaweit bei rund 136 Millionen Euro gelegen, bis 2016 um 18 Prozent zunehmen wird.
Spracherkennungstechnik
Je professioneller die Technik, desto besser. Unter guten Umständen können aber auch die Aufnahme-Apps moderner Apple- oder Android-Smartphones ordentliche Ergebnisse liefern.
Entscheidend ist Aussteuerung. Zu leise und verrauschte Aufnahmen kann die Software nicht verstehen. Der Sprecher sollte nicht mehr als 50 Zentimeter vom Aufnahmegerät entfernt sein.
Je stärker die Aufnahme komprimiert wird, desto mehr muss die Erkennungssoftware raten. Die beste Qualität erreicht man daher mit unkomprimierten WAV-Dateien, im Test funktionierten aber auch gut ausgesteuerte MP3-Dateien.
Blind verlassen darf man sich auf die Erkennung nicht. Bei allen Dateien mussten zumindest einige Punkte und Kommas von Hand nachgetragen werden.
"Das Problem der Spracherkennung", verspricht John Vasicek, Entwickler beim Dragon-Hersteller Nuance, vollmundig, "ist praktisch gelöst." Tatsächlich gibt das Programm in der jüngsten Auflage kaum mehr Anlass zu Kopfschütteln über Sprachsalat, den der Computer beim Zuhören erzeugt.
Allerdings funktioniert Software für Privatanwender noch immer nur dann richtig gut, wenn das System auf Aussprache und Wortwahl seines Benutzers geeicht ist. Das heißt auch: Soll das Programm Aufnahmen eines anderen Sprechers umwandeln, produziert es oft doch wieder Text-Schrott. Lost in Transcription - das gilt daher leider auch fürs Erfassen aufgezeichneter Interviews, Besprechungen oder Vorträge.