WiWo App Jetzt gratis testen
Anzeigen

Spracherkennung Wenn der Computer zum Sekretär wird

Diktieren war gestern: Heute soll Spracherkennungssoftware als digitaler Assistent Anweisungen verstehen und selbst Besprechungen und Interviews protokollieren. Funktioniert das?

  • Artikel teilen per:
  • Artikel teilen per:
Die Entwickler von Spracherkennungssoftware versprechen für die jüngste Generation ihrer Programme Erkennungsqualitäten, die den Handyassistenten wie Siri oder Google Now ebenbürtig sind. Quelle: Oliver Munday

Kurz aufs iPhone getippt und laut fragen, wie das Wetter morgen wird. Der Sprachbefehl reicht, damit das Handy in Sekunden die Vorhersage für den nächsten Tag recherchiert und ebenso rasch Frust verbreitet: "Es regnet, 15 Grad." Was Science-Fiction-Autoren lange nur beschrieben und Programmierer erträumten - Apples Cyber-Assistent Siri macht's am Handy möglich: Mensch und Maschine unterhalten sich in natürlicher Sprache.

Benutzer herkömmlicher PCs dagegen konnten von derlei Komfort bisher nur träumen. Ohne aufwendiges Erkennungstraining war an Plaudern mit dem Rechenknecht meist nicht zu denken. Und auch nach dem Training zeigten sich die Maschinen oft längst nicht so verständig wie das leichtgängig scheinende Siri-System.

Der große Test: Welches Smartphone ist am schlagfertigsten?
Zwar sieht es etwas befremdlich aus, wenn Menschen plötzlich anfangen, mit ihrem Telefon zu sprechen, ohne zu telefonieren: Doch warum sollte man auch noch selbst die SMS tippen oder das Wetter checken, wenn das Smartphone das auch per Sprachbefehl erledigt? Neben diesen Standardfragen haben die Sprachsteuerungen von Samsung, HTC und Apple mittlerweile eine ganze Menge gelernt. Welches Telefon die schlagfertigsten Antworten parat hatte, zeigt unser Test. Quelle: REUTERS
Einer Braut wird bei der Trauung ein Ehering übergestreift Quelle: dpa/dpaweb
Eine Frau hört Musik Quelle: dapd
Clowns beim Rosenmontagszug Quelle: dpa/dpaweb
Ein Maori-Tänzer Quelle: dpa
Blaue Schafsfiguren Quelle: dpa
Sprachbefehl: Du bist ein dämliches Telefon!Antwort des HTC One X: "Interessantes Gerücht" Antwort des Samsung Galaxy S3: "Nein!" Antwort des iPhone 4S: "Jeder hat ein Recht auf seine Meinung." Ergebnis: Der Widerspruch ist so vehement, dass sich das Samsung Galaxy hier einen Punkt verdient. Quelle: REUTERS

Doch nun hat die PC-Sparte nachgelegt. Die Hersteller versprechen für die jüngste Generation ihrer Spracherkennungsprogramme Erkennungsqualitäten, die dem Handyassistenten ebenbürtig sind. Inzwischen sollen sie sogar Besprechungen oder Interviews mit mehreren Sprechern protokollieren können. In Zukunft ermöglicht das eine ganz neue Qualität des Computereinsatzes im Alltagsleben: Der virtuelle Arzt berät online, der Computer wird zum Simultanübersetzer, das Tippen auf der Tastatur ohnehin überflüssig.

Wie gut sich Mensch und Maschine inzwischen tatsächlich verstehen, mussten zwei aktuelle Anwendungen im Redaktionstest nachweisen: zum einen die Software Dragon Naturally Speaking 12 des Herstellers Nuance. Sie wird auf dem PC installiert und wendet sich an Privatkunden. Die Alternative ist der internetbasierte Dienst Linguatec Voice Pro Enterprise vom bayrischen Softwarehaus Linguatec.

Naturally Speaking kostet 99 Euro; die Premium-Variante - unter anderem mit größerem Wortschatz - 149 Euro. Voice Pro wird als sogenannter Cloud-Service aus dem Netz nach Rechenzeit berechnet: Zehn Stunden Transkription schlagen mit 120 Euro zu Buche.

Beide Angebote bedienen einen rasch wachsenden Markt: Die Analysten des Marktforschungsinstituts Technavio erwarten, dass der Umsatz mit Sprachsoftware, im vergangenen Jahr europaweit bei rund 136 Millionen Euro gelegen, bis 2016 um 18 Prozent zunehmen wird.

Spracherkennungstechnik

"Das Problem der Spracherkennung", verspricht John Vasicek, Entwickler beim Dragon-Hersteller Nuance, vollmundig, "ist praktisch gelöst." Tatsächlich gibt das Programm in der jüngsten Auflage kaum mehr Anlass zu Kopfschütteln über Sprachsalat, den der Computer beim Zuhören erzeugt.

Allerdings funktioniert Software für Privatanwender noch immer nur dann richtig gut, wenn das System auf Aussprache und Wortwahl seines Benutzers geeicht ist. Das heißt auch: Soll das Programm Aufnahmen eines anderen Sprechers umwandeln, produziert es oft doch wieder Text-Schrott. Lost in Transcription - das gilt daher leider auch fürs Erfassen aufgezeichneter Interviews, Besprechungen oder Vorträge.

Aus Schnipseln Worte formen

Wo die Vernetzung die Welt erobert
Mini-Computer erobern die WeltWenn es nach dem Willen der Telekomkonzerne geht, wird es in absehbarer Zukunft nur einen Schlüssel für unser modernes Leben geben: das Smartphone und oder das Tablet. Die Mini-Computer für die Akten- oder Westentasche erfreuen sich immer größerer Popularität - vier von fünf Kunden entscheiden sich derzeit beim Kauf eines neuen Handys für die internetfähige Variante, im abgelaufenen Jahr gingen allein in Deutschland über 20 Millionen Stück über den Ladentisch. Quelle: dapd
Die massenhafte Verbreitung ermöglicht ganz neue Geschäftsbereiche: Künftig sollen etwa Mietwagenkunden mithilfe von Smartphones den Weg zu ihrem Fahrzeug finden und dieses damit öffnen. Auch beim Bezahlen an der Supermarktkasse und beim Öffnen der Haustür (wie etwa bei Sharekey) sollen zunehmend mobile Computer zum Einsatz kommen. Textdokumente, aber auch Musik und private Fotos werden in externen Rechenzentren (Cloud) abgelegt und können dort mittels stationierter Software bearbeitet und jederzeit von jedem Ort abgerufen werden. Quelle: Presse
Um die technischen Voraussetzungen zu schaffen, investieren Telekom & Co. derzeit Milliarden in den Ausbau der Cloud und der mobilen Breitbandnetze. Schließlich müssen die explosionsartig wachsenden Datenmengen transportiert werden. Die Bedrohung dieser schönen neuen Welt kommt aus dem Netz selbst: Ein Hackerangriff gilt als Horrorszenario. Quelle: dpa
Am Puls des Baggers Mit der Kraft mehrerer Hundert PS wühlt sich der riesige Schaufelbagger durch das Gelände des Tagebaubergwerks irgendwo in Südamerika. Tonnen von Geröll werden stündlich bewegt - Schwerstarbeit für die Maschine. Während der Bagger Lkw um Lkw belädt, funken Sensoren Dutzende Messdaten über Öl- und Wasserdruck, Motorleistung und Verbrauch in ein über tausend Kilometer entfernt gelegenes Rechenzentrum. Quelle: REUTERS
Dort werden die Daten gesammelt, aufbereitet, mit anderen Leistungskennziffern abgeglichen und an den Hersteller des Baggers weitergeleitet. Der kann nun rechtzeitig erkennen, wann es wieder Zeit ist für eine Wartung oder wann ein Verschleißteil ausgewechselt werden muss. Der Servicetechniker vor Ort wird rechtzeitig in Marsch gesetzt, notfalls gleich mit dem passenden Ersatzteil. Das spart Zeit und Kosten, weil das schwere Gerät nur für kurze Zeit unproduktiv im Gelände steht. Quelle: obs
Die Fernüberwachung von Maschinen, Transportunternehmen und Gütern ist unter anderem für den britischen Mobilfunkanbieter Vodafone Teil der Strategie bei der Maschinenkommunikation. Ähnlich wie beim vernetzten Auto wird für die Einsätze ein speziell für die M2M-Kommunikation entwickelter Chip eingesetzt. Er ist kleiner als die, die in jedem üblichen Mobilfunkgerät stecken, aber deutlich robuster: Der SIM-Chip entspricht Industrieanforderungen, ist fest verlötet, korrosionsbeständig, verfügt über eine längere Lebensdauer und übersteht auch hohe Temperaturschwankungen. Er funktioniert auf vielen Netzen weltweit und wird daher auch für die Überwachung von Containern eingesetzt, die rund um den Globus schippern. Quelle: dpa
Das vernetzte Heim Die Vision hat was Bestechendes: Bequem vom Sofa aus öffnet der Hausbesitzer mit Hilfe eines kleinen Flachbildschirms das Fenster im Kinderzimmer, stellt die Heizung auf moderate 22 Grad und kontrolliert, ob der Herd wirklich ausgeschaltet ist. All das und viel mehr ist heute schon möglich - und doch funktioniert diese moderne Welt des vernetzten Heims nur in Ausnahmefällen. Quelle: dapd

Woran das liegt, erklärt Manfred Ney, Informatikprofessor an der RWTH Aachen: "Gesprochene Sprache ist zunächst einmal ein Schallsignal, das im Erkennungsprozess vom System interpretiert werden muss." Die Erkennungssoftware zerstückelt die Geräuschfolge in millisekundenlange Sound-Schnipsel und analysiert sie: Schnipsel eins, merkt das Programm, hat ungefähr Frequenz und Klangeigenschaften eines "w"; Nummer zwei dürfte ein "e" sein; dann folgt ein "g". Die Laut-Kombination findet die Software im internen Lexikon und transkribiert sie als "Weg".

Unglücklicherweise nur sind Menschen nicht linguistisch genormt: Die Stimme jedes Sprechers hat unterschiedliche Frequenzen für "w", "e" und "g". Männer etwa sprechen in einer tieferen Tonlage als Frauen. Dazu kommen Dialekte: Der eine sagt "Weg", der andere "Wech". Während das menschliche Hirn diese Unterschiede einebnet, bringen genau sie den Computer aus der Tritt. Darum muss herkömmliche, PC-basierte Erkennungssoftware wie Dragon Naturally Speaking vor dem ersten Diktat mit vorgegebenen Texten trainiert werden: Das Programm erkennt die sprachlichen Eigenheiten des Benutzers und kann sich auf sie einstellen - beispielsweise, dass der Benutzer "Wech" sagt; ein "Weg" fällt dann bei der Erkennung meist durchs Raster.

Linguatec dagegen will mit Voice Pro Enterprise nun das erste trainingsfreie System für den deutschen Privatkundenmarkt anbieten. Ein sprecherunabhängiges System - lange war das so etwas wie der heilige Gral der Computerlinguistik. Im Prinzip nutzt Voice Pro dabei den gleichen technischen Kniff wie Siri: Denn weil die Rechenleistung im Smartphone für die extrem anspruchsvollen Sprachanalysen nicht ausreicht, greift der Handyassistent auf das sogenannte Cloud Computing zurück. Er sendet die Fragen des Benutzers via Internet an Apples Hochleistungsrechner, deren geballte Rechenpower die Aufnahme komplexen Erkennungsalgorithmen unterziehen – und dann die passende Antwort ans Handy zurückgeben.

Auf die gleiche Weise soll Voice Pro per Cloud Computing Sprachaufnahmen in Text umsetzen - egal, wer da gerade redet. Denn der Linguatec-Dienst muss für jede Aufnahme ein neues Sprecherprofil erstellen, erklärt Reinhard Busch, Geschäftsführer bei Linguatec in München. "Zuerst sucht die Software sich einige längere Ankerwörter heraus, die sie sicher erkennt. Anhand dieser Begriffe kalibriert Voice dann seine Erkennung." Im zweiten Durchlauf wird die Aufnahme dann mit diesen Einstellungen in Text verwandelt. "Die Software eignet sich für Diktate, Besprechungen, Familienvideos und Ähnliches", sagt Linguatec-Geschäftsführer Busch.

Um das zu testen, muss sich sein System im Umgang mit Interviews von Fußball bis Finanzwirtschaft beweisen. Außerdem soll sich der Algorithmus an Politiker-Reden und Vorlesungen versuchen. Die Aufnahme wird jeweils auf die Linguatec-Web- Site hochgeladen. Anschließend läuft die Analyse, die pro Minute Mitschnitt rund eine Minute Rechenzeit braucht. Anschließend liegt die Abschrift auf der Web-Site als Textdatei bereit.

Der Versuch zeigt: Mit Ansprachen kommt die Linguatec-Software besonders gut zurecht. Die MP3-Datei einer Konrad-Adenauer-Rede etwa verwandelt Voice Pro in eine fast fehlerfreie Abschrift. Und das, obwohl Altkanzler Adenauer nicht mehr zum Software-Training erscheinen konnte. Auch das Transkript einer Ansprache von Angela Merkel ist akzeptabel. Selbst "Wachstumslokomotive" oder "Marshallplan" versteht die Software richtig.

Brauchbar, nicht perfekt

Wie Computer wurden, was sie sind
Apple-Mitgründer Steve Jobs wollte einen Computer entwickeln, den jeder bedienen kann. Inspiration fand er im Forschungszentrum Xerox PARC: Dort hatten die Tüftler eine grafische Benutzeroberfläche (graphical user interface, GUI) programmiert, die Jobs bei einem Besuch elektrisierte. „Innerhalb von zehn Minuten war mir klar, dass eines Tages alle Computer so arbeiten würden“, sagte er Jahre später in einem Fernsehinterview. 1983 brachte Apple das Modell Lisa samt einer Maus heraus – den ersten Computer mit grafischer Benutzeroberfläche für den Massenmarkt. Allerdings reagierte die Technik nur sehr behäbig. Und der Preis von 10.000 Dollar war für die meisten Privatanwender zu hoch (in Deutschland kostete der Rechner 30.000 DM). Lisa erwies sich als großer Flop, die Restbestände wurden später in der Wüste von Utah entsorgt. Doch Lisa bahnte der Technologie den Weg. Quelle: mac-history.net
Doch Steve Jobs ließ sich vom Misserfolg mit dem Lisa nicht beirren und entwickelte bei Apple mit einem verschworenen Team den Macintosh, der sich ebenfalls mit einer Maus bedienen ließ und deutlich billiger war. Hier ist der junge Firmengründer (l.) 1984 bei der Vorstellung des Rechners mit dem damaligen Apple-Chef John Sculley zu sehen. Der Werbespot für diesen Computer, gedreht von Regisseur Ridley Scott, ist bis heute legendär – er soll zeigen, wie der Apple-Rechner die geknechteten Nutzer von IBM, dem „Big Brother“ mit seinen Einheits-PCs, befreit.
Das Gerät sollte nicht die Geschäftsleute begeistern, sondern die Massen. In Sachen Benutzerfreundlichkeit setzte Apple Maßstäbe, doch der Erfolg stellte sich erst über die Jahre ein, zumal Konkurrent IBM mit seinem PC reißenden Absatz fand. Der war zwar nicht so bequem zu bedienen, es gab aber viel mehr Anwendungen für ihn. Immerhin gelang es Apple mit der Zeit, eine treue Fangemeinde aufzubauen – auch in den Jahren ohne Steve Jobs. Der musste Apple 1985 nach einem Machtkampf mit Firmenchef Sculley verlassen. Quelle: dpa
Zum Durchbruch verhalf der grafischen Benutzeroberfläche nicht Steve Jobs, sondern ein junger Bursche namens Bill Gates. Sein Startup Microsoft entwickelte für den Computerhersteller IBM das Betriebssystem MS-DOS. In den 80er Jahren entdeckte Gates beim damaligen Partner Apple die intuitive Bedienung per Maus und ließ daraufhin die Benutzeroberfläche Windows entwickeln, die später Bestandteil aller Systeme wurde. 1985 kam die erste Version heraus, die ersten großen Erfolge gelangen in den 1990er Jahren mit Windows 3.0 und Windows 3.1. Heute ist Microsoft ein Software-Gigant und Windows der Quasi-Standard auf PCs. Quelle: dpa
Windows 95 bedeutete für Microsoft den Durchbruch – spätestens seit der Präsentation im namensgebenden Jahr 1995 kam kein Computerhersteller mehr an dem Betriebssystem vorbei. Damals führte der Software-Konzern auch den Start-Button ein, über den heute Millionen von Nutzern Programme aufrufen oder auch den Rechner ausschalten. Weitere Meilensteine in der Entwicklung sind Windows XP (2001) und Windows 7 (2009). Aktuell vermarktet Microsoft Windows 8. Quelle: dpa
Steve Jobs verhalf nicht nur der grafischen Benutzeroberfläche zum Durchbruch, sondern auch dem Touchscreen: Nach seiner Rückkehr zu Apple ließ er das iPhone entwickeln – hier die Präsentation im Januar 2007. Es war zwar nicht der erste Handy mit berührungsempfindlicher Oberfläche, hatte aber dank seiner intuitiven und ruckelfreien Bedienung so viel Erfolg wie kein Gerät zuvor. Für damalige Verhältnisse war das revolutionär, heute ist es Standard. Denn Apple fand viele Nachahmer. Quelle: AP
Auch im iPod Touch setzte Apple später seinen Touchscreen ein. Inzwischen kommt die Technologie in immer mehr Geräten zum Einsatz, auch in Notebooks oder Uhren. Quelle: AP

Auch Universitätsvorlesungen führen, von Fachvokabular abgesehen ("Ammoniumcyanat"), zu brauchbaren Mitschriften. Allerdings heißt „brauchbar“ nicht „perfekt“. Pro Textseite sollte der Anwender etwa zehn Minuten Nachbearbeitung einplanen. Wer will, kann die Texte direkt auf Linguatecs Web-Seite redigieren und sich bei Unklarheiten den entsprechenden Ausschnitt der Aufnahme synchron anhören.

Doch auch Voice Pro hat Grenzen. Wenn mehr als ein Sprecher auf der Aufnahme zu hören ist, versagt die Selbstoptimierung des Sprachprofils oftmals. Da verhält es sich beim Online-Dienst nicht anders als beim Dragon-Sprechertraining am PC. Die Folge: Das Interview mit Fußball-Bundestrainer Joachim Löw oder der Mitschnitt des historischen Kanzler-Duells Schröder gegen Stoiber werden zwar transkribiert. Aber sie brauchen einigen nachträglichen Feinschliff. Meist geht das zumindest schneller, als alles von Hand abzutippen.

Es zeigt sich aber auch, wie stark die Erkennungs- von der Aufnahmequalität abhängt. Per Handy aufgezeichnete Interviews bringen das Programm leichter aus dem Tritt als professionell ausgesteuerte Gesprächsmitschnitte. Dann gelingen Voice Pro zwar einerseits auch vom Reporter-Mitschnitt komplexe Transkriptionen: Worte wie "Sondergenehmigung" oder "Europa League" werden richtig erfasst. Andererseits produziert die Software Sinnlos-Syntax, wenn sie etwa statt "wieder richtig gut" ein "widerliches Blutbad" hört.

Ohne ausgiebige Nachbearbeitung sind diese Interviews kaum lesbar. Für Langsam-Schreiber mag die Korrigiererei schneller gehen, als selbst zu tippen - Spaß aber macht sie nicht.

So bleibt nach dem Test ein gemischtes Bild. Linguatecs Voice Pro Enterprise kann tatsächlich schnell und sprecherunabhängig brauchbare Transkriptionen liefern. Doch mit der Zahl der Sprecher steigt auch die Fehlerzahl. Die Rede des Vorstandsvorsitzenden dürfte der Software deshalb keine Probleme machen; das Protokoll eines hitzigen Aufsichtsratsmeetings wird einiges an Nachbearbeitung benötigen.

Damit auch das demnächst der Vergangenheit angehört, forscht der Aachener Sprachforscher Ney gerade an Szenarien, in denen sich Sprecher auch mal ins Wort fallen. Im Rahmen des Projekts Gale, das vom US-Verteidigungsministerium finanziert wird, arbeitet seine Gruppe unter anderem an einer Technik, die chinesische Fernsehdebatten transkribiert und ins Englische übersetzt.

In Arbeit
Bitte entschuldigen Sie. Dieses Element gibt es nicht mehr.

An 100-prozentig zuverlässige Spracherkennung glaubt aber auch Informatiker Ney in absehbarer Zeit nicht. Wo Menschen beteiligt sind, gebe es immer auch Sonderlinge - in der Szene despektierlich "Goats" genannt: Sprecher, die ohne erkennbaren Grund von der Software partout nicht verstanden werden.

Zwar lag ihr Anteil vor zehn Jahren noch bei etwa einem Fünftel, heute nur noch im einstelligen Prozentbereich. Doch ganz verschwinden werden die "Ziegen" wohl nie.

Jetzt auf wiwo.de

Sie wollen wissen, was die Wirtschaft bewegt? Hier geht es direkt zu den aktuellsten Beiträgen der WirtschaftsWoche.
Diesen Artikel teilen:
  • Artikel teilen per:
  • Artikel teilen per:
© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%