WiWo App Jetzt gratis testen
Anzeigen

Spracherkennung Wenn der Computer zum Sekretär wird

Seite 2/3

Aus Schnipseln Worte formen

Wo die Vernetzung die Welt erobert
Mini-Computer erobern die WeltWenn es nach dem Willen der Telekomkonzerne geht, wird es in absehbarer Zukunft nur einen Schlüssel für unser modernes Leben geben: das Smartphone und oder das Tablet. Die Mini-Computer für die Akten- oder Westentasche erfreuen sich immer größerer Popularität - vier von fünf Kunden entscheiden sich derzeit beim Kauf eines neuen Handys für die internetfähige Variante, im abgelaufenen Jahr gingen allein in Deutschland über 20 Millionen Stück über den Ladentisch. Quelle: dapd
Die massenhafte Verbreitung ermöglicht ganz neue Geschäftsbereiche: Künftig sollen etwa Mietwagenkunden mithilfe von Smartphones den Weg zu ihrem Fahrzeug finden und dieses damit öffnen. Auch beim Bezahlen an der Supermarktkasse und beim Öffnen der Haustür (wie etwa bei Sharekey) sollen zunehmend mobile Computer zum Einsatz kommen. Textdokumente, aber auch Musik und private Fotos werden in externen Rechenzentren (Cloud) abgelegt und können dort mittels stationierter Software bearbeitet und jederzeit von jedem Ort abgerufen werden. Quelle: Presse
Um die technischen Voraussetzungen zu schaffen, investieren Telekom & Co. derzeit Milliarden in den Ausbau der Cloud und der mobilen Breitbandnetze. Schließlich müssen die explosionsartig wachsenden Datenmengen transportiert werden. Die Bedrohung dieser schönen neuen Welt kommt aus dem Netz selbst: Ein Hackerangriff gilt als Horrorszenario. Quelle: dpa
Am Puls des Baggers Mit der Kraft mehrerer Hundert PS wühlt sich der riesige Schaufelbagger durch das Gelände des Tagebaubergwerks irgendwo in Südamerika. Tonnen von Geröll werden stündlich bewegt - Schwerstarbeit für die Maschine. Während der Bagger Lkw um Lkw belädt, funken Sensoren Dutzende Messdaten über Öl- und Wasserdruck, Motorleistung und Verbrauch in ein über tausend Kilometer entfernt gelegenes Rechenzentrum. Quelle: REUTERS
Dort werden die Daten gesammelt, aufbereitet, mit anderen Leistungskennziffern abgeglichen und an den Hersteller des Baggers weitergeleitet. Der kann nun rechtzeitig erkennen, wann es wieder Zeit ist für eine Wartung oder wann ein Verschleißteil ausgewechselt werden muss. Der Servicetechniker vor Ort wird rechtzeitig in Marsch gesetzt, notfalls gleich mit dem passenden Ersatzteil. Das spart Zeit und Kosten, weil das schwere Gerät nur für kurze Zeit unproduktiv im Gelände steht. Quelle: obs
Die Fernüberwachung von Maschinen, Transportunternehmen und Gütern ist unter anderem für den britischen Mobilfunkanbieter Vodafone Teil der Strategie bei der Maschinenkommunikation. Ähnlich wie beim vernetzten Auto wird für die Einsätze ein speziell für die M2M-Kommunikation entwickelter Chip eingesetzt. Er ist kleiner als die, die in jedem üblichen Mobilfunkgerät stecken, aber deutlich robuster: Der SIM-Chip entspricht Industrieanforderungen, ist fest verlötet, korrosionsbeständig, verfügt über eine längere Lebensdauer und übersteht auch hohe Temperaturschwankungen. Er funktioniert auf vielen Netzen weltweit und wird daher auch für die Überwachung von Containern eingesetzt, die rund um den Globus schippern. Quelle: dpa
Das vernetzte Heim Die Vision hat was Bestechendes: Bequem vom Sofa aus öffnet der Hausbesitzer mit Hilfe eines kleinen Flachbildschirms das Fenster im Kinderzimmer, stellt die Heizung auf moderate 22 Grad und kontrolliert, ob der Herd wirklich ausgeschaltet ist. All das und viel mehr ist heute schon möglich - und doch funktioniert diese moderne Welt des vernetzten Heims nur in Ausnahmefällen. Quelle: dapd

Woran das liegt, erklärt Manfred Ney, Informatikprofessor an der RWTH Aachen: "Gesprochene Sprache ist zunächst einmal ein Schallsignal, das im Erkennungsprozess vom System interpretiert werden muss." Die Erkennungssoftware zerstückelt die Geräuschfolge in millisekundenlange Sound-Schnipsel und analysiert sie: Schnipsel eins, merkt das Programm, hat ungefähr Frequenz und Klangeigenschaften eines "w"; Nummer zwei dürfte ein "e" sein; dann folgt ein "g". Die Laut-Kombination findet die Software im internen Lexikon und transkribiert sie als "Weg".

Unglücklicherweise nur sind Menschen nicht linguistisch genormt: Die Stimme jedes Sprechers hat unterschiedliche Frequenzen für "w", "e" und "g". Männer etwa sprechen in einer tieferen Tonlage als Frauen. Dazu kommen Dialekte: Der eine sagt "Weg", der andere "Wech". Während das menschliche Hirn diese Unterschiede einebnet, bringen genau sie den Computer aus der Tritt. Darum muss herkömmliche, PC-basierte Erkennungssoftware wie Dragon Naturally Speaking vor dem ersten Diktat mit vorgegebenen Texten trainiert werden: Das Programm erkennt die sprachlichen Eigenheiten des Benutzers und kann sich auf sie einstellen - beispielsweise, dass der Benutzer "Wech" sagt; ein "Weg" fällt dann bei der Erkennung meist durchs Raster.

Linguatec dagegen will mit Voice Pro Enterprise nun das erste trainingsfreie System für den deutschen Privatkundenmarkt anbieten. Ein sprecherunabhängiges System - lange war das so etwas wie der heilige Gral der Computerlinguistik. Im Prinzip nutzt Voice Pro dabei den gleichen technischen Kniff wie Siri: Denn weil die Rechenleistung im Smartphone für die extrem anspruchsvollen Sprachanalysen nicht ausreicht, greift der Handyassistent auf das sogenannte Cloud Computing zurück. Er sendet die Fragen des Benutzers via Internet an Apples Hochleistungsrechner, deren geballte Rechenpower die Aufnahme komplexen Erkennungsalgorithmen unterziehen – und dann die passende Antwort ans Handy zurückgeben.

Auf die gleiche Weise soll Voice Pro per Cloud Computing Sprachaufnahmen in Text umsetzen - egal, wer da gerade redet. Denn der Linguatec-Dienst muss für jede Aufnahme ein neues Sprecherprofil erstellen, erklärt Reinhard Busch, Geschäftsführer bei Linguatec in München. "Zuerst sucht die Software sich einige längere Ankerwörter heraus, die sie sicher erkennt. Anhand dieser Begriffe kalibriert Voice dann seine Erkennung." Im zweiten Durchlauf wird die Aufnahme dann mit diesen Einstellungen in Text verwandelt. "Die Software eignet sich für Diktate, Besprechungen, Familienvideos und Ähnliches", sagt Linguatec-Geschäftsführer Busch.

Um das zu testen, muss sich sein System im Umgang mit Interviews von Fußball bis Finanzwirtschaft beweisen. Außerdem soll sich der Algorithmus an Politiker-Reden und Vorlesungen versuchen. Die Aufnahme wird jeweils auf die Linguatec-Web- Site hochgeladen. Anschließend läuft die Analyse, die pro Minute Mitschnitt rund eine Minute Rechenzeit braucht. Anschließend liegt die Abschrift auf der Web-Site als Textdatei bereit.

Der Versuch zeigt: Mit Ansprachen kommt die Linguatec-Software besonders gut zurecht. Die MP3-Datei einer Konrad-Adenauer-Rede etwa verwandelt Voice Pro in eine fast fehlerfreie Abschrift. Und das, obwohl Altkanzler Adenauer nicht mehr zum Software-Training erscheinen konnte. Auch das Transkript einer Ansprache von Angela Merkel ist akzeptabel. Selbst "Wachstumslokomotive" oder "Marshallplan" versteht die Software richtig.

Inhalt
Artikel auf einer Seite lesen

Jetzt auf wiwo.de

Sie wollen wissen, was die Wirtschaft bewegt? Hier geht es direkt zu den aktuellsten Beiträgen der WirtschaftsWoche.
Diesen Artikel teilen:
  • Artikel teilen per:
  • Artikel teilen per:
© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%