Spracherkennung: So will Google zum Sprachgenie werden

Spracherkennung: So will Google zum Sprachgenie werden

, aktualisiert 05. November 2011, 08:39 Uhr
Bild vergrößern

Google will alle Sprachen automatisch übersetzen können.

von Axel PostinettQuelle:Handelsblatt Online

Der Internetriese Google versucht der Welt eine gemeinsame Sprache zu geben. Dazu sammelt eine Frau rund um die Welt Gesprächsfetzen und Taucher sprechen in Smartphones. Das Ziel: Jeder soll jeden verstehen können.

San FranciscoLinnie Ha ist auf der Jagd - und zwar nach Sprachfetzen. Die junge Frau reist für ihren Arbeitgeber um die Welt, von Kontinent zu Kontinent, von Land zu Land, um Menschen in Mikrofone sprechen zu lassen. Ihre Aufgabe ist es, den Datenhunger von Googles gigantischen Rechnerbatterien zu stillen. Denn diese arbeiten rund um die Uhr daran, die menschliche Sprache zu analysieren - und sie schließlich zu verstehen.

Linnie Has Jagd hat bereits Erträge gebracht: Inzwischen übersetzt die Google-Software schon einfache gesprochene Sätze in fremde Sprachen und zeigt sie auf dem Bildschirm an oder liest sie per Computerstimme vor. Das ist ein Forschritt, doch zugleich nach Google-Maßstab nur eine kleine Spielerei, denn den Konzern hat ehrgeizige Pläne. Die beiden größten Forscherteams im Hauptquartier des Internetkonzerns arbeiten daran, einen Wunschtraum der Menschheit in Erfüllung gehen zu lassen: das Ende der babylonischen Sprachverwirrung. Jeder soll jeden verstehen können - in Echtzeit, ohne Dolmetscher, ohne Einheitssprache.

Anzeige

Schalten sich um den Globus verstreute Mitarbeiter eines internationalen Konzerns zur Telefonkonferenz zusammen, so die Vision, soll jeder in seiner Muttersprache mitdiskutieren können, die anderen verstehen ihn problemlos. Die Forscher wollen es schaffen, dass Mobilfunkgespräche in jede fremde Sprache übersetzt werden können, und zwar live. Eine Software im Smartphone soll das leisten. Es soll auch keine Rolle mehr spielen, ob eine Internetseite oder eine App in Chinesisch, Deutsch oder Englisch programmiert wurde. Die Herausforderung ist enorm: Über 300 Sprachen gibt es weltweit, hinzu kommen noch zahllose Dialekte.

250.000 Sprachbeispiele sind das Minimum

1600 Amphitheater Parkway, Mountain View, California. Auf mehr als 47000 Quadratmetern erstrecken sich die Kerngebäude des Googleplex, Hauptquartier und Forschungszentrum in einem. Der Konzern ist wie kaum ein anderes Unternehmen auf Innovation eingestellt, vergangenes Jahr flossen 12,8 Prozent des Umsatzes in Forschungsaktivitäten. Im sonnendurchfluteten Foyer des Building 43 liegen Textmarker auf kleinen Ablagen bereit. Im Vorbeigehen kann jeder auf einer riesigen Tafel seine Ideen für die Zukunft hinterlassen, egal wie abstrus sie zunächst auch erscheinen mögen.


Die Sprachscouts gingen sogar auf Tauchstation

Hier arbeiten Vincent Vanhoucke und Franz Och gemeinsam an der großen Vision. Die Herausforderungen für die beiden Teamleiter sind noch gewaltig: Jedes gesprochene Wort muss am Ende praktisch ohne Verzögerung erkannt, blitzschnell korrekt übersetzt und am anderen Ende fehlerfrei betont in einer anderen Sprache wieder ausgegeben werden. Da zählt jede Nuance in der Aussprache, um die Fehlerquote auf ein erträgliches Minimum zu drücken. "250000 Sprachbeispiele sind das Minimum pro Sprache", sagt Vanhoucke. 27 Sprachen werden bereits unterstützt, "ohne Linnies Arbeit wäre das so schnell gar nicht möglich gewesen".

Sein Sprachscout stattete weltweit Gruppen von Nutzern mit Smartphones und einer speziellen Software aus - und ließ sie einfach reden. Üblicherweise werden Sprachschnipsel bei spezialisierten Unternehmen eingekauft, aber "wir haben von Anfang an gewusst, dass das nicht funktionieren wird", so Ha. "Die besten Daten kommen von den Anwendern selbst."

Eine Datenbank der störenden Geräusche

Als willkommener Nebeneffekt kam eine Datenbank der störenden Umweltgeräusche des täglichen Lebens dazu, vom U-Bahn-Geratter in London über das Fußballstadion in Frankreich bis zur Busfahrt in Mexico City. Zwei australische Google-Forscher gingen für die korrekte Spracherkennung sogar ins Wasser. Am Great Barrier Reef ließen sie Taucher per Funk Sprachbefehle auf ein an Bord ihres Schiffes installiertes Smartphone übertragen, angereichert um das Geblubber der Druckluftatmer. Ein anderer Weg führte in ein Höhlenlabyrinth mit starken Halleffekten und Windgeräuschen.

Trotz aller Bemühungen: Der Akustikteil der Spracherkennung, das reine Hören also, "hat noch lange nicht das Niveau des menschlichen Verständnisses" erreicht, wie Sprach-Chef Vanhoucke einräumt. Aber die Forscher sammeln weiter Daten: Immer, wenn ein Nutzer einen Suchbefehl in sein Smartphone spricht, wird er aufgezeichnet, die Suchanfrage wird zum Sprachmuster. Egal ob ein Japaner aus Niigata, ein Deutscher aus München oder eine Amerikanerin mit Südstaatendialekt "Restaurant in San Francisco" eingibt - Google nimmt es als Vergleichshilfe hinzu. Vanhoucke nennt das "Superhuman Speech Recognition".

Derzeit trainieren die Rechner mit 240 Milliarden Wörtern von Millionen von Nutzern. Jeden Tag lauschen die Server einem Wortstrom, der hintereinander gesprochen für zwei Jahre Dauerreden ausreichen würde. Und mit jedem Wort werden die Ergebnisse ein klein wenig besser.

Die Bibel hilft beim Übersetzen

Während Vanhoucke das Team für die Spracherkennung leitet und Linnie Ha um den Globus jettet, feilt der deutsche Wissenschaftler Franz Och mit seinem Team am zweiten Kernelement der Zukunftsvision: der maschinellen Übersetzung von Texten, "Google Translate" genannt. Och, Absolvent der RWTH Aachen, setzt auf die Technik der statistischen Übersetzung von Texten. Dabei lernt das System nicht etwa starre Grammatikregeln und Vokabeln auswendig, sondern es lernt über Vergleiche.


Das Internet erfordert Grundlagenarbeit

Ausgangspunkt ist die Bibel, das wohl am häufigsten in andere Sprachen übersetzte Buch der Welt. Durch den maschinellen Vergleich der Übersetzungen miteinander lernt Translate, wie einzelne Wörter und Sätze zu behandeln sind. Weitere beliebte Quellen sind amtliche Übersetzungen von Dokumenten der Vereinten Nationen - sie gelten als besonders akkurat und damit ideal, um die Computer damit zu füttern. Je mehr Vergleichstexte, umso besser das Ergebnis. Je exotischer eine Sprache, desto weniger Vergleichstexte, um so kruder und fehlerhafter die Ergebnisse. Wer heute auf Google Translate Texte eingibt, wird das schnell am eigenen Leibe erleben. Aber der Lernprozess schreitet immer weiter voran.

Das Internet ist noch immer jung

Ermöglicht werden diese Art der Übersetzung und die computergesteuerte Spracherkennung erst durch die gesammelte Rechenkraft des Internets. Die eingetippten Texte werden nicht mehr auf einem PC oder Smartphone übersetzt oder ausgewertet - diese hätten weder die Rechenleistung noch den Speicherraum für die Datenmassen. Das alles übernehmen nun Googles Rechenzentren, die per Internet mit den Geräten der Nutzer verbunden sind.

Die riesigen Hallen voll miteinander verknüpfter Computer eröffnen dem Konzern erst die Möglichkeiten, seine Visionen Stück für Stück Realität werden zu lassen. Alfred Spector, der Herr über Googles Zukunftssuche, spricht von "einem dramatischen Wandel": "Zu Beginn drehte sich alles um Mathematik und später um Software-Entwicklung", berichtet der Stanford-Absolvent, der 2007 zu Google stieß. "Jetzt steht die empirische Forschung im Mittelpunkt." Diese benötigt aber vor allem eines: riesige Datenmengen.

Spector und seine Mitarbeiter müssen noch viel sammeln. Das Internet ist noch immer jung und erfordert Grundlagenarbeit. Das übergeordnete Ziel der Forscher ist es, die Informationen der Welt zu organisieren, digital zugänglich und nutzbar zu machen. Der Bogen der Themen, derer sich die Entwickler annehmen, reicht von Programmierwerkzeugen über Robotik und künstliche Intelligenz bis zu fahrerlosen Fahrzeugen, Solarenergie und alternativen Energien.

Es sind noch riesige Probleme zu lösen

Dabei, so Spector, geht es "angesichts der Ausmaße der Google-Operationen um fundamentale Fragen der Entwicklung, Bereitstellung und Verbesserung von Systemen mit globaler Größenordnung". Er nennt sie "Systeme in Google-Dimension". Bescheidenheit war im Googleplex noch eine Tugend. "Wir werden in wenigen Jahren Systeme sehen, in denen weltweit eine Milliarde Prozessoren zusammenarbeiten werden", prophezeit der Forschungschef. Sie werden dann vielleicht nötig sein für die planetare verzögerungsfreie Weltsprachenmaschine. Wie solche globalen Computer überhaupt gesteuert werden können, daran arbeitet man im Googleplex.

Werden wir also bald auf Deutsch in den Telefonhörer sprechen und am anderen Ende der Welt hört der chinesische Geschäftspartner unseren Ausführungen in bestem Mandarin zu? "Es sind noch riesige Probleme zu lösen", bremst Vanhoucke allzu großen Optimismus. Aber zuversichtlich ist er schon: "Das Internet und Cloud-Computing, die Verfügbarkeit riesiger Datenmengen, das alles hat die Karten neu gemischt. Dinge, die vor drei Jahren undenkbar waren, sind heute auf dem Markt." Es ist nur noch eine Frage der Zeit, da sind sich Spector, Vanhoucke und Och einig.

Quelle:  Handelsblatt Online
Anzeige
Deutsche Unternehmerbörse - www.dub.de
DAS PORTAL FÜR FIRMENVERKÄUFE
– Provisionsfrei, unabhängig, neutral –
Angebote Gesuche




.

Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%