Internet: Die digitalen Reporter-Maschinen

Internet: Die digitalen Reporter-Maschinen

Bild vergrößern

Hier tippen noch Menschen, doch erste Computerprogramme formulieren Texte selbstständig.

In den USA schreiben Computerprogramme automatisch Spielberichte von Baseballspielen. Auch in anderen Bereichen funktioniert das automatisierte Verstehen und Interpretieren von Daten immer besser. Das nutzen verschiedene Unternehmen.

Der Autor dieser Zeilen ist ein Mensch aus Fleisch und Blut. Er hat vergangene Nacht knapp sieben Stunden geschlafen, nach dem Aufstehen einen Kaffee getrunken und auf dem Weg ins Büro um ein Haar seine Bahn verpasst. Den Reportern in der Redaktion des amerikanischen College-Sport-Senders Big Ten Network wird das nie passieren. Sie brauchen weder Schlaf noch Kaffee, um fit zu sein. Und nach Hause gehen sie erst gar nicht: Es sind Computer, die für die Internet-Seite des Senders die Berichte über Baseball- und Softball-Spiele schreiben.

Trotzdem brauchen ihre Texte den Vergleich mit von Menschen verfassten Artikeln nicht zu scheuen, wie die Beispielübersetzung zeigt: „Eine herausragende Leistung von Willie Argo trug Illinois am Samstag im Medlar-Stadion zu einem 11:5-Sieg über die Nittany Lions der Pennsylvania-State-Universität. Argo schlug zwei Home-Runs für Illinois.“

Anzeige

„Stats Monkey“, zu Deutsch „Statistik-Affe“, heißt das Computersystem, das solche Texte nicht nur verfasst, sondern auch ein Foto des wichtigsten Spielers auswählt und gleich die passende Überschrift mitliefert. „Das Programm kann herausfinden, was in einem Spiel passiert ist“, sagt Entwickler Larry Birnbaum von der Northwestern University aus Chicago. „Alles, was es dazu braucht, sind Statistiken.“

Stats Monkey ist nicht das Ende des Journalismus. Doch die Software beweist beeindruckend, wie Computer Menschen inzwischen helfen können, scheinbar unzusammenhängenden Datenschnipseln einen Sinn zu verleihen und damit Informationen in ihrem sogenannten semantischen Zusammenhang zu verstehen. Was bei der Statistik eines Baseballspiels im Kleinen gelingt, funktioniert künftig auch mit den Daten eines Unternehmens – oder sogar dem gesamten Web: Das elektronisch abrufbare Wissen der Menschheit wird verknüpft und für konkrete Fragen nutzbar.

"Stats Monkey" braucht möglichst viele Statistiken für seine Artikel

Dabei ist es ist kein Zufall, dass die Wissenschaftler um Birnbaum ihren Statistik-Affen zunächst auf Baseballspiele angesetzt haben. Beim Lieblingssport der Amerikaner fallen Daten in Hülle und Fülle an. Online greift das Programm auf diese Zahlenreihen zu, analysiert, gewichtet und sortiert sie. So erkennt die Software beispielsweise, ob eine Mannschaft während des gesamten Spiels in Führung lag oder ob sie einen Rückstand aufholen musste. Die Daten erlauben es dem Computer auch, die wichtigsten Spieler und die Schlüsselszenen der Begegnung zu erkennen.

Die Story, die der digitale Reporter dabei entwickelt, setzt er mit journalistischen Standardformulierungen in ausformulierte Texte um — und zwar in Sekunden. Die Baseballstatistik ist dafür umso geeigneter, weil die Daten nach bestimmten Standards aufbereitet sind. Wesentlich komplizierter ist es für Computer, unstrukturierte Textdaten zu verstehen, wie sie in Unternehmen tagtäglich anfallen: E-Mails, Verträge, Rechnungen oder Angebote.

Die große Hürde für semantische Systeme besteht darin, Informationen richtig einzuordnen. Ein Mensch, der das Wort „Föhn“ liest, erschließt anhand des Kontextes blitzschnell ob Elektrogerät oder Wetterphänomen gemeint ist. Ein Computer kann das nicht — es sei denn, er erkennt, dass benachbarte Schlagworte wie Badezimmer oder Steckdose auf den Haartrockner hindeuten. Früher mussten Programmierer den Systemen diese Zusammenhänge händisch beibringen. Moderne Software dagegen besorgt sich Schlagworte und Verknüpfungen inzwischen automatisch. Nur den Speicherort, an dem sie danach suchen soll, muss der Mensch noch vorgeben.

Das Potenzial der schlauen Computerprogramme ist enorm. Laut einer Studie des Marktforschungsunternehmens IDC wurden in den vergangenen zwei Jahren mehr elektronische Daten generiert als in der gesamten Menschheitsgeschichte. „Mehr als 80 Prozent dieser Daten sind unstrukturiert“, sagt IDC-Analyst Rüdiger Spies.

Darunter verstehen Experten zum Beispiel E-Mails, in denen Namen oder Adressen nicht systematisch erfasst sind. Auch Musikdateien und Videos gehören dazu. Sie sorgen zusammen mit klassischen Textdaten dafür, dass die Datenmenge ungebremst wächst. So prognostiziert der Netzwerkausrüster Cisco, dass sich der Datenverkehr im Internet durch Videodienste bis 2013 mehr als verdreifacht. Für das Surfen im Netz und den E-Mail-Verkehr erwartet Cisco eine Verdoppelung. Menschen können diese Informationsflut schon lange nicht mehr verarbeiten – Computer schon. „Die Software dafür ist ein riesiger Markt“, sagt Spieß.

Schon heute lassen Unternehmen wie die Deutsche Flugsicherung elektronische Daten von Computern sortieren, um Technikern den Zugriff auf Informationen zu erleichtern. Für den Telekommunikationsanbieter Versatel analysieren semantische Systeme Kundenanfragen und generieren Antwortvorschläge. In Callcentern leiten Computerprogramme Mitarbeiter durch Gespräche, geben Fragen vor und bieten Problemlösungen an. Noch einen Schritt weiter geht der Versuch, nicht nur per Software auf unstrukturiertes digitales Wissen im Unternehmen zuzugreifen, sondern auch aus im Internet frei verfügbaren Daten Trends und Strategien abzuleiten.

Anzeige
Deutsche Unternehmerbörse - www.dub.de
DAS PORTAL FÜR FIRMENVERKÄUFE
– Provisionsfrei, unabhängig, neutral –
Angebote Gesuche




.

Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%