Big Data Wer die Zahlen hat, hat die Macht

Ein Klick bei Facebook verrät Ihre Intelligenz, Google kennt Ihre sexuelle Orientierung. Das kann verhängnisvoll sein. Christian Rudders Buch "Inside Big Data" gibt einen Einblick in die Welt der Zahlen und Algorithmen.

  • Teilen per:
  • Teilen per:
Welche Potenziale und Herausforderungen Big Data birgt
Big Data optimiert die Entwicklung neuer Geschäftsmodelle, Produktideen und Dienstleistungen Quelle: Fotolia
Big Data schafft Abhilfe bei noch nicht ausreichenden datenbasierten Analysemethoden Quelle: Fotolia
Big Data verbessert die Steuerung operativer Prozesse und optimiert strategische Entscheidungen Quelle: Fotolia
Die größte Herausforderungen liegen im Datenschutz und in der Datensicherheit Quelle: dpa
Das größte Potential liegt in der Mobilität und Industrie Quelle: dpa
Die größten Herausforderungen liegen im Gesundheitsbereich Quelle: dpa/dpaweb
Big-Data-Investitionen fließen vor allem in die Aus- und Weiterbildung des Personals Quelle: dpa/dpaweb

Christian Rudders Visitenkarte könnte eine der außergewöhnlichsten der Welt sein: Zahlenfreak und Liebesengel müsste dort eigentlich stehen. Denn der Mitgründer der amerikanischen Onlineplattform Okcupid, vergleichbar mit deutschen Partnerbörsen wie Parship oder Friendscout24, hat eigentlich Mathematik an der Eliteuniversität Harvard studiert. Rudder mag Zahlen. Doch noch mehr liebt er es, große Datenmengen zu lesen, auszuwerten und zu verstehen. Vor allem, wenn es um zwischenmenschliche Beziehungen geht.

Was das Internet über Sie weiß

Warum hat sich das eine Pärchen gefunden und das andere nicht? Wer bekommt die meisten Anfragen kontaktfreudiger Singles? Doch auch wer nicht auf einen solchen digitalen Verkuppler setzt, hinterlässt Spuren im Netz, die v erfasst und ausgewertet werden. Laut einer noch unveröffentlichten Studie des Browser-Herstellers Cliq verfolgt Google zum Beispiel mehr als 60 Prozent aller Seitenaufrufe. Entwickler untersuchten dafür anhand von 200.000 deutschen Nutzern des Browsers Firefox, ob sie Daten mittels spezieller Tracking-Programme nach außen leiten.

Konkrete Big-Data-Beispiele

Bei mehr als sechs von zehn Webseiten-Aufrufen in Deutschland wird Google über den Besuch informiert. Facebook ist immerhin bei zwei von zehn Aufrufen dabei. Christian Rudder würde das kaum überraschen. Angereichert mit Daten aus den sozialen Netzwerken, hat er ein Buch darüber geschrieben, das in diesen Tagen auf Deutsch erscheint. Darin zeigt er, was nicht nur seine eigene Plattform, sondern auch Facebook, Twitter oder Google bereits jetzt über unsere Beziehungen, Freundschaften, sexuelle Orientierung, sprich: über unser Leben, wissen.

Ein Auszug aus seinem Buch.

Sie denken, ein Facebook-Like ist harmlos? Hoffentlich werden Sie nicht arbeitslos.

"Im Jahr 2009 führte Facebook den „Gefällt mir“-Button ein und veränderte damit die Art, wie Internetnutzer Inhalte gemeinsam wahrnehmen. Facebook fügte einem bereits sehr robusten sozialen Netzwerk noch das Element der Kuration hinzu – jeder, der etwas auf Facebook postete, konnte sich jetzt ganz einfach eine positive Rückmeldung des Publikums in Form dieses kleinen ikonischen hochgereckten Daumens abholen. Dadurch entstand eine neue, überall akzeptierte Mikrowährung – ich zahle Ihnen vielleicht nichts für Ihren Aufsatz, Ihren Song oder was auch immer, aber ich gebe Ihnen ein winziges Stückchen Anerkennung und teile Ihr Werk mit meinen Freunden. Im Mai 2013 verzeichnete Facebook 4,5 Milliarden „Gefällt mir“ pro Tag und im September desselben Jahres eine Gesamtzahl von 1,1 Billionen. Eine britische Gruppe hat 2012 dokumentiert, dass sie folgende Eigenschaften eines Nutzers nur aus seinem Einsatz des „Gefällt mir“-Buttons ableiten kann:

Eigenschaft des NutzersTrefferquote in Prozent
homo- oder heterosexuell (Männer)88 Prozent
homo- oder heterosexuell (Frauen)75 Prozent
Weiße(r) oder Schwarze(r)95 Prozent
Mann oder Frau93 Prozent
Demokrat oder Republikaner85 Prozent
Drogenkonsument65 Prozent
Scheidungskind60 Prozent

Das Muster der „Gefällt mir“-Klicks taugt sogar als Ersatz für einen Intelligenztest – dieser Algorithmus kann die IQ-Punkte, die man in einem separaten Test erzielen würde, ziemlich zuverlässig voraussagen. So viel kann man schon aus drei Jahren angesammelter Daten von Menschen ableiten, die Facebook -Nutzer geworden sind, nachdem sie zuvor Jahrzehnte ohne dieses Netzwerk ausgekommen waren. Was wird dann erst alles möglich sein, wenn man Daten zur Verfügung hat, die bereits in der Kindheit des Nutzers einsetzen?

Die dunkle Seite der Längsschnittdaten

Das ist die dunkle Seite der Längsschnittdaten, die mich ansonsten so begeistern.

Intelligenztests wie der nach Myers-Briggs oder der Stanford-Binet-Test werden schon lange von Arbeitgebern, Schulen und dem Militär eingesetzt, um Bewerber zu beurteilen. Man setzt sich hin, gibt sein Bestes, und wird entsprechend eingeordnet.

Und meistens macht man ja freiwillig mit. Doch immer öfter unterzieht man sich unfreiwillig solchen Tests, indem man seinen Alltag lebt und jedem Interessenten die Ergebnisse zur Verfügung stehen – mit entsprechenden Folgen für den Betroffenen.

Das sind die Typen des Myers-Briggs-Typenindikators

Gefährlich wird es, wenn man dem Arbeitgeber schon im Voraus seinen IQ preisgegeben hat, ohne es zu wissen und zu wollen. Wenn potenzielle Arbeitgeber tatsächlich anfangen, mit Algorithmen herauszufinden, wie intelligent Sie sind oder ob Sie Drogen nehmen, bleibt Ihnen nur noch, das System zu manipulieren.

Um die Maschine zu schlagen, müssen Sie also wie eine Maschine handeln, was bedeutet, dass die Maschine Sie geschlagen hat. Und auch das funktioniert ja nur, wenn Sie erraten können, wie Sie sich verhalten müssen, um einen guten Eindruck zu machen.

Was Big Data im Personalwesen kann

Es heißt zum Beispiel in dem betreffenden Forschungsbericht, eines der stärksten Anzeichen hoher Intelligenz sei, wenn man Curly Fries, also gewellte Pommes frites, mit „Gefällt mir“ anklicke. Wer soll denn auf so was kommen?

Sie denken, Ihre sexuelle Orientierung ist Privatsache? Schade, Google weiß es längst.

Vor ein paar Jahren entwickelten einige Studenten am Massachusetts Institute of Technology als Seminarprojekt für Facebook ein „Gaydar“, also ein „Schwulenradar“. Das Programm lernte schnell zu erkennen, dass ein bestimmtes Verhältnis homo- und heterosexueller Freunde im digitalen Bekanntenkreis ein belastbarer Indikator der sexuellen Orientierung war; über den Betreffenden selbst brauchte man gar nichts weiter zu wissen.

Nachdem die Studenten das Programm anhand der Profile von Facebook-Nutzern mit bekannter sexueller Orientierung trainiert hatten, konnte es in 78 Prozent der Fälle zutreffend voraussagen, ob ein Nutzer homosexuell war, einfach anhand seines sozialen Graphen. Das ist eine sehr hohe Quote gegenüber derjenigen, die zu erwarten wäre, wenn das Programm nur blind herumriete. Die läge bei ... hmmm also, vielleicht ... zehn Prozent? Zwei Prozent? Acht?

Und darum geht es auch im Grunde – teilweise wurde dieses Programm auch deswegen geschrieben, weil niemand weiß, wie viele Schwule es da draußen eigentlich gibt. Inzwischen können wir auf anderem Weg einen genaueren Wert bekommen, und das ist durchaus wichtig, denn, wie es in einer Studie geradeheraus heißt, „diese Arbeit kann als politische Richtlinie dienen“.

Sämtliche Präsidentschaftswahlen seit 1952 bis auf vier Stück hätten dem Unterlegenen den Sieg beschert, wenn sich nur fünf Prozent der Wähler anders entschieden hätten, also ist die Frage, ob eine bestimmte Gruppe ein, fünf oder zehn Prozent der Bevölkerung stellt, äußerst wichtig für die Politik.

Nun ist es für die Rechte der Homosexuellen unerheblich, wie viele sie sind – selbst wenn es nur einen Schwulen oder eine Lesbe im ganzen Land gäbe, verdiente er oder sie die gleichen Rechte wie alle anderen –, aber für die Berücksichtigung bei politischen Entscheidungen ist die zahlenmäßige Stärke einer Interessengruppe, das ist politische Realität, sehr wohl wichtig. Bei einer historisch so stigmatisierten Gruppe ist eine große Anzahl auch eine Unterstützung für den Einzelnen, dessen Stimme nicht gehört wird. Die Zahl sagt: Ich bin hier.

Eine Welt der Schreibenden

Homosexuelle sind eine ungewöhnliche Minderheit in der Hinsicht, dass sie zumindest oberflächlich heterosexuell wirken können, wenn sie möchten. Das ist natürlich eine schmerzliche Entscheidung zwischen Selbstschutz und Selbstverwirklichung, wie sie wenige andere Menschen treffen müssen. Aber „the closet“, wie man in den USA sagt, der „Wandschrank“ als symbolisches Versteck, kostet nicht nur den Einzelnen, sondern auch unsere Gesellschaft einen hohen Preis, weil die Heimlichtuerei überkommene Einstellungen am Leben erhält – und Vorurteile, die man nicht herausfordert, bleiben immer am Leben.

Intoleranz zwingt die Betroffenen zu diesem Versteckspiel und schafft ihre eigene zynische Logik: Wenn ein großer Anteil einer Gruppe sich tarnt, werden die restlichen umso eher an den Rand gedrängt. Sichtbarkeit dagegen schafft Akzeptanz.

Was die Daten angeht, so zeigt Google Trends seine Fähigkeit, das herauszuholen, was die Menschen lieber verschweigen. Laut des ehemaligen Google-Analytikers Stephens-Davidowitz zielen fünf Prozent aller Google-Suchanfragen nach Nacktfotos in den USA auf „Abbildungen männlicher Homosexueller“ – damit meint er direkte Suchen nach Schwulenpornos und indirekte wie Suchen nach „rockettube“, einem beliebten Internetportal für Homosexuelle. Dieses Verhältnis von eins zu 20 ist in allen Bundesstaaten konstant, was bedeutet, dass gleichgeschlechtliche Neigungen unabhängig vom politischen und religiösen Milieu eines Mannes sind.

Twitter macht uns alle zu 140-Zeichen-Sprachkrüppeln? Das Gegenteil ist der Fall

Trotz allen Händeringens über die Zerstörung unserer Kultur durch die Technik glaube ich, dass sogar der schreibfaulste Teenager im Jahr 2014 schon mehr geschrieben hat als ich oder meine Klassenkameraden in den frühen 1990er-Jahren. Die einzigen schriftlichen Mitteilungen von mir waren ein paar steife Grußkarten und vielleicht ein wirklicher persönlicher Brief pro Jahr. Ein Oberschüler von heute haut jeden Vormittag mehr raus.

Zahlen und Fakten zu Twitter

Man kann am Internet vieles bedauerlich finden, aber etwas macht es mir lieb und teuer: Es ist eine Welt der Schreibenden. Schon einfache Analysen zeigen, dass die in Twitter-Nachrichten aufgekommene Sprachform keineswegs verarmt ist. Ich habe die gebräuchlichsten Wörter auf Twitter mit den häufigsten des Oxford English Corpus (OEC) verglichen, einer fast 2,5 Milliarden Wörter umfassenden Textsammlung des modernen Sprachgebrauchs auf allen Gebieten – Reportage, Romane, Blogs, Zeitungen, alles eben. Das OEC ist die kanonische Bestandsaufnahme des Wortschatzes im Gegenwartsenglischen. Von all den Zehntausenden Wörtern, die in Gebrauch sind, habe ich nur die häufigsten 100 aufgenommen, was auf den ersten Blick ein bisschen dünn wirkt, aber diese 100 Wörter machen bereits die Hälfte aller geschriebenen Texte aus (sowohl bei Twitter wie im OEC).

Werkzeuge sozialer Verbundenheit

Am auffälligsten in der Twitter-Liste ist dabei, dass es trotz allen Grollens der abgehärmten Sprachhüter in der Festung Englisch nur zwei „Netspeak“-Wörter darin gibt, also internettypische Verkürzungen – nämlich rt für „retweet“ und u für „you“. Man sollte doch meinen, dass Verkürzungen, ob grammatisch korrekt oder nicht, in einem auf 140 Zeichen beschränkten Format dominieren, aber die Nutzer scheinen die Begrenzung eher zu umgehen, als stur draufloszuschreiben. Zweitens fällt auf, dass die durchschnittliche Wortlänge in der Twitter-Liste größer als die im OEC ist – 4,3 gegen 3,4 Buchstaben.

Und schließlich sollte man auf den Inhalt der Twitter-Worthitliste achten. Ich habe die Wörter markiert, die nur hier auftreten, um den Vergleich zu erleichtern. Während die OEC-Liste ziemlich banal ausfällt – lauter Partikeln und Hilfswörter, handwerklich notwendig, um dann und wann ein Nomen oder Verb einzuflechten –, gibt es bei Twitter keinen Platz für Füllwörter, jedes einzelne ist wichtig. Also erreichen kraftvolle Vertreter wie love (lieben), happy (froh), life (Leben), today (heute), best (am besten), never (nie), home (zu Hause) die Liste der 100 häufigsten Wörter.

Das steht im Kleingedruckten bei Amazon, Facebook und Co.
Amazon Quelle: REUTERS
Apple Quelle: REUTERS
Deezer Quelle: dpa
Ebay Quelle: REUTERS
Facebook Quelle: dpa
Google Quelle: dpa
Microsoft Quelle: dpa

Twitter verbessert womöglich sogar den Schreibstil seiner Nutzer, weil es sie zwingt, mehr Bedeutung aus weniger Buchstaben zu pressen – eine Verkörperung von William Strunks berühmtem Ausspruch „Lass überflüssige Wörter weg“. Wer tweetet, muss sich zwangsläufig kurz fassen, und ungewollt wird so auch eine größere Wortlänge gefordert: Längere Wörter bedeuten weniger Wörter und damit auch weniger Leerzeichen, also bessere Platzausnutzung. Die Gedanken auf Twitter mögen zwar verkürzt ausgedrückt sein, aber es gibt keinen Hinweis darauf, dass sie verflacht sind.

Verhängnisvolle Posts, die den Job kosten können
Ein Auktionator bei einer Kunstauktion mit dem Hammer den Zuschlag. Quelle: dpa
Wer seinen Ausbilder als Menschenschinder und Ausbeuter bezeichnet, fliegt Quelle: Fotolia
Hamburger Band Deichkind Quelle: dpa
„Ab zum Arzt und dann Koffer packen“Urlaub auf Rezept? Eine Auszubildende aus Nordrhein-Westfalen schrieb bei Facebook: "Ab zum Arzt und dann Koffer packen." Das las der Ausbilder und fand es gar nicht komisch. Er kündigte der Auszubildenden fristlos. Sie zog vor Gericht. Das Argument der Verteidigung lautete übrigens, dass die Auszubildende wegen ihrer Hautkrankheit Neurodermitis Urlaub bräuchte. Spätestens als die aber sagte: "Ich hätte eh zum 31. Mai gekündigt" war klar, woher der Wind weht. Beide Parteien einigten sich auf eine Zahlung von 150 Euro ausstehenden Lohn und ein gutes Zeugnis. Quelle: dapd
Facebook-Nutzung trotz Kopfschmerzen Quelle: Fotolia
"Speckrollen" und "Klugscheißer" Quelle: AP
Eine Lehrerin bezeichnete sich als "die Aufseherin von künftigen Kriminellen" Quelle: dpa

Einem Forscherteam an der Arizona State University gelang es, über Häufigkeit und Länge der Wörter hinaus auch Tonfall und Stil der Texte zu bewerten, und es ergab sich Überraschendes: Erstens verändert Twitter den gewöhnlichen Schreibstil eines Nutzers nicht. Eines von vielen Beispielen ist, dass Nutzer, die „you“ in E-Mails und SMS als „u“ abkürzen, das auch bei Twitter tun, während diejenigen, die bei der korrekten Schreibweise bleiben, sie auch in Tweets ausschreiben. Der Stil ändert sich also nicht mit dem Medium. Auch die lexikalische Dichte von Tweets ist bereits linguistisch analysiert worden, also der Anteil an bedeutungstragenden Wörtern wie Verben und Nomen, und es ergab sich, dass er nicht nur höher als in E-Mails lag, sondern an das US-Debattenmagazin „Slate“ heranreichte, das als Kontrollmedium diente.

All das führt zu einer Schlussfolgerung: Twitter hat unseren schriftlichen Ausdruck weniger verändert, sondern viel mehr einem beschränkten Raum angepasst. Die Daten zeigen keinen Kahlschlag aus Baumstümpfen, sondern einen Wald von Bonsaibäumen. Wie auch immer Twitter die Sprache verändert – das ist nichts gegen das Ausmaß, in dem es die Sprachforschung verändert. Twitter zeigt uns Wörter nicht nur als Bausteine von Gedanken, sondern als Werkzeuge sozialer Verbundenheit, und das ist in der Tat der Zweck der Sprache, seit die Menschheit über die Steppe der Serengeti zu schlurfen begann."

© Handelsblatt GmbH – Alle Rechte vorbehalten. Nutzungsrechte erwerben?
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%