Stellen Sie sich vor, Sie kommen nach einem langen Arbeitstag nach Hause, die Wohnung ist bereits angenehm temperiert, ihre Lieblings-TV-Sendung ist eingeschaltet und am Kühlschrank blinkt ein Rezept für genau das Sandwich, auf das sie gerade Hunger haben. Nichts geschieht zufällig, alles passiert genauso, wie Sie es sich wünschen – wie von Zauberhand. Auch bei der Arbeit läuft es rund: Binnen Sekunden erhalten Sie umfangreiche Analysen, die Ihnen genau zeigen, wo sich das nächste Investment lohnt oder wie sie die Arbeitsabläufe Ihres Teams optimieren können.
Möglich macht diese Vision die intelligente Auswertung von Daten. In Teilen ist sie schon Realität und die zwei kleinen Beispiele zeigen, wie sehr Big Data unser Leben in Zukunft noch beeinflussen wird. Der Begriff Big Data meint große Datenmengen, die auf neue Weise sortiert und analysiert werden, so dass im Alltag nur noch wenige Dinge dem Zufall überlassen bleiben.
Dahinter steckt komplexe Mathematik, die jeden Nicht-Mathematiker, Nicht-Informatiker und Nicht-Statistiker zurückschrecken lässt. Doch das genaue Hinschauen wird immer wichtiger. „Nur wer versteht, wie die neue Welt funktioniert, kann sie auch mitgestalten und in ihr mitentscheiden“, ist sich der Wissenschaftsjournalist Rudi Klausnitzer sicher.
Auf mehr als 220 Seiten setzt er sich in seinem neuen Buch „Das Ende des Zufalls – Wie Big Data uns und unser Leben vorhersagbar macht“ mit dem neuen Trend auseinander. Etwa 1400 Dokumente, diverse Bücher und Gespräche mit Experten sind die Grundlage seines Werks, das die spannende Welt der Daten auf den unterschiedlichsten Eben beleuchtet: Über Anwendungsbeispiele, Probleme, Herausforderungen und neue Berufsbilder.
Ohne Zweifel: Das Auswerten von Daten hat mit der Technisierung unserer Gesellschaft einen unglaublichen Schub erhalten. Blogger Martin Weigert hat sich erst jüngst in einem lesenswerten Beitrag auf netzwertig.de ausführlich mit diesem Phänomen beschäftigt.
Gleichzeitig hat Big Data etliche Berufszweige aufgewühlt – vor allem die IT-Branche. Auf der diesjährigen Computer-Messe Cebit steht das Thema im Mittelpunkt vieler Expertengespräche. Dabei wird es zum einen, um die neuen technischen Herausforderungen der Super-Daten-Analyse, über nötige Investitionen und nicht zuletzt über Fachkräftemangel gehen. Denn obwohl Daten in und von Unternehmen schon lange ausgiebig analysiert werden, müssen die Unternehmen aktuell in allen Bereichen nachrüsten. Denn Big Data meint eine andere Dimension von Daten.
Mit dem Erfolg des Internets und vor allem der großen Verbreitung digitaler und mobiler Kommunikationsmöglichkeiten haben sich die Datenmengen nicht nur verändert, sondern sind auch gigantisch angewachsen. „90 Prozent aller heute auf der Welt existierenden Daten wurden in den letzten zwei Jahren generiert. Jeden Tag kreieren wir zweieinhalb Mal so viele Daten, wie wir 2004 im Monat im gesamten, globalen Internet bewegten“, schreibt Klausnitzer. Wir bewegen uns im Bereich der Peta-, Extra- und Zetabytes (1.000.000.000.000.000.000.000 Byte).
Was heute schon geht
Regierungen, Unternehmen und Forscher haben längst damit begonnen, die Menge an Daten neu auszuwerten und einzusetzen. Das hat eine neue Qualität. Klausnitzer schildert als Beispiel einen erbosten Vaters, der den Supermarkt um die Ecke aufsucht und dort den Geschäftsführer zur Rede stellt. Der Grund: Seine Tochter im Teenager-Alter werde mit Coupons für Babykleidung und Kinderbetten überhäuft. Ob man sie zum schwanger werden verführen wolle? Am Ende stellt sich heraus, dass die Tochter durchaus schwanger war.
Doch warum wusste der Supermarkt-Manager vor dem werdenden Großvater von der Schwangerschaft seiner Tochter? Ganz einfach: Jeder Einkauf der jungen Frau wurde gespeichert. Bei der Analyse der Daten erkannte das Marketing-Team des Unternehmens, dass sich die Schwangere genauso verhielt wie andere werdende Mütter zuvor. Die kaufen nämlich beispielsweise mehr mehr Körperlotion - aus Angst vor Schwangerschaftsstreifen.
Genauso funktioniert auch der Onlinehändler Amazon. Das eigene Kaufverhalten wird mit dem anderer Kunden verglichen, die ähnliche Artikel anklicken. So hat es der Konzern durch den geschickten Einsatz von Algorithmen geschafft, seine Kunden digital zu beraten. Auch Google speichert alle Suchanfragen und filtert so durch das sogenannte „PageRank“ die Ergebnisse aus, die der Suchende vermutlich finden möchte. Barack Obama hat sich im letzten US-Wahlkampf zum wahren Datenkönig entpuppt. Sein Team analysierte persönliche Daten potentieller Wähler in den jeweiligen Bundesstaaten und bekam so heraus, mit welcher Ansprache Obama dort wohl am besten landen würde.
Politiker, Unternehmer, Wissenschaftler – alle wollen mit Hilfe technischer Mitteln dem Zufall ein Schnippchen schlagen. „Ich kennen kein Unternehmen, in dem keine Logdaten anfallen“, sagt Stefan Edlich von der Technischen Universität Berlin. „Und schon aus den Logdaten lässt sich Gold rausholen, weil sich dadurch das Surfverhalten der User genau analysieren lässt.“ Das ist die Grundlage auf der Amazon sein Empfehlungswesen aufgebaut hat.
In einem Punkt scheinen sich die Experten einig zu sein: Wer die Zukunft mitbestimmen will, muss heute in den Bereich Big Data investieren. Auf Intuition, Bauchgefühl oder auch mal den Zufall mag sich heute kaum noch jemand verlassen. „Je früher man investiert, desto wahrscheinlicher, dass man mit angreifen kann“, sagt Stefan Edlich von der TU Berlin. Wer sich der modernen Datenanalyse im Zeichen von Big Data widmen möchte, steht allerdings vor großen Herausforderungen. Beispielsweise der Quantität der zu analysierenden Daten.
Die neue Quantität und Qualität der Daten
Buchautor Klausnitzer: „Das Riesenausmaß der Daten erlaubt uns zu sagen, ,Korrelation reicht‘. Wir können Daten analysieren, ohne vorher ein Modell von dem zu haben, was wir zeigen können. Wir werfen die Daten in die großen Analysemaschinen und statistische Algorithmen finden, wo die Wissenschaft bisher keine erkennen konnte.“
Doch woher kommen diese Datenberge, die am Ende dafür sorgen, dass Zufälle in unserem Alltag eliminiert werden? Da sind zum einen die schon erwähnten Logdaten. Dann gibt es die normalen Daten, die jeder einzelne Bürger bei Behörden oder auch Unternehmen hinterlässt. Dazu kommen jene Daten, die in sozialen Netzwerken geteilt werden – und die dadurch entstehenden Verbindungen zwischen Personen, die sich ebenfalls nutzen lassen. Smarte Stromnetze tauschen Informationen aus. Autos sind mit Elektrotechnik vollgestopft, die nichts anderes macht, als Sensordaten von A nach B zu transferieren.
Relativ neu ist der Trend des Selbstvermessens, der wohl der vorläufige Gipfel der freiwilligen Datenabgabe im Netz ist. Seinen Ursprung hat diese sogenannte Quantified-Self-Bewegung zum Speichern der eigenen Körper-Daten im Bereich der Gesundheit. Erfasst werden die privatesten Informationen: Wie lange habe ich geschlafen, wie viel Sex hatte ich, wie viel habe ich mich bewegt, wie ist mein Blutdruck? Sogar der Urin lässt sich dank neuer App kontrollieren. Dabei helfen meistens Applikationen am Smartphone, die alle Informationen genau speichern. Vor allem im sportlichen Bereich werden die Ergebnisse sogar geteilt und mit denen von Freunden verglichen.
"Ganz böse Mathematik"
In Zeiten leerer Gesundheitskassen, fördern Regierungen und Behörden den Trend, denn der genaue Blick auf den eigenen Körper kann vielleicht eines Tages dafür sorgen, dass Symptome frühzeitiger erkannt und sinnvolle Behandlungen rechtzeitig eingesetzt werden können. Wenn es um die eigene Gesundheit geht, kann das neue Sammeln und Analysieren von Daten also quasi als Arzt-Ersatz fungieren – so die Hoffnung vieler, die sich daran beteiligen.
Viel mehr als Tabellen und keine Fachkompetenz
Diese Fülle an Quellen und Formen hebt die Daten von heute nicht nur quantitativ auf ein neues Niveau. Wir haben es auch qualitativ mit ganz anderen Informationen zu tun. Es reicht nicht die vernetzten Informationen einfach in Reihen und Kolumnen zu packen. Die unstrukturierten Daten müssen bereinigt werden. Bilder, Musik, Kontaktnetze, Blutbilder – all das muss in Zahlen umgewandelt werden, um es mathematisch nutzbar zu machen.
„Das ist ganz böse Mathematik“, sagt Stefan Edlich von der TU Berlin. „Es muss eine technische Architektur um die Daten herum aufgebaut werden“, sagt er. Die Kunst sei es, den richtigen Algorithmus zu entdecken, der dafür sorgt, dass das gewünschte Ergebnis ausgespuckt wird. Um die richtigen Rechenformeln zu finden, schreiben Unternehmen riesige Wettbewerbe aus. Berühmt sind die Aktionen des Startups Kaggle, dass sich auf diesem Weg das Wissen der Netzgemeinde zunutze machte.
Die wichtigsten IT-Trends
So wolkig wie der Name bleibt für viele nach wie die Bedeutung des Begriffs Cloud Computing - und dabei handelt es sich inzwischen unbestreitbar um einen seit Jahren anhaltenden Trend. Dabei ist das Grundprinzip recht einfach: Aufgrund der großen Netzwerk-Bandbreiten und der flächendeckenden Verfügbarkeit des Internets werden Computerressourcen zentralisiert und nur bei Bedarf über das Netzwerk - sei es das Internet (Public Cloud) oder das firmeninterne Netz (Private Cloud) - abgerufen. Das hilft Kosten und Energie zu sparen, weil Computerressourcen so effektiver verwaltet werden können.
Die Fortschritte in der Informationstechnologie und ihre rasante Verbreitung haben ein Phänomen nach sich gezogen, mit der die IT Schwierigkeiten hat, mitzuhalten: Die Menge an verfügbaren Daten steigt rasant an. Ein großer Teil dieser Daten wird dabei ohne menschliches Zutun maschinell erzeugt - beispielsweise allein durch die Protokollierung von Software und Zugriffen.
Als Big Data wird in der Informatik die Tatsache bezeichnet, dass derart große Datenmengen mit Standard-Datenbanken und -Werkzeugen nicht mehr zufriedenstellend verarbeitet werden können. Dabei lohnt es sich für Unternehmen wie Wissenschaft riesige Datenmengen zu verarbeiten - sei es in der Marktforschung (zum Beispiel schnelle Verarbeitung von Web-Statistiken) oder im Finanzsektor, wo die systematische Untersuchung der Transaktionen Unregelmäßigkeiten zutage fördern kann.
Datenbank-Systeme, die Big Data verarbeiten können - das heißt Datenbanken, die Daten im Bereich von Terabytes, Zetabytes, Exabytes und gar Zettabytes verarbeiten - setzen massiv auf eine parallele Verarbeitung der Anfragen. So werden Hunderte oder gar Tausende Rechner zu einem Datenbank-Grid zusammengeschlossen. So gut wie alle großen Technologie-Konzerne wie IBM, Intel, HP, Oracle, Dell oder EMC haben Lösungen für sehr große Datenmengen im Angebot.
Freie Software (auch Open-Source-Software genannt) und offene standardisierte Schnittstellen sind weiter auf dem Vormarsch - sehr zum Nutzen aller, die von IT-Infrastruktur abhängig sind. Denn mit offenen Technologien vermeiden Unternehmen den sogenannten Lock-in-Effekt: Sie sind an einen einzigen Anbieter und seine eigene Technologie gebunden, sondern können bei offenen Schnittstellen und Open-Source-Software samt Daten und Anwendungen auch den Anbieter wechseln.
Die Ursprünge der Idee Freier Software liegen in den Anfängen der Computerrevolution: Die vor allem aus dem Hippie-Umfeld stammenden Mitglieder des Homebrew Computer Clubs im Silicon Valley tauschten Wissen und Software wie selbstverständlich untereinander aus. Als Firmen wie Microsoft in den 1980er Jahren aus der Software ein Geschäft machten, rief der Programmierer Richard Stallman das GNU-Projekt zum Bau eines freien Betriebssystems und die erste explizit freie Softwarelizenz ins Leben: die GNU General Public License.
Heute bilden die Tools des GNU-Projekts zusammen mit anderer Software und dem Linux-Kernel die Basis der Linux-Distributionen wie Red Hat, Open-Suse, Ubuntu oder Debian sowie von Googles mobilem Betriebssystem Android. Linux in seinen verschiedenen Varianten ist das auf heute auf Servern überwiegend eingesetzte Betriebssystem. Zahlreiche Open-Source-Lösungen wie die Datenbanken MySQL oder PostgreSQL haben die Unternehmen erobert.
Das Zusammenschließen von Computern via schneller Netzwerk-Technik zu einem einzigen großen virtuellen Supercomputer (Cluster) wird als Grid-Computing bezeichnet. Dabei erscheint das Rechen-Netzwerk von außen als ein einziger Computer. Die einzelnen Teile des Grid-Computers sind dabei meist redundant ausgelegt. Das bedeutet: Fällt ein einzelner Rechner aus dem Gesamtverbund aus, hat das für die grundsätzliche Funktionalität des Gesamtsystems keine Auswirkungen.
Beim Grid-Computing werden zwei Ziele verfolgt: Einerseits ermöglicht das Zusammenschließen vieler Rechner eine hohe Arbeitsgeschwindigkeit des Gesamtsystems - und das im Vergleich zu anderen Supercomputer-Konzepten zu niedrigen Kosten. Voraussetzung ist dafür allerdings, dass die zu berechnenden Aufgaben stark parallelisierbar sind. Das heißt im Klartext: Die Berechnung eines Teils der Aufgabe, die der Computer lösen soll, darf nicht von einer anderen Berechnung abhängen. Nur so kann die Berechnung auf viele verschiedene Prozessoren oder Computer aufgeteilt werden.
Zweitens ermöglicht der Aufbau eines Grids mit Redundanz eine besonders ausfallsichere Server-Infrastruktur, selbst wenn preisgünstige Standard-Hardware verwendet wird, weil der Ausfall einzelner Rechner nicht die Funktionalität des Gesamt-Systems gefährdet.
Auch bei den Servern geben längst Konsumenten-Produkte in den Betrieben den Ton an, wenn auch weniger sichtbar als bei iPhone und iPad. Bis zur Jahrhundertwende herrschten in Unternehmen noch spezialisierte Server vor, auf denen Unix-Systeme wie mit Namen wie Solaris, HP-UX oder Irix liefen. Die Massenanfertigung von PCs und Konsumenten, die immer leistungsfähigere Hardware nachfragten, führten aber zu einer Verbilligung schneller Hardware.
Statt teure, besonders zuverlässige Hardware, nutzen Unternehmen heute als Server meist Computer mit x86er-Prozessoren von Intel oder AMD wie sie auch in jedem Büro oder Heim-Arbeitsplatz stehen. Meist wird darauf das Open-Source-Betriebssystem Linux oder Microsofts Windows eingesetzt. Die Unternehmen bleiben bei der Betriebssystem-Software flexibel und sind nicht auf teure Spezial-Hardware angewiesen, auf der nur ein bestimmtes herstellerspezifisches Unix-System läuft.
Die Virtualisierung von Servern ist bereits seit vielen Jahren ein anhaltender Trend, auf den heute kaum ein Unternehmen bei der Nutzung seiner IT verzichten möchte. Virtualisierung erlaubt eine deutlich flexiblere Nutzung der Hardware: Ein Server wird dabei aufgeteilt in beliebig viele virtuelle Server. Das ist eine wichtige technologische Voraussetzung für das Cloud Computing – doch nicht dasselbe. Beim Cloud Computing geht es um den gesamten Prozess des flexiblen Bereitstellens von Rechenressourcen, Daten und Anwendungen über eine standardisierte Schnittstelle. Die Virtualisierung von Server-Hardware schafft also technisch eine wichtige Voraussetzung für Cloud Computing.
Neue Cloud-basierte Business-Anwendungen benötigen häufig besonders schnelle Datenbanken - beispielsweise, wenn Mitarbeiter auf Unternehmensdaten per Smartphone oder Tablet zugreifen. Auf der Seite der Server lassen sich Datenbanken durch sogenanntes In-Memory-Computing deutlich beschleunigen. Was hinter dem Begriff steckt ist eigentlich ganz einfach: Die Rechner speichern die Daten nicht auf einer langsamen Festplatte, sondern im vielfach schnelleren Arbeitsspeicher - eben dem Memory.
Nachteilig daran ist, dass Arbeitsspeicher nicht nur um ein Vielfaches schneller ist als eine Festplatte, sondern die gleiche Speichermenge auch deutlich mehr kostet. Häufig wird bei In-Memory-Datenbanken vom Grid-Computing gebrauch gemacht, bei dem viele einzelne zu einem Rechner-Verbund zusammengeschlossen werden.
In-Memory-Computing gilt als Markt mit großen Wachstumschancen. Die großen Anbieter im Markt der Datenbank haben sich allesamt Know-how auf dem Gebiet eingekauft. So übernahm der deutsche Anbieter SAP für einen hohen Milliarden-Dollar-Betrag den Anbieter Business Objects. Orcale kaufte sich den In-Memory-Spezialisten Hyperion und IBM übernahm den kanadischen Anbieter Cognos.
"Bring your own device“ heißt es in immer mehr Unternehmen. Laut Consumerization Report 2011 erlauben bereits 59 Prozent der deutschen Firmen ihren Arbeitnehmern, private IT-Geräte im Unternehmen zu nutzen, in den USA sind es bereits 75 Prozent. Mit gutem Grund: Die Mitarbeiter nutzen auf der Arbeit schlicht die Geräte, mit denen sie sich selbst am besten auskennen - und die sie privat am meisten schätzen. Davon profitieren vor allem das iPhone und iPad von Apple sowie die Smartphones mit Googles Android-System.
Für die IT-Branche bedeutet die Hinwendung zu den Konsumenten einen tiefgreifenden Wechsel ihrer Strategie. Reichte es früher aus, die IT-Einkäufer von den eigenen Produkten zu überzeugen, die immer schneller und effizienter wurden, müssen nun diejenigen überzeugt werden, die die Geräte auch tagtäglich einsetzen.
Und da zählen plötzlich ganz andere, weniger fassbare Werte. Wird man mich bewundern? Wird mich das Produkt erstaunen, überraschen? Denn auch Arbeit darf Freude machen. Zudem gibt es neue Herausforderungen für die Sicherheitsexperten der IT-Abteilung. Schon gibt es erste Software-Lösungen, die mittels Virtualisierung Privates und Geschäftliches auf den Smartphones trennt.
Wie können Geschäftsabläufe profitabler werden, Kosten gesenkt und Risiken minimiert werden? Unter dem Schlagwort Business Intelligence werden alle Versuche gefasst, die solche Fragen mit Hilfe der elektronischen Verarbeitung von Daten beantworten wollen. Das englische Wort „Intelligence“ ist dabei im Sinne vom Sammeln und Aufbereiten von Daten gemeint. Der Begriff Business Intelligence wurde bereits in den 1990er Jahren populär.
Doch insbesondere das Cloud Computing und die Verbreitung Internet-fähiger mobiler Geräte verschaffen Managern neue Möglichkeiten. Die Firmenlenker können nun auch mobil via Smartphone oder Tablet jederzeit auf Geschäftszahlen und Software-gestützte Analysen zugreifen. Komplexere Business-Intelligence-Anwendungen können gleich Prognosen und Analysen auf Basis von mobil eingegebenen Daten erstellen. Laut den Analysten von Gartner werden in einigen Jahren ein Drittel aller Analysen auf Unternehmensdatenbanken von einem Smartphone oder Tablet aufgerufen, schreibt das Computermagazin iX.
Die Idee dahinter erklärte Jeremy Howard, Chefwissenschaftler von Kaggle, im vergangenen Sommer mit den Worten: „Wettbewerbe bringen Menschen aus verschiedenen Bereichen mit ganz unterschiedlichen Fragestellungen zusammen. So beschäftigen sich Menschen mit Sachen, die sie sich nie angesehen hätten.“ Diese stärkere vernetzte Zusammenarbeit, der richtige Algorithmus und die Korrelation der Daten sind also ein Muss, damit das Big-Data-Vorhersage-Modell am Ende funktioniert.“ Denn der Algorithmus ist laut Experten der Schlüssel zum Erfolg, auch wenn das abgedroschen klingen mag.
Jürgen Boiselle vom Datenexperten Teradata formuliert es so: „Die Rohdaten sind wie ein Diamant, der freigeschliffen werden muss.“ Der Spezialist gehört ebenfalls zu dem Kreis, der im Zuge der Cebit zu dem Thema Big Data referieren wird. Sein Thema: Die Kombination aus Big Data und Marketing, wovon er den Unternehmen hohe Umsätze verspricht. Und genau zu diesem Zweck würden die meisten Big-Data-Anwendungen aktuell auch genutzt. Er, wie fast jeder in der Branche, schreit im Hinblick auf den Fachkräftemangel in der IT-Branche auf. „Wir brauchen Leute, die das technische Fachwissen, Know-how in Bezug auf das Unternehmen und die Kreativität für mögliche Anwendungsfelder mitbringen“, sagt er.
Wir sind vorhersehbar
Fasst man all diese Trends, Entwicklungen und Stimmungen zusammen, bleibt ein Gefühl zurück: Big Data ist keine Eintagsfliege, es ist ein Trend, der sich massiv weiter entwickeln wird. Klausnitzer untermauerte diese These mit den Forschungsergebnissen des Physikers Alpert-László Barabási. Er sagt, „dass die Analyse der elektronischen Datenspuren unsers digitalen Lebenstils ein klares Bild ergeben: Viele Muster im menschlichen Verhalten, von denen wir bis jetzt der Meinung waren, dass sie zufällig seien, folgen vorhersehbaren Gesetzen.“ Was den Physiker selbst am meisten erstaunte war, dass seine Versuchsreihe eine Vorhersehbarkeit von mindestens 80 Prozent ergab. Es scheint so zu sein, dass mit dem Grad unseres Vernetztseins auch die Vorhersagbarkeit unseres Handelns genauer zu bestimmen ist.
Wenn man sich nun überlegt, in welche Richtung sich unsere Vernetzung im Alltag mit Entwicklungen wie Google Glass, Smart Grids oder smarten Autos noch weiter steigern lässt, scheint es auf einmal alles andere als unwahrscheinlich, dass sich mit der puren Auswertung von Daten, Zufälle verringern lassen.