Studie zu Datenqualität: Das große Datenchaos deutscher Unternehmen

Big Data ist der neue Megahype, der Unternehmen einen enormen Wettbewerbsvorteil verschaffen soll. Wer seine Kunden und seine Unternehmensabläufe kennt, kann gezielt Werbung schalten oder Transportwege optimieren – gar in die Zukunft schauen. Barack Obama hat im Zuge des US-Wahlkampfs im vergangenen Jahr auf politischer Ebene vorgemacht, welche Macht in den Daten steckt. Und Wissenschaftsjournalist Rudi Klausnitzer widmet dem Thema ein ganzes Buch unter dem Titel „Das Ende des Zufalls“.

Doch so vielversprechend der große Hype klingt, er schwebt eine Ebene über der Realität deutscher Unternehmen. Denn die hier erfassten Stammdaten sind qualitativ noch so schlecht, dass sie für eine riesige Datenanalyse im Sinne einer Big Data-Auswertung gar nicht geeignet sind. Das hat eine Studie der Unternehmensberatung „Camelot Management Consultants“ ergeben, die der WirtschaftsWoche Online vorliegt (ab Montag hier abrufbar). Befragt wurden 56 Entscheider aus global agierenden Unternehmen aller Branchen und Unternehmensgrößen. Etwa 60 Prozent der Befragten sehen danach einen enormen Nachholbedarf bei der Messbarkeit und Kontrolle der Datenqualität. Und nicht einmal ein Zehntel nutzt ein geeignetes System zur Messung, Analyse und Kontrolle von Datenqualität.

Die wichtigsten IT-Trends

Cloud Computing

So wolkig wie der Name bleibt für viele nach wie die Bedeutung des Begriffs Cloud Computing - und dabei handelt es sich inzwischen unbestreitbar um einen seit Jahren anhaltenden Trend. Dabei ist das Grundprinzip recht einfach: Aufgrund der großen Netzwerk-Bandbreiten und der flächendeckenden Verfügbarkeit des Internets werden Computerressourcen zentralisiert und nur bei Bedarf über das Netzwerk - sei es das Internet (Public Cloud) oder das firmeninterne Netz (Private Cloud) - abgerufen. Das hilft Kosten und Energie zu sparen, weil Computerressourcen so effektiver verwaltet werden können.

Big Data

Die Fortschritte in der Informationstechnologie und ihre rasante Verbreitung haben ein Phänomen nach sich gezogen, mit der die IT Schwierigkeiten hat, mitzuhalten: Die Menge an verfügbaren Daten steigt rasant an. Ein großer Teil dieser Daten wird dabei ohne menschliches Zutun maschinell erzeugt - beispielsweise allein durch die Protokollierung von Software und Zugriffen.

Als Big Data wird in der Informatik die Tatsache bezeichnet, dass derart große Datenmengen mit Standard-Datenbanken und -Werkzeugen nicht mehr zufriedenstellend verarbeitet werden können. Dabei lohnt es sich für Unternehmen wie Wissenschaft riesige Datenmengen zu verarbeiten - sei es in der Marktforschung (zum Beispiel schnelle Verarbeitung von Web-Statistiken) oder im Finanzsektor, wo die systematische Untersuchung der Transaktionen Unregelmäßigkeiten zutage fördern kann.

Datenbank-Systeme, die Big Data verarbeiten können - das heißt Datenbanken, die Daten im Bereich von Terabytes, Zetabytes, Exabytes und gar Zettabytes verarbeiten - setzen massiv auf eine parallele Verarbeitung der Anfragen. So werden Hunderte oder gar Tausende Rechner zu einem Datenbank-Grid zusammengeschlossen. So gut wie alle großen Technologie-Konzerne wie IBM, Intel, HP, Oracle, Dell oder EMC haben Lösungen für sehr große Datenmengen im Angebot.

Freie Software

Freie Software (auch Open-Source-Software genannt) und offene standardisierte Schnittstellen sind weiter auf dem Vormarsch - sehr zum Nutzen aller, die von IT-Infrastruktur abhängig sind. Denn mit offenen Technologien vermeiden Unternehmen den sogenannten Lock-in-Effekt: Sie sind an einen einzigen Anbieter und seine eigene Technologie gebunden, sondern können bei offenen Schnittstellen und Open-Source-Software samt Daten und Anwendungen auch den Anbieter wechseln.

Die Ursprünge der Idee Freier Software liegen in den Anfängen der Computerrevolution: Die vor allem aus dem Hippie-Umfeld stammenden Mitglieder des Homebrew Computer Clubs im Silicon Valley tauschten Wissen und Software wie selbstverständlich untereinander aus. Als Firmen wie Microsoft in den 1980er Jahren aus der Software ein Geschäft machten, rief der Programmierer Richard Stallman das GNU-Projekt zum Bau eines freien Betriebssystems und die erste explizit freie Softwarelizenz ins Leben: die GNU General Public License.

Heute bilden die Tools des GNU-Projekts zusammen mit anderer Software und dem Linux-Kernel die Basis der Linux-Distributionen wie Red Hat, Open-Suse, Ubuntu oder Debian sowie von Googles mobilem Betriebssystem Android. Linux in seinen verschiedenen Varianten ist das auf heute auf Servern überwiegend eingesetzte Betriebssystem. Zahlreiche Open-Source-Lösungen wie die Datenbanken MySQL oder PostgreSQL haben die Unternehmen erobert.

Grid Computing

Das Zusammenschließen von Computern via schneller Netzwerk-Technik zu einem einzigen großen virtuellen Supercomputer (Cluster) wird als Grid-Computing bezeichnet. Dabei erscheint das Rechen-Netzwerk von außen als ein einziger Computer. Die einzelnen Teile des Grid-Computers sind dabei meist redundant ausgelegt. Das bedeutet: Fällt ein einzelner Rechner aus dem Gesamtverbund aus, hat das für die grundsätzliche Funktionalität des Gesamtsystems keine Auswirkungen.

Beim Grid-Computing werden zwei Ziele verfolgt: Einerseits ermöglicht das Zusammenschließen vieler Rechner eine hohe Arbeitsgeschwindigkeit des Gesamtsystems - und das im Vergleich zu anderen Supercomputer-Konzepten zu niedrigen Kosten. Voraussetzung ist dafür allerdings, dass die zu berechnenden Aufgaben stark parallelisierbar sind. Das heißt im Klartext: Die Berechnung eines Teils der Aufgabe, die der Computer lösen soll, darf nicht von einer anderen Berechnung abhängen. Nur so kann die Berechnung auf viele verschiedene Prozessoren oder Computer aufgeteilt werden.

Zweitens ermöglicht der Aufbau eines Grids mit Redundanz eine besonders ausfallsichere Server-Infrastruktur, selbst wenn preisgünstige Standard-Hardware verwendet wird, weil der Ausfall einzelner Rechner nicht die Funktionalität des Gesamt-Systems gefährdet.

Sieg der Standard-Hardware

Auch bei den Servern geben längst Konsumenten-Produkte in den Betrieben den Ton an, wenn auch weniger sichtbar als bei iPhone und iPad. Bis zur Jahrhundertwende herrschten in Unternehmen noch spezialisierte Server vor, auf denen Unix-Systeme wie mit Namen wie Solaris, HP-UX oder Irix liefen. Die Massenanfertigung von PCs und Konsumenten, die immer leistungsfähigere Hardware nachfragten, führten aber zu einer Verbilligung schneller Hardware.

Statt teure, besonders zuverlässige Hardware, nutzen Unternehmen heute als Server meist Computer mit x86er-Prozessoren von Intel oder AMD wie sie auch in jedem Büro oder Heim-Arbeitsplatz stehen. Meist wird darauf das Open-Source-Betriebssystem Linux oder Microsofts Windows eingesetzt. Die Unternehmen bleiben bei der Betriebssystem-Software flexibel und sind nicht auf teure Spezial-Hardware angewiesen, auf der nur ein bestimmtes herstellerspezifisches Unix-System läuft.

Virtualisierung

Die Virtualisierung von Servern ist bereits seit vielen Jahren ein anhaltender Trend, auf den heute kaum ein Unternehmen bei der Nutzung seiner IT verzichten möchte. Virtualisierung erlaubt eine deutlich flexiblere Nutzung der Hardware: Ein Server wird dabei aufgeteilt in beliebig viele virtuelle Server. Das ist eine wichtige technologische Voraussetzung für das Cloud Computing – doch nicht dasselbe. Beim Cloud Computing geht es um den gesamten Prozess des flexiblen Bereitstellens von Rechenressourcen, Daten und Anwendungen über eine standardisierte Schnittstelle. Die Virtualisierung von Server-Hardware schafft also technisch eine wichtige Voraussetzung für Cloud Computing.

In-Memory-Computing

Neue Cloud-basierte Business-Anwendungen benötigen häufig besonders schnelle Datenbanken - beispielsweise, wenn Mitarbeiter auf Unternehmensdaten per Smartphone oder Tablet zugreifen. Auf der Seite der Server lassen sich Datenbanken durch sogenanntes In-Memory-Computing deutlich beschleunigen. Was hinter dem Begriff steckt ist eigentlich ganz einfach: Die Rechner speichern die Daten nicht auf einer langsamen Festplatte, sondern im vielfach schnelleren Arbeitsspeicher - eben dem Memory.

Nachteilig daran ist, dass Arbeitsspeicher nicht nur um ein Vielfaches schneller ist als eine Festplatte, sondern die gleiche Speichermenge auch deutlich mehr kostet. Häufig wird bei In-Memory-Datenbanken vom Grid-Computing gebrauch gemacht, bei dem viele einzelne zu einem Rechner-Verbund zusammengeschlossen werden.

In-Memory-Computing gilt als Markt mit großen Wachstumschancen. Die großen Anbieter im Markt der Datenbank haben sich allesamt Know-how auf dem Gebiet eingekauft. So übernahm der deutsche Anbieter SAP für einen hohen Milliarden-Dollar-Betrag den Anbieter Business Objects. Orcale kaufte sich den In-Memory-Spezialisten Hyperion und IBM übernahm den kanadischen Anbieter Cognos.

Consumerization

"Bring your own device“ heißt es in immer mehr Unternehmen. Laut Consumerization Report 2011 erlauben bereits 59 Prozent der deutschen Firmen ihren Arbeitnehmern, private IT-Geräte im Unternehmen zu nutzen, in den USA sind es bereits 75 Prozent. Mit gutem Grund: Die Mitarbeiter nutzen auf der Arbeit schlicht die Geräte, mit denen sie sich selbst am besten auskennen - und die sie privat am meisten schätzen. Davon profitieren vor allem das iPhone und iPad von Apple sowie die Smartphones mit Googles Android-System.

Für die IT-Branche bedeutet die Hinwendung zu den Konsumenten einen tiefgreifenden Wechsel ihrer Strategie. Reichte es früher aus, die IT-Einkäufer von den eigenen Produkten zu überzeugen, die immer schneller und effizienter wurden, müssen nun diejenigen überzeugt werden, die die Geräte auch tagtäglich einsetzen.

Und da zählen plötzlich ganz andere, weniger fassbare Werte. Wird man mich bewundern? Wird mich das Produkt erstaunen, überraschen? Denn auch Arbeit darf Freude machen. Zudem gibt es neue Herausforderungen für die Sicherheitsexperten der IT-Abteilung. Schon gibt es erste Software-Lösungen, die mittels Virtualisierung Privates und Geschäftliches auf den Smartphones trennt.

Business Intelligence wird mobil

Wie können Geschäftsabläufe profitabler werden, Kosten gesenkt und Risiken minimiert werden? Unter dem Schlagwort Business Intelligence werden alle Versuche gefasst, die solche Fragen mit Hilfe der elektronischen Verarbeitung von Daten beantworten wollen. Das englische Wort „Intelligence“ ist dabei im Sinne vom Sammeln und Aufbereiten von Daten gemeint. Der Begriff Business Intelligence wurde bereits in den 1990er Jahren populär.

Doch insbesondere das Cloud Computing und die Verbreitung Internet-fähiger mobiler Geräte verschaffen Managern neue Möglichkeiten. Die Firmenlenker können nun auch mobil via Smartphone oder Tablet jederzeit auf Geschäftszahlen und Software-gestützte Analysen zugreifen. Komplexere Business-Intelligence-Anwendungen können gleich Prognosen und Analysen auf Basis von mobil eingegebenen Daten erstellen. Laut den Analysten von Gartner werden in einigen Jahren ein Drittel aller Analysen auf Unternehmensdatenbanken von einem Smartphone oder Tablet aufgerufen, schreibt das Computermagazin iX.

„Die meisten Unternehmen haben enorme Potenziale, die Effizienz ihrer Prozesse zu steigern“, sagt Jorma Gall von Camelot Management Consultants. Gemeinsam mit seinem Kollegen Henrik Baumeier hat er die Studie verfasst. „Dabei liegt die Lösung sozusagen ungenutzt in der Schublade – in Form ihrer eigenen Unternehmensdaten.“ Dass das so ist, ist bei den meisten Unternehmern inzwischen angekommen. Doch seitdem versucht wird diese Ressource zu heben, zeigt sich, dass es oft an der Grundvoraussetzung für eine strategische Verwertung fehlt.

Datenpflege ist die Pflicht, Big Data die Kür

Die Pflege der Kunden- und Prozessdaten im Unternehmen ist eigentlich kein neues Thema. Und doch hat sich in den letzten Jahrzehnten erschreckend wenig in diesem Bereich getan. Überall ist das Pflegen, Ausmisten und Kontrollieren von Datenbanken das ungeliebte Kind im Unternehmen. Etwas, was getan werden muss, deren konkreter Nutzen sich aber nicht sofort monetarisiert. Neben den Daten, die automatisch generiert werden, lässt es sich bis heute nicht vermeiden, dass auch immer wieder große Daten manuell eingegeben werden müssen. In der Regel sitzen dann Praktikanten oder Aushilfskräfte vor dem Rechner und geben stumpf Namen, Adressen,

Chaos in den Datensätzen

Wie viele Daten wir erzeugen

1 / 8

Mails und Dokumente, Präsentationen oder Digitalfotos – jeder produziert täglich digitale Daten, ob privat oder beruflich. Das Datenwachstum verdoppelt sich daher alle zwei Jahre. In der IDC Digital Universe Studie im Auftrag des IT-Dienstleisters EMC wird die Entwicklung analysiert, demnach werden in diesem Jahr voraussichtlich 1,8 Zettabyte Daten erzeugt, das entspricht 1,8 Billionen Gigabyte. Um diese Zahl zu veranschaulichen, hat EMC einige anschauliche Vergleiche angestellt…

Foto: Reuters

2 / 8

Um diese enorme Datenmenge speichern bräuchte man beispielsweise 57,5 Milliarden Apple iPads mit 32 Gigabyte Speicher.

Foto: dpa

3 / 8

Aneinandergelegt würden die iPads eine Fläche so groß wie die Stadtflächen von München und Berlin zusammen ergeben…

Foto: dapd

4 / 8

Oder einen Turm aus iPads, fast 20-mal höher als der Mont Blanc.

Foto: AP

5 / 8

Eine 3.910 Kilometer lange und 31 Meter hohe Mauer quer durch Europa von Moskau nach Lissabon könnte damit gebaut werden oder eine „Chinesische iPad Mauer“, die doppelt so hoch wäre wie die echte Chinesische Mauer.

Foto: dapd

6 / 8

Die Datenmenge entspricht mehr als 200 Milliarden HD-Filmen von jeweils zwei Stunden Länge; das reicht für 47 Millionen Jahre ununterbrochenen Filmgenuss.

Foto: dapd

7 / 8

1,8 Zettabyte Daten kämen auch zusammen, wenn täglich 215 Millionen Kernspintomographien von jedem Menschen auf der Welt angefertigt werden

Foto: AP

Telefonnummern, Umsatzzahlen oder Materialkosten ein. Dabei entstehen doppelte Datensätze, Namen werden falsch geschrieben, Zahlen vertauscht. Wo Menschen am Werk sind, da werden auch Fehler gemacht.

Die am häufigsten genannte Ursache für geringe Datenqualität sind unvollständige Stammdaten. „Der Lieferanten- und Materialstamm weist meistens eine bessere Qualität auf als die Kundenstammdaten. Besonders von mangelhafter Stammdatenqualität betroffene Unternehmensbereiche sind das Unternehmens-Reporting und das Lieferketten-Management“, fasst Baumeier die wesentlichen Ergebnisse der Studie zusammen.

Verantwortlich für den Bereich der Datenaufbereitung sind in allen großen Konzernen die CIOs (Chief Information Officer), die IT-Leiter in Unternehmen. Nahezu alle Unternehmen haben das Thema Stammdatenmanagement in dieser Abteilung aufgehängt, da es eng an die Nutzung einer Software gekoppelt ist. Und genau so wurde Stammdaten über Jahrzehnte hinweg verstanden: als ein rein technisches Archiv. Dass sich zwischen all den Tabellen, Listen und Datenbänken bares Geld verbirgt, war vielen Konzernchefs nicht wirklich klar. In den letzten Jahren hat hier ein massiver Wandel in der Wahrnehmung stattgefunden.

Am schnellsten war auf diesem Weg ganz sicher der Einzelhandel. „Im Konsumgüterbereich sind die Margen sehr gering. Daher hat man hier sehr früh erkannt, dass die gute Datenpflege einen Wettbewerbsvorteil bringt“, sagt Jorma Gall. Berühmtestes Beispiel ist Amazon. Der Online-Versandhandel hat nicht nur seine Hausaufgaben in Sachen Datenpflege gemacht. Das Unternehmen gilt längst als eines der Vorzeige-Beispiele in Sachen Big Data. Wohl kein Einzelhändler hat die Logdaten, das Surfverhalten oder die Userdaten so gut ausgewertet und dadurch die Kunden so gut kennengelernt. Im Ergebnis kann Amazon seinen Kunden passgenau Produkte anbieten.

Auch die Automobilbranche hat in Sachen Datenmanagement zugelegt. Ganz anders sieht es zum Beispiel in der Pharma- und Chemieindustrie aus. „Die Branche ist mit Margen bis 30 Prozent sehr verwöhnt gewesen“, sagt Jorma Gall. „Entsprechend haben die Unternehmen hier - über das, was der strenge rechtliche Rahmen vorgibt hinaus - nicht so viel in den Bereich Stammdatenmanagement investiert.“

Ein Grund dafür könnte die europaweit schwelende Krise sein, die dafür sorgt, dass die Unternehmer das Geld nicht mehr ganz so locker ausgeben. Eine schwierige Situation für die CIOs, die gleichzeitig dafür verantwortlich sind, einem gewissen Anspruch ihrer Vorgesetzten gerecht zu werden.

Datenschlamperei geht ins Geld

„Da gibt es eine Diskrepanz zwischen dem, was der CEO gerne hätte und dem, was der CIO mit seinen Mitteln leisten kann“, ist sich Jorma Gall sicher. Ein konkretes Szenario, um das Dilemma zu veranschaulichen: Der Chef einer großen Automobil-Zulieferers würde gerne wissen, wie viel Umsatz durch die Zusammenarbeit mit einem bestimmten Hersteller zusammen gekommen ist. In seinen Augen, muss dafür nur irgendein Knopf gedrückt werden, und dann sind die Ergebnisse da. Im konkreten Fall kann es aber sein, dass das besagte Unternehmen mit zig verschiedenen Profilen in der Datenbank angelegt wurde – und je nach Lieferung ein anderes Datenstammblatt verwendet wurde. „So etwas passiert in den Datenbänken großer Konzerne gar nicht selten“, sagt Gall. Und dann kann so eine eigentlich einfache Auswertung plötzlich zu einem tagesfüllenden Projekt werden. Verknüpft mit entsprechenden Personalkosten.

Mehr als die Hälfte der befragten Unternehmen gibt an, dass die unzureichende Stammdatenqualität sich nach wie vor massiv negativ auf die Prozesse entlang ihrer gesamten Wertschöpfungskette auswirkt. „Vor allem die Lieferketten global agierender Unternehmen lassen sich durch ein besseres Stammdatenmanagement deutlich optimieren“, ist sich Henrik Baumeier sicher. Zu konkreten Zahlen wollen sich die Unternehmensberater nicht hinreißen lassen. Zu unterschiedlich seien die Bedingungen in den einzelnen Branchen und zu schwierig die genauen Summen zu beziffern, die sich durch ein effizienteres Daten-Management wirklich einsparen lassen.

Lieferketten werden unterbrochen

Doch die Auswirkungen sind auch so logisch: Wird das Material oder Teile nicht geliefert, hat das vor allem im produzierenden Gewerbe verheerende Auswirkungen. Allein die Konventionalstrafen für verzögerte Auslieferungen können sich schnell auf mehrere 100.000 Euro belaufen – vom Produktionsstillstand und dem Imageschaden ganz zu schweigen.

Neben den Mängeln im Rahmen der Lieferketten fiel auf, dass in den Bereichen Berichtswesen und Marketing/Vertrieb die gesammelten Daten über eine eher schlechte Qualität verfügen - gefolgt von den Bereichen Einkauf und Logistik. Am besten sahen sich die Unternehmen in der Kundenbetreuung und bei den Finanzen aufgestellt.

Es tut sich was

Insgesamt ist also noch Luft nach oben: Die Technik-Chefs haben genau aus diesem Grund das staubige Thema „Datenbanken“ forciert und in die Management-Ebenen getragen. Eigene Erfahrungen und eine verstärkte Berichterstattung zum Thema Big Data haben sicher dazu beigetragen, dass das Augenmerk der IT-Chefs noch stärker auf das Thema gelenkt worden ist. Zum anderen haben aber auch die Softwareentwickler dem Ganzen einen Schub gegeben. „Die Entwickler haben das Thema erkannt und sind mit neuen Produkten auf die CIOs zugegangen“, sagt Jorma Gall. Vor allem SAP und Oracle haben in den letzten Jahren immer wieder neue Produkte auf den Markt gebracht, die die Abwicklung der Stammdaten erleichtern sollen.

Und das ist dringend nötig. Denn die Datenverwaltung wird auch heute noch von einem Großteil der befragten mit Excel abgewickelt. Über 60 Prozent der Befragten gaben an, hauptsächlich mit dem Windows-Office-Produkt zu arbeiten. „Aus IT-Sicht ist das Tool für die Datenerfassung in global agierenden Konzernen eher ungeeignet, da es kein integriertes Arbeiten zulässt“, sagt Jorma Gall. Dass es dennoch so viel genutzt wird, liegt daran, dass Excel ein weitverbreitetes Werkzeug ist, mit dem sich viele Menschen in einem Unternehmen gut auskennen. Der Umstieg auf ein neues Tool ist immer mit Kosten in der IT und natürlich Personalschulungen verbunden. Außerdem halten sich die IT-Chefs mit dem Kauf neuer Tools noch zurück, weil viele von ihnen noch Kinderkrankheiten haben. „Man hat die Erfahrung gemacht, dass es sich am Ende rechnen kann, noch ein wenig zu warten, ehe man neue Produkte anschafft“, sagt Jorma Gall.

Doch mit einem neuen Werkzeug zur Datenpflege ist es seiner Meinung nach nicht getan. „Die Auswertung der Daten darf keine reine IT-Aufgabe bleiben“, ist er sich sicher. Vielmehr sei es wichtig, die Verantwortung je nach Thema in den einzelnen Abteilungen thematisch zu verankern. „Ein Tool kann nur so gut sein, wie die Anpassung auf die Bedürfnisse des Unternehmens“, sagt Gall. Und dafür muss das Firmen-Know-How auch in die technische Lösung fließen. Die Datenpflege muss zu einem Teil der Unternehmenskultur werden. „Gerade erfolgreiche Unternehmen haben ihr Stammdaten-Management ihrem Geschäftsmodell entsprechend ausgerichtet und eine Strategie, Organisation und Governance eingeführt“, sagt Henrik Baumeier. Denn eine einmalige Stammdaten-Initiative greift den Experten zu kurz.

All das kostet. Um die Qualität herzustellen, die Daten bräuchten, um sie auswertungstauglich zu machen, müssen die Unternehmen tief in die Tasche greifen. Ein umfassendes IT-Konzept kann ein mittelständisches Unternehmen schnell bis zu fünf Millionen Euro kosten. Obwohl sich die Unternehmen mit derartigen Investitionen immer noch schwer tun, scheint sich etwas zu bewegen. Die Berater von Camelot Management haben nach eigenen Angaben festgestellt, dass sich in das Investitionsvolumen in den letzten fünf Jahren mehr als verdoppelt hat. Damit ist den CIOs ein erster wichtiger Schritt gelungen.

Studie zu Datenqualität: Das große Datenchaos deutscher Unternehmen