Die technisch gereifte Möglichkeit, Unmengen von Daten im Unternehmen speichern und verarbeiten zu können, hat den Fokus auf das reine Sammeln von Daten verschoben. Auch die Möglichkeit, völlig unterschiedliche Typen von Daten (strukturiert und unstrukturiert) ablegen zu können und die gelebte Praxis, geschäftliche Analysen dieser Daten auf „später“ zu verschieben, hat zu dieser Entwicklung beigetragen. Wir sammeln also auf Teufel komm raus alles, was irgendwie von Nutzen sein könnte, legen es in einem „Data Lake“ ab und hoffen darauf, dass eines Tages daraus ein Mehrwert für das Unternehmen entsteht.
So sehr es wünschenswert ist diese Data Lakes zu etablieren, um potentiell wertvolle Informationen zu sichern, so sehr ist es aber auch notwendig, den Fokus wieder deutlicher auf die Analyse dieser Daten zu lenken. Erst diese Analysen erlauben es, geschäftliche Erkenntnisse für das Unternehmen zu gewinnen und damit Mehrwert zu schaffen. „Big Data“ ist insofern auch nur ein weiteres Buzzword um zu signalisieren, dass wir dies nun auch aus sehr großen, ggf. unstrukturierten und laufend aktualisierten Datenmengen können.
Analyse selbst soll von den vermeintlich überall verfügbaren Data-Science-Fachkräften gemacht werden. Diese tatsächlich sehr raren, hochspezialisierten Daten-Spezialisten sollen in der Lage sein, aus den Unmengen an ungeschliffenen Rohmaterial von Daten wertvolle Erkenntnisse zu schürfen. Sie schaffen das allerdings nur, wenn sie unstrukturierten Daten eine Struktur geben, wenn also die Daten aus ihrer Rohform in eine für intelligente Verarbeitung und Geschäftsanalyse verarbeitbare Form transformiert werden. Das ist ein hochkomplexer und sehr aufwändiger Vorgang, der oftmals mehr Kapazitäten bindet, als die eigentliche Analyse selbst. Wir haben sogar wieder ein Buzzword dafür etabliert: „Schema-on-read“, und viele halten es plötzlich für den Königsweg. Tatsächlich ist es aber nur eine sinnvolle Erweiterung der lange bekannten Architektur, die jetzt als das „klassische“ Data Warehouse bezeichnet wird. Eigentlich hat man nur erkannt, dass es sinnvoll ist, entsprechend ausgebildeten Daten-Spezialisten auch Zugriff auf Rohdaten zu geben. Der vermeintlich alte Ansatz „Schema-on-write“ hat aber unverändert seine Berechtigung und ist, vielmehr noch, im Kern unverzichtbar. Einmal gewonnene Erkenntnisse, geschäftliche Grundstrukturen und Zusammenhänge sollten von allen Anwendern im Unternehmen einfach nutzbar sein. Das erfordert ein Datenmodell, welches diese Zusammenhänge transparent macht. Es ist schlichtweg ineffizient die Schaffung dieser Grundstrukturen immer wieder aufs Neue, und damit hochredundant, jedem Data Scientist oder Analysten als notwendige Datenvorbereitung aufzuerlegen.
Eine effiziente und wirklich Mehrwert schaffende Informationsinfrastruktur berücksichtigt das alles und sieht hinter den Buzzwords Data Lake, Big Data etc. das, was sie sind: Sinnvolle Erweiterungen des „klassischen“ Data Warehouse um neue Arten der Datennutzung und Datenspeicherung, ergänzt um weitere Skalierungseffekte durch neue Arten der Datenverarbeitung. Wenn wir so wollen: Lasst uns das Data Warehouse weiterentwickeln und alles, was Data Lake, Big Data und Co. an neuen Möglichkeiten bringen für eine gesamthaft effiziente Informationsinfrastruktur im Unternehmen nutzen. Man könnte dafür natürlich auch wieder ein neues Buzzword erfinden und dieses Kunstwerk Information Bridge nennen 😉