Was ist ein Data Lake? – Eigenschaften und Vorteile

Metaphern sollen helfen, Dinge leichter zu verstehen. Dies gelingt sicher nicht immer und allen. Dem Pentaho-Gründer James Dixon bei der Initiierung des Data-Lake-Konzepts jedoch schon. Großvolumig, ungefiltert und in der Regel gespeist aus unterschiedlichen Quellen: Die Eigenschaften eines Sees beschreiben auch die zentralen Merkmale eines Data Lakes sehr genau.

Der Data Lake: Sammelbecken für eine große Datenvielfalt

Was in der Natur mündende Flüsse sowie Regen oder Schnee sind, sind bei einem Data Lake die unterschiedlichen Datenquellen, die ihn füllen. Zahlen- oder textbasierte Daten, Bilder, Videos, Audiodateien: Der Data Lake kann ein Sammelbecken für unterschiedlichste Datenformate sein – strukturiert und unstrukturiert. Verkaufskennzahlen, Maschinendaten oder das Monitoring der eigenen Homepage: Genauso vielfältig wie ihr Format können auch die Datenquellen sein. Insbesondere, wenn zu den internen Datenquellen noch externe Informationen, wie Wetterdaten oder Wirtschaftskennzahlen hinzukommen. Die Daten, die in einen Data Lake fließen, sind in der Regel roh. Eine Formatierung oder Validierung der Daten findet erst statt, wenn sie benötigt werden.

Der Data Lake als Ende der Datensilos

Auch in 2020 ist die Diskrepanz in den Unternehmen zwischen der Einschätzung, der Bedeutung von KI und Co. und dem tatsächlichen Einsatz von Advanced Analytics im Unternehmen groß. Neben dem Mindset ist die Datenverfügbarkeit selbst dabei eine der zentralen Hürden. Oft fehlt es (noch) an der Datenbasis, um mit Data Science Mehrwerte zu generieren. Dabei verfügen viele Unternehmen über ausreichende Mengen relevanter Daten – leider abgelegt in geschlossenen Datensilos. Das Data-Lake-Konzept erleichtert aufgrund der fehlenden initialen Aufbereitung die Datenspeicherung und kann als zentrales Sammelbecken helfen, bestehende Datensilos aufzulösen und zukünftige zu vermeiden. Ein guter Lake unterstützt dafür die gängigen Protokolle und Frameworks der Datenbanksysteme zur intuitiven Datenablage und realisiert den Datenzugriff mittels eines ausgereiften Rollenkonzepts zur Einhaltung der Datenschutzbestimmungen.

Data Lake als Ausgangspunkt für Advanced Analytics

Die Datenerfassung und -speicherung erfolgt in der Praxis meistens ohne die Absicht damit ein konkretes Analyseszenario zu realisieren. Durch wechselnde Rahmenbedingungen kann sich die Relevanz von Daten im Zeitverlauf auch verändern. Es lohnt sich also immer, vielfältige Informationen zu speichern, um die bestmögliche Datengrundlage für zukünftige Analysevorhaben zu schaffen. Gerade in der Verknüpfung einer Vielzahl unterschiedlicher Datenquellen und der Identifizierung von Zusammenhängen liegt das größte analytische Potenzial. Zudem sind die Strukturen der Rohdaten eines Data Lakes deutlich freier anpassbar. Der Data Lake ist daher im Vergleich zu einem Data Warehouse, in dem in erster Linie nur vorverarbeitete, strukturierte Daten liegen, die deutlich flexiblere Alternative – verbunden natürlich mit entsprechenden Aufwänden im Datenmanagement. Für Unternehmen, die sich in den Bereichen Data Science und KI entfalten möchten, ist ein Data Lake der richtige Ausgangspunkt.

Ein See und der Data Lake haben also noch eine weitere Gemeinsamkeit: Ein Eintauchen kann sich lohnen. Beim Data Lake sogar das ganze Jahr über.

eoda ist Ihr Partner bei der Realisierung Ihres Data Lakes

Sie beschäftigen sich mit dem Aufbau eines Data Lakes in Ihrem Unternehmen? Als führender Data-Science-Integrator und Partner von Technololgieanbietern wie AWS und Microsoft Azure unterstützen wir Sie im Rahmen unseres eoda | analytic infrastructure consultings bei der Konzeption und Umsetzung Ihres Data Lakes. Erfahren Sie mehr.

Weiterführender Link:

Federated Learning: Datensilos aufbrechen ohne die Daten selber auszutauschen.