Eine Person fährt Kanu auf einem See

Das Zeitalter der Daten ist im vollen Gange, doch wie können Unternehmen die Unmengen an Daten verwalten? Data Lakes und Data Warehouses schaffen die richtige Grundlage, um Nutzen aus Big Data zu ziehen.

Wie bereits im Beitrag „Data Warehouse – Next Level der Datenanalyse“ beschrieben, hilft ein Data Warehouse dabei:

„… Daten aus unterschiedlichen Quellen zu konsolidieren, zu verwalten und je nach Bedarf zu verarbeiten.“

Ein Data Lake ist hingegen die unstrukturierte Aufbewahrung von Daten. Ähnlich, wie der Name impliziert (Lake = See), ist es keine „Lagerhalle“ für Daten, wo jeder Datensatz seinen Platz und seine Ordnung hat, sondern ein „Pool“ roher, als auch unstrukturierter Daten.

Die einzige Gemeinsamkeit eines Data Warehouses und eines Data Lakes besteht darin, dass beide riesige Mengen an Daten lagern können. Doch wenn es um die Nutzung geht, so hängt es stark von der geplanten Nutzung ab, ob sich der Data Lake oder das Data Warehouse für ein Unternehmen eignet.

Data Lake

  • Rohe Datensätze, zur Nutzung müssen die Daten also oft noch verarbeitet werden
  • Datennutzen ist nicht identifiziert
  • Wird vorwiegend von Wissenschaftlern (Data Scientists) genutzt, die beispielsweise mit Methoden der künstlichen Intelligenz Informationen aus dem Data Lake „fischen“
  • Zugriff ist relativ einfach
  • Enthält oft sehr viel größere Datenmengen (da diese eben noch nicht verarbeitet wurden)
  • Datenqualität und Datenschutz sind besondere Herausforderungen eines Data Lakes
  • Die Architektur des Data Lakes lässt sich einfach anpassen
  • Aufbewahrung der Daten ist oft günstiger, dafür ist die Verarbeitung oft ressourcen/kostenintensiver, da die Daten eben nicht für einen bestimmten Zweck vorstrukturiert wurden

Einsatz: Wissenschaft, Bildung, Transportwesen, Prognosen (Predictive Analytics), Machine Learning, Einsatz in Bereichen, in denen Daten grundsätzlich häufiger unstrukturiert gesammelt werden (z.B. im Health Care-Bereich)

Data Warehouse

  • Verarbeitete und strukturierte Datensätze
  • Nutzung der Daten ist bekannt
  • Wird vorwiegend von Business Professionals genutzt
  • Lagert oft weniger Daten, dafür aber mit einer hohen Datenqualität
  • Einfacher nutzbar auch für Anwender, die keine Expertise in der Datenauswertung haben
  • Daten können einfacher in Dashboards, Tabellen, etc. verwendet werden
  • Die Architektur des Data Warehouse ist spezifischer und Anpassungen sind daher komplexer
  • Historisierung (die Historie der Daten lässt sich nachverfolgen, um etwa Zeitabschnitte zu vergleichen)
  • Die Aufbewahrung ist häufig etwas kostenintensiver, gleichzeitig können aber Kosten gespart werden, da die Daten einfacher für den für sie bestimmten Zweck eingesetzt werden können

Einsatz: Reports, Finanzwesen, Business-Anwendungen, Marktanalysen, Auswertung von Kunden-/Nutzerverhalten, Integration mit anderen Systemen (CRM, Datenvisualisierung, Business Intelligence)


Snowflake bietet ein Date Warehouse, dass sich leicht mit anderen Systemen verknüpfen lässt und auch bei einer Data Lake-Strategie unterstützt. Erfahren Sie mehr.

New call-to-action


Quellen:

talend „Data Lake vs. Data Warehouse“

Kleyman, Bill (2018) „The Many Use-Cases of A Data Warehouse“

Sulmont, Lis (2020) „Data Lakes vs. Data Warehouses“


Bei der Qualitätssicherung des Beitrags hat mich übrigens meine Kollegin Rosina Germanova mit ihrem Fachwissen unterstützt.

Rosina Germanova ProfilRosina Germanova ist Senior Consultant im Bereich Business Intelligence. Sie hat über fünf Jahre Berufserfahrung und verfügt über den nötigen Werkzeugkasten um Daten mit Leben zu befüllen und wertvolles Wissen zu erzeugen.

Kontaktieren können Sie Rosina Germanova via LinkedIn