Eine besondere Herausforderung vieler Unternehmen besteht darin, dass Daten oft noch Jahre später für neue Anwendungsfälle von Interesse sein können, jedoch zu diesem Zeitpunkt bereits längst entsorgt wurden oder sich deren Schemata in der Zwischenzeit mehrfach geändert haben. Auch kommt es oft vor, dass Daten bereits vor dem ersten Speichern selektiert, aggregiert oder transformiert wurden und somit für die spätere Verwendung nicht mehr komplett vorliegen.
Gerade für datenintensive Vorhaben im Bereich von Data Science oder KI müssten passende Daten daher erst neu gesammelt werden, was eine starke Verzögerung in den geplanten Vorhaben verursacht.
Wie können Data Lakes helfen?
Data Lakes sind ein Architekturpattern, welches darauf abzielt, Daten aus verschiedenen Applikationen in einem zentralen Ökosystem langfristig verfügbar zu machen. Daten möglichst aller Bereiche und Abteilungen eines Unternehmens werden an einer zentralen Stelle vorgehalten. Im Gegensatz zu klassischen Data Warehouses werden dabei jedoch immer auch die Rohdaten gespeichert, oft in Objektspeichern wie S3.
Der Vorteil dabei ist, dass die Informationen in vollem Umfang zur Verfügung stehen und nicht wie in klassischen Data Warehouses bei der ersten Speicherung bereits reduziert oder transformiert werden. Dadurch gibt es in dem zentralen Datenpool kein an spezielle Nutzerbedürfnisse angepasstes Schema, sodass sich die Konsumenten die Bedeutung der Daten in diesem Fall selbst herleiten müssen.
Um den Vorteil von Data Lakes effizient nutzen zu können, sollten diese bereichsübergreifend zur Verfügung gestellt werden. Dadurch können die Daten an allen Stellen abgerufen werden, an denen sie benötigt werden.
Dabei gibt es die Möglichkeit, die Daten in verschiedenen Zonen abzulegen. Dies ermöglicht den Zugriff für verschiedene Abstraktionslevel. So dienen bspw. für Data Scientists Low-Level-Tools wie Athena dazu, einen sehr tiefen und detaillierten Einblick in den Datenpool zu bekommen, während für Fachabteilungen eher spezialisierte Data Marts bereitgestellt werden sollten.
Was bietet Amazon Athena?
Mit Amazon Athena lassen sich SQL-Abfragen direkt auf (semi-) strukturierten Daten in S3-Buckets ausführen – ohne die Notwendigkeit einer Datenbank mit einem festen Schema. Auch vorbereitende ETL-Prozesse (Extract Transform Load), wie aus dem Bereich klassischer Data Warehouses bekannt, sind für die Arbeit mit den Rohdaten nicht notwendig.
Da Amazon Athena in den Bereich der Serverless-Dienste fällt, ist keinerlei Provision von Infrastruktur erforderlich. Dies geschieht automatisiert und für den Nutzer transparent im Hintergrund. Das spart zum einen Aufwand und Spezialwissen, zum anderen fallen bei der Nutzung des Dienstes nur Kosten pro Gigabyte der aus S3 gelesenen Daten an.
Vortrag zum Online-Campus
Einen tieferen Einblick zu den technischen Hintergründen sowie den Einsatz- und Optimierungsmöglichkeiten gibt es im nachfolgender Aufzeichnung von unserem ersten Online-Campus. In diesem Video werden Erfahrungen aus der Praxis diskutiert und eine kurze Live-Demo in der AWS-Konsole gezeigt.