Forschungsbericht 2021 - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)

Nutzung von Data Lakes für die Verwaltung und Verarbeitung großer Datenmengen

Autoren

Nolte, Hendrik; Kasprzak, Piotr; Kunkel, Julian; Wieder, Philipp

Abteilungen

Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) – Arbeitsgruppe eScience und Arbeitsgruppe Computing

Zusammenfassung

Data Lakes erfreuen sich einer seit Jahren steigenden Beliebtheit und kommen in immer mehr Institutionen als zentraler Speicher für alle anfallenden, speziell auch unstrukturierten Daten zum Einsatz. Ein wichtiges Alleinstellungsmerkmal eines Data Lakes besteht darin, dass hier unverarbeitete Daten im jeweiligen Rohformat abgelegt werden. Dies soll einen Informationsverlust verhindern und damit die Wiederverwendbarkeit der Daten steigern. Darüber hinaus sind bei der GWDG Datenmanagementwerkzeuge integriert, welche Forschende bei der Einhaltung guter wissenschaftlicher Praxis unterstützen.

Motivation

In größeren Forschungseinrichtungen sind häufig kleinere Teams unabhängig voneinander tätig. Dies führt schnell dazu, dass spezielle gruppeninterne Arbeitsabläufe und damit verbundenes Daten- und Prozessmanagement entstehen, die keinen übergeordneten Standards folgen. Dies führt mit der Zeit zu der Entstehung sogenannter Datensilos, welche in der Regel nicht untereinander kompatibel sind. Dies beeinträchtigt bzw. verhindert nicht nur die Nachnutzbarkeit der bereits gesammelten Daten, sondern erschwert auch mögliche Analysen, die über mehrere solcher Datensilos hinweg durchgeführt werden sollen.

Dieses Datenintegrationsproblem ist so alt wie die digitalisierte Datenverarbeitung selbst und wird seit den 80er Jahren häufig mit einem Data Warehouse gelöst. Hierbei wird mithilfe einer relationalen Datenbank ein Schema vordefiniert, in welches dann die Daten aus den verschiedenen Datenquellen geladen werden. Um heterogene Datensets in ein solches einheitliches, vordefiniertes Schema zu bringen, ist ein ETL (Extract-Transform-Load)-Prozess notwendig. Die Umsetzung solcher Prozesse ist einerseits bei der Anwendung auf unstrukturierte Daten schwierig, und andererseits führt der Transformationsschritt tendenziell, z. B. durch Aggregationen oder Mittelwertbildungen, zu Informationsverlusten. Als Lösung dieses Problems wurde 2010 von James Dixon das Konzept des Data Lake vorgestellt. Dieses Konzept und die darauf aufbauenden Arbeiten wurden von uns bei der GWDG umfassend untersucht, um Nutzerinnen und Nutzern der MPG einen On-Premise betriebenen Data Lake bereitstellen zu können.

Grundlegendes Konzept eines Data Lake

Das Konzept des Data Lake ist, dass Rohdaten unverändert in den Lake geladen werden und erst bei der Analyse das Schema festgelegt werden kann. Zuerst wird natürlich eine wandlungsfähige Schnittstelle benötigt, über die die heterogenen Daten aus den verschiedensten Quellen in den Data Lake eingespeist werden können. Diese Daten müssen dann in einem nächsten Schritt in einem hochskalierbaren Massenspeicher abgelegt werden können, um auch perspektivisch mit auftretenden Big Data-Anforderungen umgehen zu können.

Wenn nun allerdings Daten in den verschiedensten Formaten und mit den unterschiedlichsten Beziehungen zueinander in einem Speichersystem abgelegt werden, geht schnell die Übersichtlichkeit verloren. Um dies zu verhindern, bietet es sich an, einen Datenkatalog zu führen, in dem jedes Datum, welches sich im Speicher befindet, indexiert ist. Hierbei sollten auch semantische Informationen hinterlegt sein, das heißt, es sollten domänenspezifische Eigenschaften, die das jeweilige Datum beschreiben (bspw. Projektinformation), in den Datenkatalog eingepflegt werden. Dies stellt sicher, dass später Forschende ihre Daten verlässlich wiederfinden und ihre Inhalte verstehen können.

Die reine Datenerfassung und -vorhaltung ist allerdings kein Selbstzweck, sondern dient als Ausgangspunkt für weitere Analysen. Dazu sollte ein Mechanismus im Data Lake integriert werden, der rechenintensive Analysen auf skalierbaren Ressourcen, wie z. B. einer Cloud oder High-Performance Computing (HPC)-Systemen, unterstützt. Bei diesen Analysen unterstützt der Data Lake die Forschenden bei der Einhaltung der Leitlinien zur Sicherung guter wissenschaftlicher Praxis durch Werkzeuge zur Datenverwaltung, bspw. zur Erfassung der Datenprovenienz. Provenienz bezeichnet Informationen über die verwendeten Methoden und Prozesse der einzelnen Datenprodukte. Bei unserer eigenen Lösung fokussierten wir uns auf eine Umsetzung mithilfe von Open-Source-Software und der direkten Einbindung der vorhandenen Rechen- und Speicherressourcen.

Bei all diesen Schritten ist es wichtig, dass über die unterschiedlichen Komponenten hinweg ein konsistenter Zustand garantiert und für den Umgang mit den Daten eine einheitliche Governance forciert wird. Dadurch kann bei der GWDG auch auf höchste Datenschutzanforderungen von Nutzerinnen und Nutzern der MPG individuell eingegangen werden.

Typischer Arbeitsprozess auf einem Data Lake

Abb. 1: Typischer Arbeitsprozess einer Nutzerin bzw. eines Nutzers auf einem Data Lake — **Abb. 1:** Typischer Arbeitsprozess einer Nutzerin bzw. eines Nutzers auf einem Data Lake

© Hendrik Nolte, GWDG

**Abb. 1:** Typischer Arbeitsprozess einer Nutzerin bzw. eines Nutzers auf einem Data Lake

© Hendrik Nolte, GWDG

Diese grundlegende Funktionsweise eines Data Lake ist in Abbildung 1 als Arbeitsprozess aus der Sicht einer Wissenschaftlerin bzw. eines Wissenschaftlers dargestellt. In diesem werden direkt nach der Datenerzeugung die Rohdaten in den Data Lake hochgeladen. Dort werden beschreibende, domänenspezifische Metadaten extrahiert und entsprechend in dem zentralen Datenkatalog hinterlegt. Dieser kann unter anderem mit präzisen Abfragen zur Datenerkundung genutzt werden. Anschließend können die zuvor eingespeisten Daten für weitere Prozessierungen, z. B. auf dem HPC-System, verwendet werden. Durch die automatische Erfassung der Provenienz sowie weiterer assoziierter Daten sind alle durchgeführten Analysen nicht nur reproduzierbar, sondern es können am Ende auch alle an einem bestimmten Resultat beteiligten Daten und Prozessierungsschritte identifiziert und zum Publizieren paketiert werden.

Ausblick

Data Lakes setzen sich im Bereich der Big Data-Analysen, bei denen speziell heterogene Daten integriert werden müssen, aufgrund der hier dargestellten Vorteile immer weiter durch. Dabei lag bisher ein Fokus auf bereits vollständig digitalisierten Datensätzen wie z. B. Sensordaten. Für zukünftige Entwicklungen liegt eine große Chance darin, alle Forschungsprozesse im Data Lake zu integrieren. Dies beinhaltet Simulation wie auch Datenerfassung im Labor. Die Teams der Forschenden würden von einem Data Lake durch ein einheitliches Forschungsdatenmanagement profitieren, welches interoperabel mit den Repositorien anderer Forschender ist und dadurch die Basis für umfangreiche Analysen und Kollaborationen legt. Eine solche Erweiterung des bestehenden Data Lake-Konzepts werden wir bei der GWDG nächstes Jahr gemeinsam mit dem MPI CEC starten.