Forschungsbericht 2020 - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
Open Forecast – HPC-basierte Datenanalyse-Pipelines für Smart Cities und Smart Farming
Motivation und Ziele
Wir leben in einer Zeit, in der eine stetig wachsende Menge an Daten produziert wird. Dies geschieht nicht nur aufgrund unserer Kommunikation oder durch die Nutzung von Social-Media-Plattformen, sondern auch in hohem Maße durch die Forschung. Dabei werden Instrumente zur Fernerkundung ebenso eingesetzt wie Sensoren zur In-situ-Datenerfassung. Satelliten nehmen Bilder in verschiedenen Wellenlängen und unterschiedlicher Auflösung auf, Wetterstationen generieren umfassende Klimadaten und Sensoren in den Ozeanen erfassen Daten zu Temperatur, Salzgehalt oder CO2-Konzentration, um nur einige Beispiele zu nennen. Die Herausforderung besteht in allen Fällen darin, das Potenzial all dieser Daten, von denen viele auch öffentlich zugänglich sind, nutzbar zu machen, wobei eine Reihe von Schwierigkeiten zu bewältigen ist. Zum einen werden die Daten von verschiedenen Institutionen auf unterschiedlichen Plattformen bereitgestellt und zum anderen erschweren verschiedenartige Anwendungsschnittstellen (APIs) und Datenformate häufig die Datenerfassung und -verarbeitung.
Eine generische Plattform, die die integrierte Verarbeitung wissenschaftlicher Daten aus unterschiedlichen Quellen ermöglicht, erlaubt daher zum einen die Beantwortung unterschiedlichster wissenschaftlicher Fragestellungen und erleichtert zum anderen den Forschungsprozess selbst. Da in der Regel im Rahmen derartiger Datenanalyse-Pipelines große Datenmengen verarbeitet werden müssen, was auf einem handelsüblichen Computer nicht mehr möglich ist, muss eine solche generische Plattform auch High Performance Computing (HPC)-Ressourcen integrieren. Die Entwicklung dieser Plattform und die Instanziierung für verschiedene Anwendungsfälle sind dabei die übergeordneten Ziele des Open-Forecast-Projekts.
Zur Durchführung dieses Projekts haben sich eine Reihe von Partnern mit hoher Expertise auf verschiedenen Gebieten zusammengeschlossen: Das Höchstleistungsrechenzentrum Stuttgart als Teil der Universität Stuttgart, die Universität Hohenheim, das Landesamt für Geoinformation und Landentwicklung Baden-Württemberg, das Landwirtschaftliche Technologiezentrum Augustenberg sowie die GWDG.
Smart Cities und Smart Farming
Der erste Anwendungsfall „Particular Matter Forecast Service (PMFS)“ ist im Bereich Smart Cities angesiedelt und konzentriert sich auf die Durchführung einer komplexen 3D-Feinstaubvorhersagemodellierung für den Großraum Stuttgart in Deutschland (siehe Abbildung 1). Das Modell basiert auf einem etablierten Klimasimulationscode, der um Oberflächenmodelle und auf das Simulationsgebiet zugeschnittene Verschmutzungsquellen erweitert wurde [1]. Der Simulationsoutput wird mit den Messungen des Sensornetzwerks des Citizen-Science-Projekts „sensor.community“ verglichen. In diesem Projekt kann jeder Interessierte einen bezahlbaren Sensor zur Messung von Feinstaubpartikeln, den sogenannten PM10- und PM2,5- Werten, als Indikator für die Luftqualität erwerben. Durch mittlerweile mehr als 20.000 Sensoren existiert eine umfangreiche Datenbank mit Luftqualitätsdaten.
Der zweite Anwendungsfall „AgriCOpen“ zielt auf die Bereitstellung von Smart-Farming-Produkten ab, welche aus offen verfügbaren Satellitendaten berechnet werden. Die Satellitenbetreiber stellen dazu die Rohdaten der Messungen zur Verfügung, wie z. B. Aufnahmen verschiedener Wellenlängen. Aus diesen Daten werden Produkte wie der Normalized Difference Vegetation Index (NDVI) abgeleitet, die direkt in modernen Smart-Farming-Umgebungen eingesetzt werden können. Dies ermöglicht eine präzisere Bewässerung und Düngung des Bodens und macht damit die Landwirtschaft nicht nur kostengünstiger, sondern schont zudem Umweltressourcen.
Die Open-Forecast-Plattform
Um die Plattform generisch zu gestalten und dadurch die Instanziierung unterschiedlicher Pipelines zu ermöglichen, wurde die Business Process Model Notation (BPMN) als Beschreibungssprache und Flowable als ausführende Process Engine ausgewählt. Dann wurden in einem ersten Schritt die beiden Anwendungsfälle standardisiert beschrieben. Abbildung 2 zeigt beispielhaft die einzelnen Prozessschritte für den Anwendungsfall „PMFS“, welche dann zur eigentlichen Ausführung noch detailliert heruntergebrochen und an die verwendeten Services angebunden werden. Mit Flowable als zentralem System zum Entwerfen und Ausführen von Workflows können Forschende zudem neue Pipelines erstellen oder existierende mit benutzerdefinierten Parametern starten. Zur Nutzung von HPC-Systemen werden diese über eine API angebunden, welche von deren Charakteristika abstrahiert. Dieser Mechanismus erlaubt es des Weiteren, auch andere Workflow-Systeme neben Flowable zu verwenden.
Das Projekt stellt neben öffentlich zugänglichen Daten auch Services für die Pipeline-Entwicklung sowie für Smart Cities und Smart Farming zur Verfügung.
Ausblick
Der gewählte Ansatz einer generischen Plattform, basierend auf BPMN und Flowable, hat sich als tragfähig erwiesen und wird auch über das Projekt „Open Forecast“ hinaus angewendet. So werden basierend auf diesem Konzept bereits Projekte zur Analyse medizinischer Daten und zur Mustererkennung in den Digital Humanities entwickelt. Open Forecast hat somit mit seinen Arbeiten die Basis für die Datenanalyse-Pipelines in weiteren Forschungsbereichen gelegt.
Literaturhinweise
DOI: 10.5194/acp-2020-968