Forschungsbericht 2011 - Deutsches Klimarechenzentrum

Datenflut in der Klimaforschung und daraus resultierendes Datenmanagement am DKRZ

Autoren
Michael Böttinger, Stephan Kindermann, Jana Meyer, Hans Ramthun
Abteilungen
Deutsches Klimarechenzentrum
Zusammenfassung
2010 wurde die Gruppe „Modelle & Daten“ ins DKRZ als Abteilung „Datenmanagement“ integriert, welche verantwortlich ist für das WDCC, Konsortialrechnungen sowie einen Langzeit-Archivierungsservices. Das DKRZ ist Partner bei Metafor - einem Projekt, welches ein einheitliches Informationsmodell entwickelt und eine einheitliche Nomenklatur für die in der Klimamodellierung gebrauchten Begriffe aufgestellt hat. 2010 informierte das DKRZ die Öffentlichkeit aktiv über seine Arbeit. Neben der Teilnahme an öffentlichen Veranstaltungen organisierte das DKRZ erstmalig eigene Konferenzen.

Metafor CIM – eine Standardbeschreibung für Klimamodell-Daten

Ziel der Klimaforschung ist es, das gesamte Klimasystem mit all seinen physikalisch-chemisch-biologischen Prozessen und Wechselwirkungen zu verstehen und mit Modellen möglichst wirklichkeitsnah zu reproduzieren. Klimamodelle sind umfangreiche Computerprogramme, mit denen das Klimasystem simuliert wird. Diese Computerprogramme werden mit bestimmten Einstellungen betrieben, die für einzelne Simulationen variiert und als Experimente zusammengefasst werden. Solche Experimente werden auf Höchstleistungsrechnern durchgeführt und liefern sehr große Datenmengen, welche in einem Archiv so gespeichert werden müssen, dass die weitere Auswertung möglichst effizient erfolgen kann.

Die Ergebnisse der Klimamodellierung sollen allen Interessierten, Wissenschaftlern wie auch anderen Personen oder Institutionen zur Verfügung stehen. Vor einer Benutzung für bestimmte Fragestellungen, z.B. zum Auffinden und zur Abschätzung der Relevanz und Qualität der Daten, müssen alle Komponenten wie Modell, Rechner, Experiment, Daten und Qualität beschrieben und parallel zu den eigentlichen Daten abgespeichert werden. Hierfür werden sogenannte Metadaten verwendet.

Logo des Metafor-Projektes

Das Projekt Metafor steht für Common Metadata for Climate Modelling Digital Repositories (Gemeinsame Metadaten für die digitale Speicherung von Klimamodellen, Abb. 1, [1]). Innerhalb des Metafor-Projektes wurde dafür das Common Information Model (CIM) entwickelt. Dieses Modell ermöglicht es, alle benutzten Komponenten und Parameter von Klimamodellen einheitlich zu beschreiben. Diese Beschreibungen werden in einem gemeinsamen Repository  gesammelt und dienen der besseren Interpretierbarkeit der Datensätze. Auf dieser Grundlage können Wissenschaftler Daten anhand von wissenschaftlichen Merkmalen finden und einordnen. Das Metafor CIM kann und sollte ,das Standard-Schema' für die weltweite Klimaforschung werden.

Das zugrunde liegende abstrakte Datenmodell wurde in der Unified Modeling Language (UML) erstellt. Aus dem UML-Modell können konkrete Datenmodelle abgeleitet werden, die etwa zum einheitlichen Informationsaustausch zwischen verschiedenen Forschungsgruppen eingesetzt werden können.

Ziel des Metafor-Projektes war - neben der Entwicklung eines einheitlichen Informationsmodelles – eine einheitliche Nomenklatur für die in der Klimamodellierung gebrauchten Begriffe zu sammeln und abzustimmen. Alle am Projekt beteiligten Klimamodellierungszentren sollen zukünftig damit ihre Modelle und Datensätze einheitlich beschreiben.

Auf dieser Grundlage wurde Metafor von dem World Climate Resarch Programme (WCRP) beauftragt, die Metadaten zum fünften internationalen Modellvergleichsexperiment (CMIP5) zu sammeln. Dieses Experiment wird die wissenschaftliche Basis für den fünften IPCC-Sachstandsbericht liefern.

Screenshot des „CMIP5-Metadata-Questionnaire“, der im Rahmen des Metafor-Projektes entwickelt wurde und es  erstmalig in der Geschichte der Klimaforschung erlaubt, Modelle und Daten basierend auf ihren wissenschaftlichen Charakteristika einheitlich zu vergleichen und einzuordnen.

Um diese Aufgabe zu bewältigen, entwickelte Metafor ein web-basiertes Framework, um die Modelle, Experimente, die dazugehörigen Simulationen, Gitter, genutzte Rechnersysteme und verwendete Einstellungen sowie daran beteiligten Personen und Institute zentral zu erfassen. Dieses sogenannte „CMIP5-Questionnaire“ (Abb. 2, [2]) wird es erstmalig in der Geschichte der Klimaforschung erlauben, Modelle und Daten basierend auf ihren wissenschaftlichen Charakteristika einheitlich zu vergleichen und einzuordnen.

Weltweit sind alle wichtigen Modellierungszentren an dem CMIP5-Projekt beteiligt, so auch das Max-Planck-Institut für Meteorologie (MPI-M) in Hamburg. Das MPI-M hat an der Entwicklung von CIM verarbeitenden Werkzeugen in Metafor maßgeblich mitgearbeitet. Das World Data Center for Climate (WDCC, [3]), welches vom DKRZ betrieben wird, agiert zudem als Datenknoten, um CMIP5-Modelldaten abzuspeichern sowie als Gateway, um wissenschaftlichen Anwendern die Infrastruktur mit dem Zugang zu den Daten bereitzustellen.

Öffentlichkeitsarbeit am DKRZ

Zur Eröffnung der 2. Hamburger Klimawoche informiert sich der Erste Bürgermeister der Freien und Hansestadt Hamburg Christoph Ahlhaus am gemeinsamen Stand des DKRZ, CSC, KlimaCampus und Max-Planck-Institut über mögliche zukünftige Niederschlagsänderungen.

2010 verstärkte das DKRZ seine Bemühungen, die Öffentlichkeit aktiv über die Arbeit des DKRZ und über Ergebnisse der Klimamodellierung zu informieren. Unter anderem nahm das DKRZ am Hamburger Girls Day, dem 5. Extremwetterkongress in Bremerhaven, der Jahrestagung der GKSS und der 3. Hamburger Klimawoche (Abb. 3, [4]) sowie bei der Veranstaltung des Deutschen Klima-Konsortiums „Vor Cancún – Aktueller Stand der Klimaforschung“ [5] in Berlin mit einem Informationsstand teil.

In seinem Hause begrüßte das DKRZ mehr als 40 Besuchergruppen mit insgesamt über 230 Besuchern, die sich über aktuelle Klimaforschung und Klimamodellierung sowie die Arbeit des DKRZ informieren und die Rechnerräume und die Datensilos besichtigen wollten.

Im Juni 2010 erschien erstmalig das neue Mitteilungsblatt des DKRZ, welches über aktuelle Ereignisse am DKRZ berichtet. Die Mitteilungen werden zukünftig in unregelmäßigen Abständen mehrmals im Jahr erscheinen und den Umfang von zwei Seiten nicht übersteigen. Bis Ende 2010 abonnierten 142 Leser das Mitteilungsblatt.

Das DKRZ präsentierte sich und seine Arbeit ebenfalls auf nationalen und internationalen Konferenzen wie im Mai auf der „International Supercomputing Conference“ (ISC’10) in Hamburg und im November auf der „Supercomputing Conference“ (SC’10) in New Orleans.

Weiterhin organisierte das DKRZ 2010 eigene Veranstaltungen: So fand im September 2010 die „First International Conference on Energy-Aware High Performance Computing“ [6] statt. Initiator dieser neuen Konferenzserie ist Prof. Dr. Ludwig. Die Veranstalter sind die Universität Hamburg (Fachbereich Informatik), die Firma HiTEC, die die administrativen Aufgaben abwickelt, und das DKRZ. Ziel der Konferenz ist es, Hersteller, Anwender und Forscher aus dem Bereich der Informatik zusammenzubringen, um gemeinsam über die wichtige Frage des Energieverbrauchs beim Hochleistungsrechnen zu diskutieren und neue Ansätze zu einer Verringerung des Verbrauchs zu erarbeiten.

Ebenfalls im September war das DKRZ erstmalig Gastgeber für die Jahrestagung HPSS Users Forum 2010 [7]. Zu Gast waren mehr als 65 Anwender und Entwickler des High Performance Storage System (HPSS), einem Hierarchischen Speichermanagement System zur Verwaltung größter Datenarchive. Mit den Teilnehmern aus USA, Europa und Japan waren die Betreiber der weltgrößten Datenarchive mit einer verwalteten Datenmenge von insgesamt 170 PB (1 PetaByte entspricht 1 Mio. Gigabyte) versammelt. Das DKRZ selbst betreibt ein 65 PetaByte fassendes Klimadatenarchiv und nimmt damit eine Spitzenstellung im Kreis der weltgrößten HPSS-Installationen ein. Die Konferenz fand zum zweiten Mal in Europa statt, was dem wachsenden Interesse an HPSS in Europa Rechnung trägt.

 

Zur Redakteursansicht