Forschungsbericht 2018 - Fritz-Haber-Institut der Max-Planck-Gesellschaft

Ein FAIRes Datenkonzept der von Big Data gesteuerten Materialwissenschaften

Autoren
Scheffler, Matthias; Draxl, Claudia
Abteilungen
Fritz-Haber-Institut der Max-Planck-Gesellschaft, Berlin
Zusammenfassung
Daten sind ein wichtiger Rohstoff des 21. Jahrhunderts. Dies gilt besonders für die Materialwissenschaften. Das Fehlen einer effizienten Infrastruktur zum Datenaustausch hemmt allerdings den Fortschritt des Gebiets. Im Bereich der rechnergestützten Materialwissenschaften wurde in den letzten Jahren mit dem NOMAD CoE (Novel Materials Discovery – Center of Excellence) ein Kulturwandel hin zu einem umfassenden Data Sharing realisiert und der Weg für Big-Data-Analysen geebnet. Dies führt zu neuen Erkenntnissen bis hin zur Entdeckung neuartiger Materialien für technologisch wichtige Anwendungen.  

Abb. 1: Große Datenmengen enthalten Strukturen (Korrelationen), die mit herkömmlichen Methoden nicht erkennbar sind. Wenn es gelingt, geeignete beschreibende Parameter (Deskriptoren) zu finden, wird man eine „Landkarte“ erstellen können, die wahrscheinlich interessante Materialien enthält, die entweder noch nicht genauer untersucht oder bisher noch gar nicht synthetisiert wurden.

Mit Hochleistungscomputern lassen sich unbekannte Eigenschaften von bekannten Materialien berechnen und auch neuartige Materialien vorhersagen. Das ist eine der spannendsten und wirtschaftlich bedeutendsten Anwendungen solcher Rechner. Bei kritischer Betrachtung stellt man jedoch fest, dass diese aufwändigen Untersuchungen bislang nur unvollständig und ineffizient ausgewertet werden und ein Großteil der verfügbaren Information ungenutzt bleibt. Grundlagenforschung und Ingenieurswissenschaften würden in den Materialwissenschaften daher erheblich von einem weitreichenden Data Sharing profitieren. Damit wären nicht nur die wenigen Resultate, die in einer Veröffentlichung erscheinen, sondern die gesamten Rohdaten für interessierte Kreise zugänglich.

Durch die Verfügbarkeit großer Datenmengen, und vor allem originärer Daten, können auch vermeintlich nutzlose Daten einen Wert bekommen. Hierzu ein Beispiel: Ein Forschungsteam hat detaillierte Rechnungen zu TiO2 in Hinblick auf die heterogene Katalyse durchgeführt. Die veröffentlichten Resultate sind für Gruppen, die an anderen Themen interessiert sind, kaum nützlich. Die Darstellung der gesamten Rechenergebnisse in einer Code-unabhängigen und normierten Form, wie sie im NOMAD Archive zu finden sind (dazu unten mehr), ermöglicht aber anderen Forschern und Forscherinnen diese Ergebnisse vielseitig zu verwenden, beispielsweise für die Forschung zur Photovoltaik oder zu den Eigenschaften von TiO2 als weißen Farbstoff in Wandfarben oder Zahnpasta.

NOMAD - ein FAIRes  Konzept

Abb. 2: Struktur des NOMAD CoE (Novel Materials Discovery – Center of Excellence) in dessen Zentrum das High Performance Computing (HPC) der beteiligten Rechenzentren steht. NOMAD Repository & Archive enthalten mehr als 50 Millionen Open-Access-Gesamtenergieberechnungen. Der zugrunde liegende Aufwand der Produktion der Daten entspricht mehreren Milliarden CPU-Core-Stunden auf Hochleistungsrechnern weltweit.

Das NOMAD CoE realisiert im Bereich der rechnergestützten Materialwissenschaften alle Aspekte des sogenannten FAIR-Konzepts [1]: Erzeugte Daten sind für alle daran Interessierten auffindbar (Findable) und problemlos zugänglich (Accessible). Die Darstellung der Daten und Metadaten folgt von der Community anerkannten Standards, und alle Spezifikationen sind offen zugänglich (Interoperable, dessen Bedeutung  in [1, 2] beschrieben ist). Und, die Daten können für Forschungsthemen verwendet werden, die sich von der ursprünglichen Fragestellung unterscheiden, die der Erzeugung der Daten zugrunde lag (Re-purposable oder Re-usable).  

Das vierte Paradigma der Materialwissenschaften (siehe [2]) würdigt, dass viele Eigenschaften von Materialien nicht durch eine geschlossene mathematische Formulierung beschrieben werden können, da sie durch mehrstufige, verschachtelte Prozesse bestimmt sind. Ferner besagt es, dass in Big-Data Korrelationen entdeckt werden können (Strukturen und Muster in den Daten), die durch Untersuchungen kleiner Datenmengen nicht erkennbar sind. Maschinelles Lernen, Compressed Sensing und andere Verfahren der künstlichen Intelligenz können diese Muster identifizieren (Abbildung 1).

Oft beruhen Analysen dieser Art auf einer numerischen Interpolation der bekannten Daten. Die Ursachen der Muster bleiben hierbei aber unklar. Genau hier unterscheiden sich die kausalen Ansätze der FHI-Abteilung Theorie [3] von dem Vorgehen vieler anderer Gruppen, die maschinelles Lernen als rein numerischen Fit verwenden.

Das NOMAD CoE (Abbildung 2) ist durch fünf Bereiche charakterisiert:

  • Sammlung und Organisation weltweit erzeugter Daten (Repository)
  • Transformation der Daten in ein einheitliches Datenarchiv (Code-independent Archive)
  • Enzyklopädie, mit der die Daten des Archives gefunden und betrachtet werden können (Encyclopedia)
  • Analyse der Daten des Archivs mit verschiedenen Methoden der künstlichen Intelligenz und
  • Visualisierung der Daten, auch mit Technologien der Virtuellen Realität (Visualization).

Hier wollen wir kurz auf das NOMAD Repository & Archive eingehen. Bislang werden lediglich theoretische Untersuchungen bedient, aber die Erweiterung des Konzepts auf experimentelle Daten wird bereits diskutiert – unter anderem innerhalb des Max-Planck-Netzwerks BiGmax (Big-Data-driven materials science). Während der Konzeptionsphase des NOMAD Repository im Jahr 2014 wurden im Bereich der rechnergestützten Materialwissenschaften weltweit mehr als 30 verschiedene Computerprogramme verwendet. Diese lösen zwar alle die gleichen Gleichungen, verwenden aber zum Teil völlig unterschiedliche mathematische und numerische Konzepte und Methoden. Damals gab es im Feld weltweit praktisch keine Ansätze des Data Sharing der vollständigen Rechenergebnisse in Form von Input- und Output-Dateien.

Heute gibt es mehrere offene Datenarchive. Diese sind jedoch für geschlossene Nutzergruppen konzipiert und meist auf ein einziges Computerprogramm beschränkt. Im Gegensatz dazu bedient NOMAD die gesamte Vielfalt von Computerprogrammen des Feldes. Jeder kann Daten auf einfache Weise hochladen und selbst bestimmen, ob die Daten sofort oder mit einer Verzögerung  von maximal drei Jahren offengelegt werden sollen. So ermöglicht das NOMAD Repository einfaches Data Sharing und trägt dazu bei, dass bereits ausgeführte Rechnungen nicht wiederholt werden müssen.

Allerdings können mit den heterogenen Daten des Repository keine Big-Data-Analysen durchgeführt werden. Mit großem Aufwand hat das NOMAD CoE daher mehr als 1500 Metadaten definiert, welche die Bedeutung der Daten beschreiben, und Software entwickelt, mit der die Daten in ein Code-unabhängiges Format überführt werden. Nach drei Jahren enthalten NOMAD Repository & Archive bereits mehr als 50 Millionen Open-Access-Gesamtenergieberechnungen aus den Materialwissenschaften, die auf diversen Hochleistungsrechnern weltweit durchgeführt wurden.

Die Aufbauphase wurde durch das Jahresspendenprojekt 2015 der Fördernden Mitglieder der MPG und die Einstein Stiftung unterstützt. Eine weiterführende Beschreibung des NOMAD CoE findet sich in [2] und auf https://nomad-coe.eu.

 

Literaturhinweise

1.
M. D. Wilkinson et al.  
The FAIR Guiding Principles for scientific data management and stewardship
Scientific Data 3, 160018 (2016)
DOI
2.
C. Draxl, M. Scheffler
NOMAD: The FAIR Concept for Big-Data-Driven Materials Science.
Materials Research Society Bulletin, September 2018, im Druck; Retrieved from https://arxiv.org/abs/1805.05039
3.
R. Ouyang, S. Curtarolo, E. Ahmetcik, M. Scheffler, L. M. Ghiringhelli      
SISSO: a compressed-sensing method for identifying the best low-dimensional descriptor in an immensity of o ffered candidates.
Physical Review Materials, August 2018, im Druck; Retrieved from https://arxiv.org/abs/1710.03319
Zur Redakteursansicht