Besserer Zugang zum Rohstoff der Wissenschaft

Weitere Mittel für die Nationale Forschungsdateninfrastruktur sollen den Austausch wissenschaftlicher Daten vereinfachen

5. Juli 2021

Daten sind der Rohstoff der Wissenschaft, und der soll künftig besser zugänglich werden. So dürfte sich nicht zuletzt künstliche Intelligenz effektiver für die Forschung nutzen lassen. Die Gemeinsame Wissenschaftskonferenz (GWK) von Bund und Ländern hat nun zehn weitere Konsortien aus unterschiedlichen Disziplinen genehmigt, die gemeinsam mit den Konsortien einer ersten Runde eine nationale Forschungsdateninfrastruktur aufbauen werden. An einigen Konsortien sind Wissenschaftlerinnen und Wissenschaftler der Max-Planck-Gesellschaft maßgeblich beteiligt.

Die Materialwissenschaften gehören zu den Disziplinen, in denen eine neue Datenkultur bereits Einzug hält: Forschende machen hier Ergebnisse zunehmend für Kolleginnen und Kollegen in nutzbarer Form zugänglich, damit diese zum einen Analysen nachzuvollziehen und zum anderen eigene Forschungsfragen bearbeiten können. So haben Matthias Scheffler, Leiter des NOMAD Laboratory am Fritz-Haber-Institut der Max-Planck-Gesellschaft, und Claudia Draxl, Professorin an der Humboldt-Universität Berlin und Max-Planck-Fellow, gemeinsam mit vielen Kolleginnen und Kollegen die weltweit größte Datenbank namens NOMAD (Novel Materials Discovery Repository, Archive, Materials Encyclopedia and Artificial Intelligence Toolkit) aufgebaut, die Details vornehmlich von Berechnungen zu zahlreichen Materialien enthält. „Ein wesentlicher Nutzen von NOMAD ist, dass Rechnungen jetzt find- und nutzbar sind, und auch für neuartige Fragestellungen verwendet werden können, die in der ursprünglichen Untersuchung keine Rolle gespielt haben“, ergänzt Claudia Draxl. „Dadurch können sich Forscherinnen und Forscher direkt neuen Problemen zuwenden. Und es werden enorme Ressourcen an Rechenzeit und Arbeitskraft eingespart.“

Die Verfügbarkeit vieler Daten ermöglicht aber auch neue Forschungsansätze. So trainieren Forschende mit den NOMAD-Daten Methoden der künstlichen Intelligenz, damit diese lernen, etwa die Kristallstruktur oder elektronische Eigenschaften bislang unbekannter Stoffe vorherzusagen. Die NOMAD-Datenbank bildet nun die Keimzelle des FAIRmat-Konsortiums, das die Konzepte auf die Materialsynthese, Experimente, und die Theorie der kondensierten Materie erweitern wird.

Paradigmenwechsel hin zur datengetriebenen Forschung

FAIRmat (FAIR Data Infrastructure for Condensed-Matter Physics and the Chemical Physics of Solids) ist eines von nun 19 Konsortien aus so unterschiedlichen Bereichen wie Mathematik, Astronomie, Physik, Materialwissenschaft, Chemie, Biologie, Geowissenschaften, Medizin, Linguistik und Sozialwissenschaft, die im ersten Schritt nun jeweils für ihre Disziplin eine Dateninfrastrukturen aufbauen. Im Anschluss soll daraus eine übergreifende nationale Forschungsdateninfrastruktur (NFDI) entstehen. Alle Konsortien haben sich den FAIR-Prinzipien verpflichtet, nach denen Daten zur Verfügung stehen sollen: findable, accessile, interoperable, reusable – also etwa: auffindbar, zugänglich, kompatibel und wiederverwertbar. FAIRmats stellvertretender Sprecher Matthias Scheffler erklärt eine alternative Deutung: „Wir interpretieren das Akronym FAIR zukunftsorientiert: Forschungsdaten sollten auffindbar (findable) und für Künstliche Intelligenz bereit (Artificial-Intelligence Ready) sein.“ In einer zweiten Genehmigungsrunde hat die GWK jedem neuen Konsortien bis zu 15 Millionen Euro für die kommenden fünf Jahre bewilligt. Max-Planck-Wissenschaftlerinnen und -Wissenschaftler treiben neun der neuen Konsortien vor allem aus den Bereichen Chemie, Physik und Technik voran.

Dabei werden die eigentlichen Daten aus experimentellen und theoretischen Forschungsarbeiten auch in der nationalen Forschungsdateninfrastruktur zumindest zum Teil weiterhin bei den beteiligten Institutionen gespeichert: Die Datenmenge ist oft schier zu groß, um sie an einen anderen Speicherort zu übermitteln. Die Konsortien werden aber digitale Kataloge von Metadaten zugänglich machen, das heißt die Information, um welche Daten es sich handelt und unter welchen Bedingungen sie gewonnen wurden. Im Fall der Materialwissenschaft also etwa, bei welcher Temperatur eine Messung gemacht wurde, oder mit welchen Startbedingungen und Näherungen eine Simulationsrechnung vorgenommen wurde. „Der Paradigmenwechsel hin zu „data centric research“ kann nur gelingen, wenn wir durch Metadaten gut charakterisierte wissenschaftliche Ergebnisse haben, und viele davon“, sagt Carsten Baldauf, Bevollmächtigter des Kollegiums und Gruppenleiter am Fritz-Haber-institut, der am FAIRmat-Konsortium beteiligt ist. „Aber wir werden teilweise noch etwas Überzeugungsarbeit leisten müssen, dass es eine gute Idee ist, Daten zu teilen.“

Höhere Anforderungen an Genauigkeit als bei Online-Händlern

Um die Datenmengen nutzen zu können, auch über die Grenzen der einzelnen Disziplinen hinweg, werden die Konsortien nun zunächst Standards festlegen, nach denen die Daten künftig behandelt werden sollen. „Bei der Aufbereitung haben wir deutlich höhere Anforderungen als etwa Online-Händler, die etwas ganz Ähnliches machen. Deren Genauigkeit ist eher mittelmäßig“, sagt Carsten Baldauf. „Bei der Vorhersage etwa von Materialeigenschaften müssen wir viel genauer sein – wir wollen schließlich, dass ein Material gegebenenfalls im Flugzeug funktioniert.“ Damit diese hohen Anforderungen erfüllt werden können, muss den Daten eine entsprechend aussagekräftige und maschinenlesbare Struktur geben. „Wir suchen jetzt motivierte Wissenschaftlerinnen und Wissenschaftler aus den einzelnen Disziplinen und der Informatik, die unsere Begeisterung für einen Paradigmenwechsel in der Wissenschaft teilen, um unser Team zu verstärken und die FAIR-Prinzipien gemeinsam zu realisieren“, sagt Claudia Draxl.

Auch wenn die NFDI in Deutschland aufgebaut wird, sind ihre Aktivitäten international eingebettet. Sie arbeitet zudem mit ähnlich ausgerichteten Initiativen zusammen. Um dafür die Voraussetzungen zu schaffen, tauschen sich die Protagonisten der NFDI heute schon mit internationalen Partnern vor allem aus Europa, aber auch etwa aus den USA, Japan, Korea und China aus. Denn schließlich wird der Rohstoff der Wissenschaft in vielen Institutionen weltweit geschürft. „Mit der nationalen Forschungsdateninfrastruktur investieren wir in die Zukunft“, sagt Matthias Scheffler. „Das ganze Potential der verfügbaren Daten wird sich entfalten, wenn die Scientific Communities die Bedeutung und die Möglichkeiten erkannt haben, Forschungsdaten auffindbar und mit Hilfe von künstlicher Intelligenz nutzbar zu machen.“

Zur Redakteursansicht