Forschungsbericht 2007 - Max-Planck-Institut für Astrophysik

Simulationsdaten für alle

Supplying simulation data to the world

Autoren
Lemson, Gerard; White, Simon
Abteilungen

Kosmologie (Prof. Dr. Simon White)
MPI für Astrophysik, Garching

Zusammenfassung
Drei Jahre nach seiner Fertigstellung ist die Millennium Simulation noch immer die größte Simulation kosmologische Struktur Erstehung, die bereits in über 100 Veröffentlichungen [1] resultierte. Der Großteil der Autoren benutzten dabei Web Services des German Astrophysical Observatory (GAVO) um auf die Simulationsdaten zuzugreifen. Dies ist die weltweit umfangreichste Anwendung von Virtual Observatory Techniken zur Publikation theoretischer Datensätze
Summary
Three years since its completion, the Millennium Run remains the largest simulation of cosmological structure formation. Over 100 papers [1] have been written based on its numerical data. More than half of these are by authors who have accessed the data through a web service of the German Astrophysical Virtual Observatory (GAVO). This is the most complete application yet of Virtual Observatory techniques to the publication of theoretical data.

Die öffentliche Bereitstellung großer und komplexer Datenmengen von state-of-the-art kosmologischen Simulationen wie zum Beispiel die der so genannte Millennium-Simulation, bringt Herausforderungen mit sich, die sich von denen unterscheiden und darüber hinausgehen, welchen man bei dem Aufsetzen öffentlicher Archive von Beobachtungsdaten begegnet. Viele dieser Herausforderungen rühren von der großen Vielfalt von Relationen zwischen verschiedenen Objekten in der Simulations-Datenbank, und auch von der Tatsache, dass zahlreiche verschiedene Eigenschaften einzelnen Objekten zugeordnet werden können.

Die meisten Benutzer interessieren sich für die Eigenschaften Dunkler Materie Halos und Galaxien, Objekte die durch Nachbearbeiten der Simulationsdaten erzeugt wurden. Dunkle Materie Halos sind die grundlegenden nichtlinearen Einheiten des simulierten Universums. Sie besitzen Eigenschaften wie Masse, Größe und Position, und zusätzlich interne Substruktur (so genannte Subhalos), die Überbleibsel derjenigen Objekte sind, die während des Halo-Wachstums in diesen gefallen sind und zu seinem Wachstum beitrugen. Das Millennium-Archiv enthält Informationen für ungefähr 750 Millionen Halos und Subhalos. Diese sind alle in einer verketteten Baumstruktur verbunden, die genau angibt wie sich jedes Objekt aus anderen zur direkt davor liegenden Zeit gebildet hat. Dies ist eine wichtige Information, die insbesondere von Galaxienentstehung-Algorithmen benötigt wird.

Die Galaxien-Entstehung ist ein komplizierter und noch recht unklarer Prozess, sodass viele verschiedene physikalische Modelle getestet werden müssen, um ein Modell zu finden, welches die Beobachtungsdaten am besten wiedergibt. Ein Hauptanliegen der Millennium-Simulation ist es, einen Rahmen zum Vergleich verschiedener Galaxien-Entstehungsmodelle mit Beobachtungsdaten bereitzustellen. Darum ist es wichtig simulierte Galaxien-Kataloge mit verschiedenen physikalischen nahmen über die Entstehung von Galaxien zugänglich zu machen. Dadurch können Benutzer ein Gefühl für die Unsicherheiten der jeweiligen Modelle entwickeln. Ein Galaxien-Katalog für die vollständige Millennium-Simulation hat circa eine Milliarde Einträge. Für jede dieser Galaxien können zahlreiche Eigenschaften basierend auf dem zugrunde liegenden Entstehungsmodell berechnet werden, die in der Datenbank abgelegt werden müssen.

Zusätzlich werden Zeiger benötigt, die die Galaxien zu verschiedenen Zeiten miteinander verbinden, wodurch eine Baumstruktur entsteht, die die Entstehungsgeschichte (Merger History) einer jeden einzelnen Galaxie darstellt. Genau wie die Halo-Entstehung kann so die Galaxien-Entstehung damit verfolgt werden.

Ein wichtiger Gesichtspunkt, der berücksichtigt werden muss, ist der Wunsch der Benutzer, die Millennium-Daten für eine Vielzahl sehr verschiedener Projekte und Fragestellungen zu verwenden. Die optimale Art der Bereitstellung der Daten hängt stark von dem entsprechenden Projekt ab. Das Verwenden „flacher Dateien“ ist hierfür nicht flexibel genug. Darum entschied sich die MPA/MPE/GAVO-Gruppe für eine relationale Datenbank zum Abspeichern der bearbeiteten Daten der Millennium-Simulation. Der Hauptvorteil dieses Vorgehens besteht darin, dass solche relationalen Datenbanken eine flexible und intuitive Abfragesprache (SQL=Sequential Query Language) anbieten, die es dem Benutzer erlaubt gezielt Daten nach seinen Bedürfnissen zu selektieren ohne dass er das zugrunde liegende Rohdaten-Format kennen muss. Die Datenbank implementiert diese Sprache mithilfe effizienter Query Engines die komplexe Benutzeranfragen interpretieren und mit höchster Effizienz ausführen.

Online-Zugang zur Millennium-Datenbank ist über ein web-basiertes Abfrage-Interface (Abb. 1) möglich. Neben Dokumentation und Beispielanfragen für die Datenbank, kann der Benutzer dort auch seine eigenen SQL-Anfragen eingeben und ausführen. Die Ergebnisse können direkt zurückgegeben, online dargestellt (Abb. 2) oder für zukünftige Analysen in einer privaten Datenbank, die jedem registrierten Benutzer zur Verfügung steht, abgelegt werden. Dieser Ansatz entspricht dem sehr erfolgreichen Konzept der SkyServer-Datenbank [2], ein online Web Service zum Zugriff auf die Galaxien Kataloge des Sloan Digital Sky Survey.

Momentan hat das Millennium-Archiv mehr als 200 registrierte Benutzer, denen lokaler Plattenspeicher für Aufbewahrung und Manipulation ihrer Abfrageergebnisse zur Verfügung steht. Ungefähr 80% der Benutzer haben erfolgreich Abfragen an die Hauptdatenbank gerichtet. Die Hälfte scheint schon Forschung mit der Datenbank zu betreiben (mehr als 100 erfolgreiche Abfragen), während 20% als anspruchsvolle Benutzer eingestuft werden können (mehr als 1000 erfolgreiche Abfragen). Im Schnitt werden pro Woche über 700 Millionen Datenzeilen von der Seite heruntergeladen und die Benutzergemeinde des Archivs wächst weiter sehr schnell. Allerdings wird es wahrscheinlich noch einige Jahre brauchen um den Erfolg der Datenbank in Bezug auf neue wissenschaftliche Erkenntnisse vernünftig bewerten zu können [3].

Zur Redakteursansicht