Forschungsbericht 2015 - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)

Die neue Bioinformatik – eine der großen Herausforderungen für wissenschaftliche Rechenzentren

The new bioinformatics – one of the big challenges for scientific computing centres

Autoren
Bohrer, Rainer
Abteilungen
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG), Göttingen
Zusammenfassung
Die rasante technische Entwicklung in der Molekularbiologie hat die Bioinformatik zur Schlüsseltechnologie werden lassen. Die für die statistische Auswertung, den Transport und die Sicherung der Messergebnisse notwendigen Rechenleistungen, Bandbreiten und Speichervolumina stellen besondere Anforderungen an die IT-Infrastruktur der datenverarbeitenden Rechenzentren. Die gleichzeitig voranschreitende Globalisierung der Forschung erfordert darüber hinaus robuste und langfristig verfügbare Speicherkonzepte, um die erforderliche Nachhaltigkeit zu gewährleisten.
Summary
Due to rapid technological progress bioinformatics becomes to be a key technology of molecular biology. Intensive statistical analysis of such high mounds of data requires considerable compute power and elaborate concepts of data handling like backup, storage and long-term archiving. Because local workgroups and IT divisions are mostly overstrained to carry this out, they need to be supported by computing centres. Internationalization of workflows in research projects requires encrypted pathways to transfer data and collaborating tools on save servers. A proven concept of support is given.

1. Grundlegende Veränderungen in den Lebenswissenschaften

1.1 Molekularbiologie – eine Kernwissenschaft („Core Science“) des 21. Jahrhunderts

Die enormen technischen Fortschritte der letzten zehn Jahre auf dem Gebiet der Gensequenzierung und der Massenspektrometrie haben zu grundlegenden Veränderungen in der Molekularbiologie geführt. Die rasante Entwicklung der Sequenziermaschinen ermöglicht es heute, die Basenabfolge kompletter Genome preiswert und in wenigen Stunden zu bestimmen. Die lokale Auflösung massenspektrometrischer Analysen in der Proteinaufklärung hat zudem inzwischen die Größenordnung einzelner Zellen erreicht. Die steigende Verzahnung der Protein- und Gensequenzanalyse ermöglicht zunehmend, einen Organismus als Gesamtheit zu erfassen. Dies verändert schon jetzt die Forschung im Life-Science-Bereich grundlegend. Für das Ökosystem Mensch, der weit über tausend verschiedene Arten von Organismen in und auf seinem Körper trägt, ergeben sich grundlegend neue Perspektiven der medizinischen Diagnostik und Therapie bis hin zu individuellen, personenbezogenen Medikamenten. Die Erforschung der Funktionen und Wechselwirkungen der gesamten belebten Materie – einschließlich des Menschen – wird einer der wissenschaftlichen Schwerpunkte dieses Jahrhunderts werden. Schon heute arbeiten an fast der Hälfte aller Max-Planck-Institute Wissenschaftler mit molekularbiologischen Methoden.

1.2 Bioinformatik als Schlüsseltechnologie der Molekularbiologie

Die rasante Weiterentwicklung der Messtechnik in den letzten zehn Jahren, wie etwa das Next Generation Sequencing (NGS) und die bildgebenden Verfahren der Massenspektrometrie [1], lässt die Datenmengen massiv ansteigen. Eine einzige Messung liefert Daten im Bereich von mehreren Hundert Gigabyte [2]. Die zur Interpretation der Messergebnisse erforderlichen statistischen Methoden stellen Hard- und Software vor neue Herausforderungen. Deshalb bestimmt in besonderem Maße die adäquate statistische Aufbereitung der Daten die Qualität der wissenschaftlichen Arbeit. Diese Datenflut zwingt zu einer intelligenten Datenaufbereitung und zur Entwicklung von festen Arbeitsabläufen (Best-Practise-Pipelines) in der Datenanalyse.

1.3 Datenspeicherung, Datensicherung und Datensicherheit

Schon weil alleine durch neue statistische Verfahren neue Erkenntnisse an einmal gemessenen Daten möglich sind, ist die Langzeitspeicherung von digitalen Rohdaten erforderlich. Eine DFG-konforme Aufbewahrungspflicht von zehn Jahren und die Notwendigkeit der Fälschungssicherheit digitaler Daten erfordern fast zwangsläufig eine gesicherte Langzeitarchivierung unter Verwendung von Persistent Identifiers (PIDs). Da die Ergebnisse der Forschung auch einen unmittelbaren materiellen Wert darstellen, sind verschlüsselte Datenwege zwingend erforderlich, um Datenintegrität, Datensicherheit und Datenschutz zu gewährleisten.

1.4 Weiterentwicklung der Forschungsstrukturen

Die Forschungslandschaft hat sich in den letzten Jahren stark internationalisiert und weltweit vernetzt, und wissenschaftliche Forschung geschieht heute zunehmend durch weltweite Kooperationen, was eine zeitnahe, intensive sprachliche Kommunikation und Zusammenarbeit notwendig macht. Gemeinsam bearbeitete Dokumente, virtuelle Institute und wissenschaftliche Online-Foren prägen zunehmend den Forschungsalltag.

2. Konzepte, Lösungen und Perspektiven bei der GWDG

2.1 Zentrale und dezentrale Hardware

Um den besonderen Bedürfnissen der Bioinformatik gerecht zu werden, wurde in den letzten Jahren in Zusammenarbeit mit den Benutzern der GWDG ein spezielles Datenmanagement [3] entwickelt (vgl. dazu auch Abbildung 1).

Die meisten heute verwendeten Bioinformatik-Programme sind Open Source und deshalb oft nicht ganz professionell entwickelt. Deshalb sind sie meist nicht in der Lage, mehr als einen Rechenknoten zu benutzen. Dies führt sowohl zu hohen Anforderungen an die Anzahl der Cores pro Knoten als auch an die Größe des verfügbaren Hauptspeichers pro Knoten. Diesem Umstand trägt die GWDG Rechnung, indem sie ihren Benutzern sowohl einen großen Hochleistungs-Rechencluster (HPC-Cluster) als auch einen speziellen, für die Bedürfnisse der Bioinformatik konfigurierten Computeserver anbietet. Die einzelnen Computereinheiten (Rechenknoten) des HPC-Clusters verfügen genau wie der Bioinformatikserver über zusätzlichen lokalen SSD-Speicher, die Knoten des HPC-Clusters bieten zusätzlich ein sehr schnelles, großes Filesystem an, um sowohl große Datenmengen als auch viele Schreib-Lese-Operationen pro Sekunde zu verkraften. Dabei können pro Rechenknoten bis zu 2.048 Gigabyte Hauptspeicher genutzt werden. Über einen weiteren speziellen Server können ausreichend schnell sehr große Datenmengen von außen in das Filesystem des Benutzers einkopiert werden. Dies ist in das tägliche Backup eingebunden, wobei die Daten auf ein Band (optional auch auf ein zusätzliches zweites Band) gesichert werden.

Die primär erzeugten Rohdaten werden in der Regel dezentral in der Nähe des Messgeräts oder bei einem Abteilungs-Fileserver abgelegt, um den temporären Speicher am Messgerät zu entlasten. Von diesen Fileservern werden die Daten meist nachts zur GWDG kopiert und dort zeitnah ins Backup übernommen. Diese Kombination von lokaler und zentraler Datenhaltung ermöglicht sowohl die Arbeit vor Ort als auch mit hoher Rechenleistung remote im Rechenzentrum. Zudem sind die Daten auch bei einer Störung der Netzwerkverbindung zwischen Arbeitsgruppe und GWDG ununterbrochen verfügbar.

2.2 Softwarekonzepte

Aufgrund der Dynamik in der Programmentwicklung der Bioinformatik ist eine hohe Flexibilität erforderlich. Deshalb werden für die Arbeit mit Next Generation Sequencing-Daten einerseits bewährte Programme und Programmpakete zentral zur Verfügung gestellt, andererseits können Benutzer oder Arbeitsgruppen eigene Software, Skripten oder Pipelines in ihren Homedirectories installieren. Zentral zur Verfügung gestellt werden vorwiegend Open-Source-Tools (ca. 50) und einzelne Pakete wie etwa Galaxy (Open Source) und geneXplain (kommerziell). Während die Open-Source-Tools nur über die Kommandozeile zugänglich sind, verfügen die beiden Pakete über eine Webschnittstelle. Ein individueller Support, einschließlich Kurse, ist bei der Installation und Benutzung von Software generell erforderlich, um so auch Benutzern ohne Vorkenntnisse den Einstieg in Linux zu ermöglichen. Durch die Zusammenfassung von Accounts zu speziellen UNIX-Gruppen ist es leicht möglich, auch bei Programmen und Skripten, die von Arbeitsgruppen entwickelt wurden, eine Mandantenfähigkeit zu realisieren. Entwicklung, Einführung und Pflege von Best-Practise-Pipelines geschehen innerhalb der Arbeitsgruppe, können aber auch einer größeren Gruppe zur Verfügung gestellt werden.

2.3 Datenverwaltung in weltweiten Kooperationen

Die Datenübertragung zum Rechenzentrum erfolgt verschlüsselt, und die Dateiverwaltung wird über die intensive Nutzung der im Betriebssystem bereits vorhandenen Zugriffsrechte umgesetzt. Eine spezielle Datenverwaltungssoftware wie etwa ein Datenbanksystem würde sicherlich eine feingliedrigere Rechteverteilung ermöglichen, ist aber davon abhängig, dass diese Fremdsoftware auch noch in zehn bis 15 Jahren unterstützt wird. Davon kann man aber in unserer schnelllebigen Zeit nicht ausgehen. Ist die Datensicherheit bereits auf Betriebssystemebene gewährleistet, wird sie bei der Sicherung und Langzeitarchivierung der Daten (inkl. der Vergabe von PIDs [4]) automatisch weitergegeben.

Für die Verteilung von Messdaten innerhalb von Kooperationen steht ein spezieller Windows-Server zur Verfügung, bei dem durch Gruppenbildung spezielle Zugriffsrechte und eine sichere Datenverteilung ermöglicht werden. Die dort abgelegten Daten werden automatisch auf Platten und Bandkopien gesichert. Bioinformatik-Programme, die nur unter Microsoft Windows zur Verfügung stehen, können dort direkt zur Analyse der Messdaten genutzt werden.

Für die allgemeine wissenschaftliche Kommunikation stehen webbasierte Programme zur gemeinsamen Dokumentbearbeitung (Etherpad und ShareLaTeX), zum Datentransport (Cryptshare), zur Datensynchronisation (GWDG Cloud Share, basierend auf PowerFolder, sowie GWDG ownCloud) zur Verfügung. Weiterhin können zentral gepflegte Softwareprodukte zur Projektverwaltung und -planung, zur Programmentwicklung (z. B. GitLab, DokuWiki u. a.) oder auch virtuelle Webserver genutzt werden.

3. Zukünftige Herausforderungen für die Bioinformatik

Der Anstieg der Veröffentlichung von Gensequenzen humanen Ursprungs (auch wenn sie anonymisiert sind) enthält zunehmend die Gefahr einer Re-Anonymisierung aufgrund eindeutig zuordenbarer Gensequenzen. Ein Missbrauch dieses Wissens kann den betroffenen Personen erheblichen Schaden zufügen. Deshalb gibt es schon seit einiger Zeit eine intensive Zusammenarbeit der GWDG mit verschiedenen anderen Institutionen, um den Datentransport im Internet noch sicherer zu machen.

Wie schon oben ausgeführt, sind viele Open-Source-Programme im Life-Science-Bereich nicht sehr effektiv bei der Nutzung von Hardwareressourcen. Aus ökologischen, ökonomischen und technischen Gründen muss es das Ziel sein, die Hardwareressourcen nicht unnötig zu verbrauchen. Auch hierzu gibt es bereits seit einiger Zeit Forschungsansätze, an denen unter anderem auch die GWDG beteiligt ist. Die Deutsche Forschungsgemeinschaft (DFG) hat zu dieser wichtigen Problematik sogar eine eigene entsprechende Förderlinie aufgelegt [5].

Literaturhinweise

Dihazi, H.; Bohrer, R.; Jahn, O.; Lenz, C.; Majcherczyk, A.; Schmidt, B.; Urlaub, H.; Valerius, O.; Asif, A. R.
Mass spectrometry imaging: linking molecule profiles to tissue spatial distribution
Expert Review of Proteomics 10, 17-20 (2013)

Becker, M.; Hauberg-Lotte, L.; Berger, J.; Oetjen, J.; Trede, D.; Aichler, M.; Dreher, W.; Wildgruber, M.; Steinhorst, K.; Kobarg, J. H.; Schiffler, S.; Heldmann, S.; Thiele, H.; Maass, P.; Walch, A.; Alexandrov, T.
3D MALDI imaging of mouse heart after myocardial infarction
62nd ASMS Conference on Massspectrometry and allied topics, June 15-19, 2014, Baltimore, Maryland (USA) (Poster MP 02)
Löhnhardt, B.; Bohrer, R.; Sax, U.
Aspekte des Managements von NGS-Daten am Standort Göttingen
GMDS 2013 – 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e.V. (GMDS), Lübeck, 01.-05.09.2013. Düsseldorf: German Medical Science GMS Publishing House (2013)

Deutsche Forschungsgemeinschaft (DFG)
DFG-Förderlinie „Performance Engineering für wissenschaftliche Software“
Information für die Wissenschaft, Nr. 75 (18. November 2015)
Zur Redakteursansicht