Forschungsbericht 2022 - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)

Erforschung von Services für Künstliche Intelligenz in den Lebenswissenschaften

Autoren
Nolte, Hendrik; Mühlhausen, Stefanie; Sommer, Dorothea; Kunkel, Julian
Abteilungen
Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG)
Zusammenfassung
Rechenleistung und Speicherkapazität sind in einer wachsenden Anzahl von wissenschaftlichen Disziplinen von immer größerer Bedeutung, auch in den Lebenswissenschaften. Durch die Fortschritte in der Biotechnologie und die sukzessiv ansteigende Menge an Daten, die in diesem Bereich generiert werden, wird neben Methoden der Künstlichen Intelligenz (KI) und des maschinellen Lernens eine hocheffiziente Recheninfrastruktur zur Umsetzung eben dieser Methoden immer wichtiger.

Motivation

Um komplexe biologische Prozesse zu simulieren und große Datenmengen zu analysieren, ist es für Wissenschaftlerinnen und Wissenschaftler essenziell, leistungsstarke Hardware wie Graphics Processing Units (GPUs) effizient und interaktiv nutzen zu können. Die Lebenswissenschaften haben zusätzlich hohe Anforderungen an Sicherheit, Datenschutz und Verfügbarkeit. Im Rahmen unserer Forschung beschäftigen wir uns auf vielfältige Weise mit der Erforschung von Methoden und Werkzeugen aus der Informatik, um diese Anforderungen mit moderner Hardware umsetzen zu können. Hierbei berücksichtigen wir als überregionales Rechen- und Datenzentrum sowohl die Sicht der Nutzerinnen und Nutzer als auch die Betreibersicht.

Das KI-Servicezentrum für Sensible und Kritische Infrastrukturen „KISSKI“

Mit KISSKI, dem im November 2022 gestarteten und durch das BMBF mit 17 Mio. Euro für zunächst drei Jahre geförderten Verbundprojekt „KI-Servicezentrum für Sensible und Kritische Infrastrukturen“, ist die GWDG maßgeblich an Erforschung, Aufbau und Betrieb eines solchen hochverfügbaren Rechen- und Datenzentrums beteiligt. KISSKI ist eines der vier KI-Servicezentren in Deutschland und macht Göttingen nicht nur zu einem Standort für nationales Hochleistungsrechnen, sondern auch für KI.

Hier erforschen wir Methoden der Künstlichen Intelligenz und deren Bereitstellung in einem hochverfügbaren Servicezentrum. Ein Schwerpunkt liegt dabei auf den Bereichen Energie und Medizin, die ein hohes Potenzial für die KI-gesteuerte Prozessoptimierung in der Datenanalyse aufweisen, gleichzeitig als sensible und kritische Infrastrukturen aber auch besonders hohe Anforderungen an die zugrunde liegende Hard- und Software stellen. Diese Anforderungen umfassen neben hoher Verfügbarkeit auch Aspekte der Datensicherheit, -souveränität und Erklärbarkeit. Von der Bereitstellung der Infrastruktur in Form von Rechen- und Speicherressourcen bis hin zur Entwicklung konkreter Angebote und der damit verbundenen Forschung sind wir involviert. Unser Ziel ist es dabei, nicht nur die Basisdienste bereitzustellen, sondern zugleich zu untersuchen, wie wir den Zugang zu diesen Ressourcen vereinfachen können. Zudem gewinnen wir Erkenntnisse zur Skalierung von zeitkritischen KI-Modellen sowie zur Verarbeitung größter Datenmengen, welche möglichst ressourceneffizient, in Echtzeit und unter Ausnutzung einer heterogenen Hardware realisiert werden sollen. Zusätzlich beschäftigen wir uns mit dem effizienten und sicheren Datenmanagement und erarbeiten Strategien zur Sicherung von Qualität, Integrität und Sicherheit sensibler Daten. Ein weiterer Baustein des Projektes sind Beratungsdienstleistungen und Schulungen zur effizienten Nutzung von Infrastruktur und KI-Modellen.

Während KISSKI erst im Oktober 2022 begonnen hat, haben wir bereits erste Ergebnisse bei der Erforschung von interaktiver Bereitstellung von GPU-Ressourcen erzielt. Alternative Lösungen in Hardware und Software zur Aufteilung einer GPU in kleinere Bereiche für interaktive Nutzungsszenarien wurden umgesetzt und analysiert. Es zeigt sich, dass dies vorteilhaft für den Einsatz von Deep-Learning-Methoden ist, bei denen Prototypen erstellt und Hyperparameter ausgetestet werden müssen, bevor das Modell mit der vollen Leistung laufen kann. Durch die ermöglichte interaktive Nutzung der GPUs können der Entwicklungszyklus beschleunigt und die vorhandenen Ressourcen beim Prototyping oder in der Lehre mit vielen Teilnehmerinnen und Teilnehmern sinnvoll eingesetzt werden.

Im Rahmen von Pilotprojekten und zur Evaluierung der Konzepte steht KISSKI deutschlandweit Forscherinnen und Forschern von Forschungseinrichtungen wie auch der MPG sowie der Industrie offen. Für die MPG eröffnen sich Anknüpfungspunkte für weitere KI-spezifische Dienste und der Zugang zu den entsprechenden Beratungskompetenzen.

Verarbeitung von sensiblen Gesundheitsdaten

Normalerweise ist die Verarbeitung von sensiblen Gesundheitsdaten auf geteilten HPC-Systemen nicht möglich, da hier ein zu großes Risiko besteht, dass das informationelle Selbstbestimmungsrecht verletzt wird. Um dieses Risiko zu minimieren, haben wir bei der GWDG in Kooperation mit dem Verbund für Nationales Hochleistungsrechnen (NHR) einen neuen Service namens „Secure HPC“ erforscht. Hier können Nutzerinnen und Nutzer unserer HPC-Systeme auf speziell isolierten Partitionen auch sensible Daten verarbeiten.

Einer der ersten Anwendungsfälle ist hier der Einsatz in der Universitätsmedizin Göttingen (UMG), wo volumetrische Analysen von MRT-Daten mittels FastSurfer zeitgleich mit den Scannerrekonstruktionen im PACS (Picture Archiving and Communication System) zur Verfügung gestellt werden sollen. Dazu wurden von Siemens die Messprotokolle auf den Scannern umgestellt, sodass die für die Analyse benötigten Daten zuerst aufgenommen werden.

Erst im Anschluss sollen die übrigen Scans laufen, woraus sich die harten Laufzeitanforderungen ergeben: Die Analyse muss grob innerhalb von zehn Minuten durchgelaufen sein, um zeitgleich mit den Scannerrekonstruktionen zur Verfügung zu stehen. In einem ersten Test wurde mit einer Workstation innerhalb der UMG getestet, wo eine herkömmliche Gaminggrafikkarte zum Einsatz kam. Dort wurde eine Laufzeit von knapp 20 Minuten erreicht. Unter Verwendung einer RTX5000 Graphical Processing Unit (GPU) auf dem gleichen System wurde jedoch die Laufzeit auf zehn Minuten reduziert, wodurch diese Lösung die kritische Schwelle erreicht hat und eingesetzt werden kann. Die erforschte Lösung kann künftig als Blaupause für beliebige Problemstellungen genutzt werden.

 

Zur Redakteursansicht