Forschungsbericht 2013 - Max-Planck-Institut für Intelligente Systeme, Standort Tübingen

Mit intelligenten Systemen komplexen Krankheiten auf der Spur

Autoren

Borgwardt, Karsten

Abteilungen

Forschungsgruppe „Maschinelles Lernen und Systembiologie“

Zusammenfassung

Die Medizin sammelt immer umfangreichere Datenbestände über den Gesundheitszustand von Patienten. Schlummert in diesen Datenmengen unbekanntes Wissen über Krankheiten, das zu ihrer Behandlung beitragen könnte? Das Maschinelle Lernen entwickelt Verfahren, mit deren Hilfe man solches Wissen aus großen biomedizinischen Datenbanken gewinnen kann.

Mehr Patientendaten denn je zuvor

Einer der bisher wichtigsten Momente für die Wissenschaft im 21. Jahrhundert war die Veröffentlichung der Rohfassung der Sequenz des menschlichen Genoms im Jahr 2001. Mehr als ein Jahrzehnt an Arbeit und mehr als zwei Milliarden Euro an Finanzierung flossen insgesamt in dieses öffentlich geförderte Projekt. Heute, nur 13 Jahre später, kann man das Genom eines Menschen innerhalb einer Woche für weniger als 4000 Euro sequenzieren. Bald soll das Sequenzieren gar zu einer Routinetechnik im klinischen Alltag werden.

Dabei ist die Genomsequenzierung nur ein Beispiel dafür, welche enormen Fortschritte im letzten Jahrzehnt darin gemacht wurden, den Gesundheitszustand eines Patienten bis auf die molekulare Ebene hin aufzuzeichnen. Seien es bildgebende Verfahren wie die Computertomographie oder Microarrays, die den Aktivitätszustand aller Gene in einer Probe messen – eine Vielzahl von Werkzeugen steht zur Verfügung und ihre Zahl wächst beständig.

Den Datenschatz heben, um Krankheiten besser zu verstehen

Aus diesen Datensammlungen der Medizin erhofft man sich Einblicke in brennende Fragen der biomedizinischen Forschung. Zum Beispiel: Warum treten Krankheiten in manchen Familien gehäuft auf? Warum reagiert eine Patientengruppe auf ein Medikament, eine andere jedoch nicht? Um solche Fragen zu beantworten, sucht man auf der Ebene der Gene und Proteine nach Veränderungen, die das Auftreten einer erblichen Krankheit oder die Nichtreaktion auf ein Medikament wahrscheinlicher machen. Da man dabei Zehntausende Gene, Zehntausende Proteine und Milliarden von Positionen im menschlichen Genom durchsuchen muss, ist diese Art der Forschung ohne die Unterstützung von Computern undenkbar. Neue Computerprogramme, sogenannte Algorithmen, werden benötigt, um solche Einblicke überhaupt möglich zu machen.

Das Forschungsgebiet der Informatik, das sich diesem Thema widmet, wird als Maschinelles Lernen oder als Data Mining bezeichnet. Man spricht vom Maschinellen Lernen, da man den Zusammenhang zwischen zwei Variablen, den molekularen Eigenschaften eines Patienten und einer Krankheit, mittels einer Maschine, eines Computers, verstehen bzw. erlernen möchte. Von Data Mining, wörtlich Daten-Bergbau, ist die Rede, da man in gewaltigen Datenbergen nach neuem Wissen „schürft“.

Algorithmen als Werkzeuge der medizinischen Forschung

Die Forschungsgruppe für „Maschinelles Lernen in der Systembiologie“ am Max-Planck-Institut für Intelligente Systeme in Tübingen beschäftigt sich unter der Leitung von Prof. Dr. Karsten Borgwardt mit eben dieser Entwicklung von Algorithmen, die Biomedizinern bei der Analyse ihrer Daten helfen sollen. Genetiker suchen zum Beispiel mittels der Genomdaten von Tausenden Patienten nach einzelnen Sequenzvarianten, die mit einem erhöhten Krankheitsrisiko einhergehen. Dabei betrachten sie Hundertausende einzelner Positionen im Genom. Biologisch gesehen wäre es sehr interessant, auch Paare oder Gruppen solcher Positionen zu untersuchen, da biologische Effekte häufig durch das Zusammenwirken mehrerer Moleküle hervorgerufen werden. Allerdings stellt dies ein gewaltiges Rechenproblem dar, da man dazu Abermillionen möglicher Gruppen durchlaufen muss. Die Forschungsgruppe hat neue Algorithmen entwickelt, mit denen man solche Gruppen veränderter Positionen im Genom schnell aufspüren kann [1, 2]. Effiziente Sortierverfahren aus der Algorithmik, effiziente Suchverfahren aus der Graphentheorie, Umformungen aus der Matrizenalgebra – die neu entwickelten Algorithmen bauen auf Erkenntnissen aus unterschiedlichen Zweigen der Informatik und Mathematik auf, um diese Effizienz zu erreichen. Die Suche nach veränderten Paaren von Positionen im Genom kann dadurch massiv beschleunigt werden, oft um den Faktor 1000 oder mehr. Als Teil internationaler Forschungskonsortien arbeitet das Team nun daran, in großen Datenbeständen solche komplexen genetischen Veränderungen zu finden, die mit dem Auftreten einer Krankheit, zum Beispiel mit klinischer Migräne, korrelieren.

Ein weiteres hochrelevantes Thema ist die Frage, unter Tausenden chemischer Verbindungen jene zu finden, die eine gewünschte Funktion, insbesondere eine medikamentöse Wirkung, besitzen. Das Maschinelle Lernen kann hier wiederum von Nutzen sein, indem es hilft, die große Anzahl an möglichen Kandidaten zu verringern. Dies geschieht zumeist dadurch, dass man Ähnlichkeiten zwischen Verbindungen mit bekannter Wirkung und den Tausenden Kandidatenwirkstoffen berechnet. Die Wirkstoffe, die den bekannten Medikamenten am meisten ähneln, sind dann die aussichtsreichsten Kandidaten und können in weiteren Studien im Labor genauer unter die Lupe genommen werden. Diese Ähnlichkeiten zwischen Wirkstoffen zu berechnen, ist ein schwieriges algorithmisches Problem, insbesondere je größer die beteiligten Moleküle sind. Die Forschungsgruppe für Maschinelles Lernen in der Systembiologie hat entscheidend zur Lösung dieses Problems beigetragen durch Arbeiten, die den Vergleich selbst größter Moleküle enorm beschleunigen [3, 4]. Entscheidend ist hierbei, die Struktur der Moleküle so durch Zahlen darstellen zu können, dass die Zahlendarstellung möglichst viel der ursprünglichen Struktur widerspiegelt und eine effiziente Berechnung von Ähnlichkeiten zulässt.

Zukünftige Studien werden versuchen, ein noch präziseres Bild der Wirkung von chemischen Verbindungen zu zeichnen. Denn durch die Fortschritte bei der Erbgutbestimmung kann man nun auch aufzeichnen, welche genetischen Eigenschaften die Personen besitzen, bei denen ein Molekül eine medikamentöse Wirkung zeigt – und wie sie sich von jenen unterscheiden, bei denen es nicht anschlägt. Wenn man sich vorstellt, dass man bald die Wirkung von Zehntausenden Verbindungen in Zehntausenden Patienten messen können wird, wird klar, welche enorme Rechenaufgaben es bei der Analyse dieser Daten noch zu lösen gilt und welche wichtige Funktion das Maschinelle Lernen hierbei einnehmen wird.

Vision der personalisierten Medizin

Diese Art der Forschung dient letztlich dem Ziel, die Vision der personalisierten Medizin Wirklichkeit werden zu lassen – der Ausrichtung der medizinischen Behandlung auf die molekularen Eigenschaften jedes einzelnen Patienten. Kennt man die Genomabschnitte, die ein erhöhtes Krankheitsrisiko oder eine Medikamentenunverträglichkeit hervorrufen, kann man bei Hochrisikopatienten früher Vorsorgeuntersuchungen ansetzen und Medikamente wählen, bei welchen man bei einem bestimmten Patienten mit einer höheren Wirksamkeit rechnet. Das Maschinelle Lernen kann auf dem Weg hin zu diesem Ziel durch neue Werkzeuge der Datenanalyse einen entscheidenden Beitrag leisten.

Abb. 1: Das Netzwerk „Maschinelles Lernen in der Personalisierten Medizin (mlpm)“ bildet Nachwuchswissenschaftler aus. — **Abb. 1**: Das Netzwerk „Maschinelles Lernen in der Personalisierten Medizin (mlpm)“ bildet Nachwuchswissenschaftler aus.

**Abb. 1**: Das Netzwerk „Maschinelles Lernen in der Personalisierten Medizin (mlpm)“ bildet Nachwuchswissenschaftler aus.

Wenn man das volle Potenzial des Maschinellen Lernens in der Medizin ausnutzen möchte, setzt dies allerdings voraus, dass Nachwuchswissenschaftler in ausreichender Anzahl ausgebildet werden, die sowohl mit den informatischen als auch den biomedizinischen Aspekten dieses interdisziplinären Themas vertraut sind. Dies ist eine große Herausforderung, denn zurzeit gibt es in diesem wichtigen Feld nur sehr wenige Experten. Daher fördert die Europäische Union im Rahmen der Marie-Curie-Maßnahmen ein Forscher-Erstausbildungsnetzwerk über „Maschinelles Lernen in der personalisierten Medizin“ (Abb. 1) mit 3,75 Millionen Euro, in welchem Doktoranden in diesem Bereich ausgebildet werden. Dieses von Prof. Borgwardt geleitete Netzwerk bringt im Bereich des Maschinellen Lernens und der Statistischen Genetik zehn führende europäische Forschungseinrichtungen aus Wissenschaft und Industrie zusammen, um 14 Nachwuchsforscher fächerübergreifend in einem gemeinsamen Doktorandenprogramm zu unterrichten (www.mlpm.eu).

Zudem fördert die Alfried Krupp von Bohlen und Halbach-Stiftung die Forschungsarbeit von Prof. Borgwardt von 2013 bis 2018 durch den Alfried-Krupp-Förderpreis für junge Hochschullehrer mit 1 Million Euro.

Literaturhinweise

Achlioptas, P.; Schölkopf, B.; Borgwardt, K. M.

Two-locus association mapping in subquadratic time

In: Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, New York 2011, pp. 726-734

Azencott, C.-A.; Grimm, D.; Sugiyama, M.; Kawahara, Y.; Borgwardt, K. M.

Efficient network-guided multi-locus association mapping with graph cuts

Bioinformatics 29, 171-179 (2013)

Shervashidze, N.; Schweitzer, P.; van Leeuwen, E. J.; Mehlhorn, K.; Borgwardt, K. M.

Weisfeiler-Lehman Graph Kernels

Journal of Machine Learning Research 12, 2539-2561 (2011)

Feragen, A.; Kasenburg, N.; Petersen, J.; de Bruijne, M.; Borgwardt, K.

Scalable kernels for graphs with continuous attributes

In: Advances in Neural Information Processing Systems 26. (Eds.) Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. NIPS 2013, pp. 216-224