Forschungsbericht 2009 - Max-Planck-Institut für Informatik

Medizinische Bioinformatik: Molekulare Modellierung von Krankheiten und Analyse relevanter Proteininteraktionen

Autoren

Albrecht, Mario; Blankenburg, Hagen; Mayr, Gabriele

Abteilungen

Bioinformatik und Angewandte Algorithmik (Prof. Dr., Ph. D. Thomas Lengauer)
MPI für Informatik, Saarbrücken

Zusammenfassung

Proteine sind an vielen Lebensvorgängen in Zellen beteiligt. Das Wissen über ihr komplexes Zusammenspiel auf molekularer Ebene liefert wichtige Einsichten in Krankheiten und zelluläre Prozesse. Experimentell bestimmte Proteininteraktionen werden zurzeit weltweit in Datenbanken gesammelt. Bioinformatiker am Max-Planck-Institut für Informatik entwickelten daher ein leicht benutzbares Internetsystem, das den globalen Zugriff auf die Daten erleichtert. Bioinformatikmethoden werden zudem in Detailstudien von Proteininteraktionen und ihrer 3D-Struktur sowie krankheitsrelevanten Funktion angewandt.

Proteininteraktionen in Zellen

Ausschnitt aus einem molekularen Netzwerk menschlicher Proteine. Farbige Kreise repräsentieren Proteine. Ihre Interaktionen sind durch blaue Linien dargestellt. Gelbe Kreise heben vier verschiedene Ataxine hervor, die an bestimmten neurodegenerativen Erkrankungen beteiligt sind.

© Max-Planck-Institut für Informatik

Ausschnitt aus einem molekularen Netzwerk menschlicher Proteine. Farbige Kreise repräsentieren Proteine. Ihre Interaktionen sind durch blaue Linien dargestellt. Gelbe Kreise heben vier verschiedene Ataxine hervor, die an bestimmten neurodegenerativen Erkrankungen beteiligt sind.

© Max-Planck-Institut für Informatik

Proteine sind an nahezu allen Lebensvorgängen in Zellen beteiligt, beispielsweise am Transport von Stoffen, der Übermittlung von Signalen oder der Beschleunigung biochemischer Prozesse. Dabei interagieren Proteine häufig miteinander, um ihre biologischen Aufgaben zu erfüllen [1]. Um die entsprechenden Prozesse in den Zellen zu verstehen, ist es daher notwendig, das komplexe Zusammenspiel der Proteine zu kennen. Störungen von Interaktionen zwischen einzelnen Proteinen stehen darüber hinaus im Verdacht, eine entscheidende Rolle bei der Entstehung von Krankheiten zu spielen (Abb. 1).

Durch ein besseres Verständnis der Wechselwirkungen von Proteinen könnten somit auch neue Behandlungsmöglichkeiten eröffnet werden. Hierbei helfen Methoden der Bioinformatik Biowissenschaftlern, die molekulare Funktion einer Proteininteraktion zu verstehen und zu analysieren sowie die miteinander interagierenden Regionen der Proteine zu bestimmen (Abb. 2) [2–6].

Beispielhafte Interaktion zwischen den Proteinen HHR23B und Ataxin-3. Die farblich gekennzeichneten Proteinregionen besitzen unterschiedliche 3D-Strukturen und Interaktionen. Bioinformatikmethoden helfen, die funktionellen Unterschiede der Proteininteraktionen aufzudecken und zu analysieren sowie den jeweiligen Interaktionspartner einer Proteinregion zu bestimmen. Im dargestellten Beispiel interagieren die beiden Proteinregionen UBL und Josephin miteinander.

© Max-Planck-Institut für Informatik

Beispielhafte Interaktion zwischen den Proteinen HHR23B und Ataxin-3. Die farblich gekennzeichneten Proteinregionen besitzen unterschiedliche 3D-Strukturen und Interaktionen. Bioinformatikmethoden helfen, die funktionellen Unterschiede der Proteininteraktionen aufzudecken und zu analysieren sowie den jeweiligen Interaktionspartner einer Proteinregion zu bestimmen. Im dargestellten Beispiel interagieren die beiden Proteinregionen UBL und Josephin miteinander.

© Max-Planck-Institut für Informatik

Verfügbarkeit von Proteininteraktionsdaten

Um das volle Potenzial der weltweit verteilten Informationen zu Proteininteraktionen ausschöpfen zu können, müssen diese Daten für Wissenschaftler leicht und jederzeit aktuell verfügbar sein. Gerade in den letzten Jahren entwickelte sich die Forschung auf diesem Gebiet rasant weiter, sodass immer mehr Interaktionsdaten durch Forschergruppen auf der ganzen Welt generiert werden. Diese Flut an verfügbaren Informationen ist für die Wissenschaft zwar eine große Chance, für den einzelnen Forscher gestaltet es sich jedoch zunehmend schwierig, den Überblick über die bereits vorhandenen Daten zu wahren. Um alle bekannten Interaktionspartner eines bestimmten Proteins zu finden, muss man beispielsweise derzeit bis zu hundert verschiedene Datenbanken im Internet durchsuchen und ihre Inhalte zusammenführen. Da außerdem bisher erst ein geringer Prozentsatz aller im Menschen stattfindenden Wechselwirkungen zwischen Proteinen bekannt ist, wird sich der damit verbundene Zeitaufwand in naher Zukunft weiter vergrößern.

Neues System für den Datenaustausch

Aufbau des Internetsystems zum weltweiten Austausch von Proteininteraktionsdaten. In diesem Beispiel stellen drei verschiedene Webserver Interaktionsdaten über Proteine zur Verfügung. Ein weiterer Webserver bietet Qualitätsdaten zu den Proteininteraktionen an. All diese Daten werden über das Internet automatisch zusammengetragen und im Webbrowser des Wissenschaftlers als Proteinnetzwerk angezeigt.

© Max-Planck-Institut für Informatik

Aufbau des Internetsystems zum weltweiten Austausch von Proteininteraktionsdaten. In diesem Beispiel stellen drei verschiedene Webserver Interaktionsdaten über Proteine zur Verfügung. Ein weiterer Webserver bietet Qualitätsdaten zu den Proteininteraktionen an. All diese Daten werden über das Internet automatisch zusammengetragen und im Webbrowser des Wissenschaftlers als Proteinnetzwerk angezeigt.

© Max-Planck-Institut für Informatik

In Zusammenarbeit mit Kollegen in England am Wellcome Trust Sanger Institute und dem European Bioinformatics Institute entwickelten daher Bioinformatiker am Max-Planck-Institut für Informatik in Saarbrücken ein neuartiges System, um den Zugang zu Proteininteraktionsdaten stark zu vereinfachen [7–9]. In der Vergangenheit vorgestellte Ansätze hatten das Ziel, die global verstreuten Informationen durch zentrale Datenspeicherung besser verfügbar zu machen. Die Zusammenführung der Daten verursacht jedoch einen großen zeitlichen Pflegeaufwand, da die zentral gespeicherten Informationen stets auf dem aktuellen Stand zu halten sind. Daher wurde als Grundlage für das neue System eine verteilte Architektur gewählt (Abb. 3). Statt all die Informationen zu Proteinwechselwirkungen an einem zentralen Ort zu sammeln, bleiben sie dort, wo sie herstammen. Das hat insbesondere den Vorteil, dass die angezeigten Interaktionsdaten stets aktuell sind, da die verteilten Datenquellen erst bei Bedarf über das Internet abgefragt werden.

Qualitative Bewertung der Daten

Auch das Problem der Bewertung der unterschiedlichen Qualität von Interaktionsdaten [5–6] lässt sich mit dem neuen Internetsystem lösen. Jede bisher angewandte Messmethode zur Bestimmung von Proteininteraktionen hat neben ihren Stärken auch bestimmte Schwächen. So werden in Experimenten Interaktionen zwischen Proteinen manchmal fälschlicherweise nachgewiesen oder bleiben unentdeckt, obwohl sie in der Zelle vorkommen. Das System ermöglicht es nun, die Zuverlässigkeit von einzelnen gemessenen Interaktionen zu bewerten. Da es viele verschiedene Bewertungskriterien für die Qualität von Interaktionsdaten gibt, kann keine Institution alle anbieten. Durch eine dezentrale Verteilung der Qualitätsdaten kann sich jede Forschungsgruppe auf einzelne Aspekte der Qualitätsbeurteilung fokussieren, zum Beispiel auf die Bewertung der funktionellen Ähnlichkeit der Interaktionspartner. Die einzelnen Qualitätswerte werden dann vom System über das Internet automatisch zusammengetragen und dem Benutzer auf einer Webseite präsentiert. Die freie Verfügbarkeit und die einfache Erweiterbarkeit des neuen Systems erlaubt es Forschergruppen, ihre Ergebnisse anderen Wissenschaftern ohne Aufwand weltweit zur Verfügung zu stellen.

DNA-Sequenz und Proteinstruktur und -funktion

Die DNA-Sequenz eines Gens gibt vor, in welcher Reihenfolge die darin kodierten Aminosäuren zu einem Protein zusammengesetzt werden. Somit stellt sie den genetischen Bauplan eines Proteins dar. Insbesondere bestehen Proteine oft aus mehreren Interaktionsregionen, die charakteristische 3D-Strukturen besitzen (Abb. 2). Eine Proteininteraktion kann nun durch strukturelle Änderungen erheblich gestört werden, wie sie zum Beispiel durch Punktmutationen verursacht werden. Diese führen zum Austausch einzelner Aminosäuren im Protein, was bedeutende Veränderungen seiner intra- und intermolekularen Wechselwirkungen zur Folge haben kann. Die hierdurch beeinträchtigte Funktion des Proteins und des involvierten biologischen Prozesses kann dann Krankheiten verursachen.

Genetische Variationen der DNA und Krankheiten

Menschen unterscheiden sich durch individuelle genetische Veränderungen der DNA-Sequenz voneinander. Am häufigsten treten sogenannte Single Nucleotide Polymorphisms (SNPs) auf. Hierbei handelt es sich um Punktmutationen der DNA, die mit größerer Wahrscheinlichkeit als andere Sequenzvariationen auftreten. Populationsstudien zeigen, dass bestimmte SNPs gehäuft in einzelnen Bevölkerungsgruppen auftreten und für die Anfälligkeit gegenüber Krankheiten und für die Schwere ihres Verlaufs maßgeblich sein können. Außerdem können SNPs die Verträglichkeit und Wirkung von Medikamenten beeinflussen. Die biomedizinische Forschung ist daher besonders an den molekularen Veränderungen interessiert, die durch SNPs verursacht werden.

SNPs bei chronischen Darmentzündungen

Krankheitsassoziierte SNPs, die zum Austausch von Aminosäuren führen und hier rot markiert sind, befinden sich in unmittelbarer Nähe der Rezeptorbindestelle für das Protein IL10. Es spielt als wichtiger Botenstoff des Immunsystems bei der chronischen Darmentzündung Colitis ulcerosa eine bedeutende Rolle.

© Max-Planck-Institut für Informatik

Krankheitsassoziierte SNPs, die zum Austausch von Aminosäuren führen und hier rot markiert sind, befinden sich in unmittelbarer Nähe der Rezeptorbindestelle für das Protein IL10. Es spielt als wichtiger Botenstoff des Immunsystems bei der chronischen Darmentzündung Colitis ulcerosa eine bedeutende Rolle.

© Max-Planck-Institut für Informatik

Klinische Studien, wie sie medizinische Kooperationspartner an der Universitätsklinik Kiel durchführen, durchsuchen die DNA chronisch erkrankter Personen systematisch nach genetischen Gemeinsamkeiten. Durch den Vergleich von Patienten mit einer gesunden Vergleichsgruppe werden krankheitsassoziierte SNPs in der DNA des menschlichen Genoms entdeckt. Bioinformatiker analysieren dann diese Daten mit computergestützten Methoden, um die genaue Funktion relevanter humaner Proteine und ihrer SNPs bei der Entstehung und dem Verlauf von Krankheiten besser zu verstehen.
Colitis ulcerosa ist eine chronisch-entzündliche Darmerkrankung mit familiärer Häufung, deren molekulare Ursachen noch weitgehend unbekannt sind. Es wird vermutet, dass die Barrierefunktion des Immunsystems im Darm gestört ist und die Darmwand überempfindlich auf die dort natürlich vorkommenden Bakterien reagiert. Ein Zusammenhang zwischen dieser Krankheit und Variationen im Gen IL10 konnte kürzlich in einer Assoziationsstudie festgestellt werden [10]. Das Protein IL10 ist ein Botenstoff im Immunsystem, der spezifisch an einen bestimmten Zellrezeptor bindet (Abb. 4) und dadurch wichtige Signalwege zur Hemmung von Entzündungen ermöglicht.

Computeranalyse des Proteins IL10

Die möglichen Auswirkungen zweier SNPs auf die Struktur und Funktion des Proteins IL10 wurden anhand bioinformatischer Verfahren näher untersucht. Dabei wurde festgestellt, dass sich beide Punktmutationen in unmittelbarer Nähe der Bindestellen des Zellrezeptors befinden (Abb. 4). Es ist naheliegend, dass diese Sequenzvariationen die Interaktion zwischen IL10 und seinem Rezeptor stören können. Hierdurch werden entzündungshemmende Signalwege unterbunden, was der Entstehung chronischer Erkrankungen Vorschub leistet. Deswegen wird nun die therapeutische Verabreichung von IL10 an Patienten zur Behandlung von Colitis ulcerosa in Betracht gezogen.

Zusammenfassung und Ausblick

Auf die beschriebene Weise unterstützt die medizinische Bioinformatik klinische Forschungsarbeiten und hilft mit, genetische Befunde, wie hier von Patienten mit Colitis ulcerosa, auf der molekularen Ebene der Proteininteraktionen zu interpretieren und zu verstehen. Dadurch beschleunigen ihre rechnergestützten Methoden die Aufklärung der molekularen Ursache von Erkrankungen und ermöglichen eine schnellere Medikamentenentwicklung. Eine große Herausforderung der bioinformatischen Systemmedizin wird es sein, in Zukunft viele Krankheiten möglichst genau als komplexe Systeme im Computer zu modellieren und zu simulieren, um sie noch besser prognostizieren und therapieren zu können.

Originalveröffentlichungen

D. Frishman, M. Albrecht, H. Blankenburg, P. Bork, E. D. Harrington, H. Hermjakob, L. J. Jensen, D. A. Juan, T. Lengauer, P. Pagel, V. Schachter, A. Valencia:

Protein-protein interactions: analysis and prediction.

Modern Genome Annotation: The Biosapiens Network, Springer-Verlag, Wien, Austria (2009).

S. E. Schelhorn, T. Lengauer, M. Albrecht:

An integrative approach for predicting interactions of protein regions.

Bioinformatics 24, i35–i41 (2008).

D. Emig, M. S. Cline, T. Lengauer, M. Albrecht:

Integrating expression data with domain interaction networks.

Bioinformatics 24, 2546–2548 (2008).

D. Emig, M. S. Cline, K. Klein, A. Kunert, P. Mutzel, T. Lengauer, M. Albrecht:

Integrative visual analysis of the effects of alternative splicing on protein domain interaction networks.

Journal of Integrative Bioinformatics 5, 101.1–15 (2008).

F. Ramírez, A. Schlicker, Y. Assenov, T. Lengauer, M. Albrecht:

Computational analysis of human protein interaction networks.

Proteomics 7, 2541–2552 (2007).

A. Schlicker, C. Huthmacher, F. Ramírez, T. Lengauer, M. Albrecht:

Functional evaluation of domain-domain interactions and human protein interaction networks.

Bioinformatics 23, 859–865 (2007).

H. Blankenburg, R. D. Finn, A. Prlić, A. M. Jenkinson, F. Ramírez, D. Emig, S. E. Schelhorn, J. Büch, T. Lengauer, M. Albrecht:

DASMI: exchanging, annotating and assessing molecular interaction data.

Bioinformatics 25, 1321–1328 (2009).

H. Blankenburg, F. Ramírez, J. Büch, M. Albrecht:

DASMIweb: online integration, analysis and assessment of distributed protein interaction data.

Nucleic Acids Research 37, W122–W128 (2009).

A. M. Jenkinson, M. Albrecht, E. Birney, H. Blankenburg, T. Down, R. D. Finn, H. Hermjakob, T. J. Hubbard, R. C. Jimenez, P. Jones, A. Kähäri, E. Kulesha, J. R. Macías, G. A. Reeves, A. Prlić:

Integrating biological data - the Distributed Annotation System.

BMC Bioinformatics 9, S3.1–7 (2008).

A. Franke, T. Balschun, T. H. Karlsen, J. Sventoraityte, S. Nikolaus, G. Mayr, F. S. Domingues, M. Albrecht, M. Nothnagel, D. Ellinghaus, C. Sina, C. M. Onnie, R. K. Weersma, P. C. F. Stokkers, C. Wijmenga, M. Gazouli, D. Strachan, W. L. McArdle, S. Vermeire, P. Rutgeerts, P. Rosenstiel, M. Krawczak, M. H. Vatn, the IBSEN study group, C. G. Mathew, S. Schreiber:

Sequence variants in IL10, ARPC2, and multiple other loci contribute to ulcerative colitis susceptibility.

Nature Genetics 40, 1319–1323 (2008).