Forschungsbericht 2006 - Max-Planck-Institut für Informatik

Computational Epigenetics: Bioinformatik für neue Wege in der Krebsforschung

Computational Epigenetics: Bioinformatics prediction for new approaches to cancer treatment

Autoren
Bock, Christoph; Lengauer, Thomas
Abteilungen

Bioinformatik und Angewandte Algorithmik (Prof. Dr., Ph. D. Thomas Lengauer)
MPI für Informatik, Saarbrücken

Zusammenfassung
Schädigungen der DNA-Sequenz verursachen nach neuen Erkenntnissen nur etwa die Hälfte aller Krebserkrankungen. Genauso wichtig – und erheblich schlechter verstanden – sind die epigenetischen Ursachen von Krebs, bei denen die Steuerung des Erbguts dauerhaft gestört ist. Am Max-Planck-Institut für Informatik werden bioinformatische Methoden für die Konzeption und Optimierung epigenetischer Krebstherapien entwickelt.
Summary
Damages to the DNA sequence cause only approximately half of all cancers, according to recent research. Equally important – and significantly less understood – are the epigenetic roots of cancer, which involve persistent de-regulation of the human genome. At the Max Planck Institute for Informatics the bioinformatic methods are developed for design and optimization of epigenetic cancer therapies.

1. Einleitung

Während Bakterien im Allgemeinen nur ein einzelnes DNA-Molekül besitzen, das ihr gesamtes Erbgut kodiert, ist das menschliche Genom in vierundzwanzig Chromosomen aufgeteilt. Die Chromosomen bestehen nicht ausschließlich aus DNA, sondern zu etwa fünfzig Prozent aus Proteinen. Eine wichtige Aufgabe dieser Proteine ist die kompakte Verpackung der DNA, denn jede menschliche Zelle enthält DNA mit einer Gesamtlänge von ungefähr zwei Metern. Neue wissenschaftliche Erkenntnisse haben jedoch gezeigt, dass diese Proteine weit mehr sind als reines DNA-Verpackungsmaterial: Sie steuern gezielt die Aktivierung und Deaktivierung von Genen [1], und sie ermöglichen den ca. 100 Billionen Zellen des Menschen, ihre spezifische Formen und Funktionen einzunehmen, obwohl diese Zellen ein- und dieselbe DNA-Sequenz enthalten [2].

Wie die meisten komplexen Systeme ist auch die Regulation der Gen-Aktivität durch die Proteinverpackung der DNA anfällig für Fehler. Zwar können die meisten Schäden erfolgreich repariert werden, aber manchmal gerät die Gen-Regulation einer Zelle endgültig außer Kontrolle und die Zelle verwandelt sich in eine Krebszelle. Derartige Veränderungen am Erbgut sind genauso wichtig für die Krebsentstehung wie die allgemein bekannten DNA-Mutationen, obwohl die DNA-Sequenz dabei selbst keinen Schaden nimmt [3]. Zur Abgrenzung spricht man von epigenetischen Modifikationen (Abb. 1), im Gegensatz zu genetischen Veränderungen, bei denen die DNA-Sequenz verändert wird.

Ein besseres Verständnis epigenetischer Modifikationen könnte eine Vielzahl neuer Möglichkeiten in der Krebstherapie eröffnen. Es wurde zum Beispiel nachgewiesen, dass Zellen oft schon epigenetische Schäden erlitten haben, lange bevor sie unter dem Mikroskop als Tumorzellen erkennbar werden [3]. Daher können so genannte Biomarker vor manchen Tumoren warnen, lange bevor sich diese lebensbedrohlich im Körper verbreiten (Krebs-Biomarker sind im Labor messbare Indikatoren für den Krankheitsverlauf und für wichtige Tumoreigenschaften). Außerdem wird an Medikamenten geforscht, die fehlerhafte epigenetische Modifikationen gezielt wieder rückgängig machen.

Allerdings spielen epigenetische Modifikationen auch eine wichtige Rolle für die Entwicklung gesunder Zellen. Daher ist es oft sehr schwierig, die krank machenden Veränderungen als solche zu identifizieren und gezielt zu beeinflussen. Wissenschaftler am Max-Planck-Institut für Informatik haben sich zum Ziel gesetzt, die notwendigen bioinformatischen Methoden für eine erfolgreiche epigenetische Krebstherapie zu entwickeln. Dabei verfolgen sie zwei parallele Ansätze: Einerseits werden in enger Zusammenarbeit mit klinischen Forschern etablierte Krebs-Biomarker für die Anwendung unter rauen Alltagsbedingungen optimiert. Andererseits wird an der Entwicklung statistischer Modelle von epigenetischen Modifikationen gearbeitet, die langfristig in einem mathematisch-epigenetischen Krebsmodell aufgehen könnten. Durch diese Kombination aus anwendungsnaher Forschung und Grundlagenforschung wird ein schneller und wirksamer Beitrag zur Krebstherapie angestrebt, aber auch ein Beitrag zum tieferen Verständnis der zugrunde liegenden biologischen Mechanismen geleistet.

2. Optimierung epigenetischer Krebs-Biomarker für den klinischen Alltag

Eine Gruppe bösartiger Gehirntumore (die so genannten Glioblastome) sind besonders schnell fortschreitend und in aller Regel tödlich. Ohne Behandlung sterben Glioblastom-Patienten meist binnen drei Monaten nach der Diagnose. Durch Kombination von operativer Entfernung des Tumors, Bestrahlung und unterstützender Chemotherapie lässt sich die mittlere Überlebenszeit zwar auf im Durchschnitt ein Jahr erhöhen. Allerdings stellt die Behandlung eine große körperliche Belastung für den Patienten dar und insbesondere die Chemotherapie ist längst nicht bei allen Tumoren gleich wirksam. Es ist daher das erklärte Ziel einer personalisierten Medizin, für jeden einzelnen Patienten vorab die optimale Behandlungsstrategie zu bestimmen. Dies erfordert eine sehr genaue Kenntnis der Tumoreigenschaften, wie sie unter anderem durch die Verwendung von Biomarkern erreicht werden kann.

Kürzlich wurde in einer groß angelegten klinischen Studie nachgewiesen, dass epigenetische Modifikationen an einem DNA-Reparatur-Gen namens MGMT die Wirksamkeit von Chemotherapie gegen Glioblastome beeinflussen [4]: Nur wenn dieses Gen in Krebszellen epigenetisch deaktiviert ist, dann kann sie die Chemotherapie im großen Umfang zerstören. Dies ist bei einem Viertel der Patienten der Fall, und für diese Patienten kann eine aggressive Chemotherapie die durchschnittliche Überlebenszeit auf fast zwei Jahre steigern. Damit ist dieses Gen ein idealer Biomarker: Wenn der Tumor eines bestimmten Patienten die genannte epigenetische Modifikation aufweist, dann ist eine aggressive Chemotherapie ratsam, in allen anderen Fällen würde sie den Patienten nur unnötig belasten, ohne die Überlebenszeit signifikant zu erhöhen.

Um diesen epigenetischen Biomarker für die Krebstherapie am Uniklinikum Bonn (einem der größten Gehirntumorzentren in Deutschland) verwenden zu können, waren mehrere bioinformatische Probleme zu lösen. Einerseits musste der Biomarker für eine robuste und praxistaugliche Analysemethode optimiert werden, da die im klinischen Test verwendete Methode für den Klinikalltag zu fehleranfällig ist. Das bedeutet, dass ein DNA-Abschnitt in der Umgebung des MGMT-Reparaturgens gefunden werden musste, der sich erstens leicht analysieren lässt und der zweitens eine möglichst verlässliche Aussage darüber ermöglicht, ob das Gen epigenetisch deaktiviert ist oder nicht. Andererseits sollten statistisch fundierte Schwellenwerte für das zur Deaktivierung erforderliche Maß an epigenetischer Modifikation bestimmt werden. Zu diesem Zweck wurde eine Prozedur zur Biomarker-Optimierung konzipiert, die maschinelle Lernverfahren, statistische Modellierung und Simulationen umfasst. Durch die Anwendung von maschinellen Lernverfahren (so genannten Support-Vektor-Maschinen) konnten optimale Kriterien für die Entscheidung für oder gegen Chemotherapie abgeleitet werden. Und durch Simulation von häufig auftretenden Messfehlern und patientenspezifischen Unterschieden in der DNA-Sequenz ließ sich nachweisen, dass diese Kriterien auch bei Zweifelsfällen wenig fehleranfällig sind.

3. Statistische Modellierung epigenetischer Modifikationen

Zwar ist die Optimierung von Biomarkern für den klinischen Alltagsbetrieb von hoher praktischer Relevanz, damit Patienten schnell und zuverlässig von den Fortschritten in der Krebsforschung profitieren und die Therapie besser auf den einzelnen Patienten zugeschnitten werden kann. Allerdings sind aussagekräftige Biomarker zur Therapieoptimierung bisher nur für wenige Krebsarten und Therapieoptionen verfügbar. Daher liegt ein zweiter Forschungsschwerpunkt in der Entwicklung von Methoden zur statistischen Modellierung von noch nicht hinreichend verstandenen krebsrelevanten epigenetischen Modifikationen. Aus dieser Arbeit sollen in Zukunft Ideen für neue Biomarker entstehen, die dann in Zusammenarbeit mit biologischen und medizinischen Kooperationspartnern vorangetrieben werden. Darüber hinaus könnte die statistische Modellierung einzelner epigenetischer Modifikationen langfristig zu einem mathematischen Modell ausgebaut werden, das die epigenetischen Prozesse bei der Tumorentstehung beschreibt. Als ersten Schritt auf diesem Weg wurde ein Softwaresystem entwickelt, mit dem sich epigenetische Modifikationen genomweit analysieren, modellieren und vorhersagen lassen.

3.1 Struktur epigenetischer Daten und Auswirkungen für die Modellierung

Durch die im Humangenom-Projekt angewandten Verfahren konnte die DNA-Sequenz des menschlichen Genoms fast vollständig bestimmt werden. Allerdings lassen sich diese Methoden nur sehr eingeschränkt auf die Analyse epigenetischer Modifikationen übertragen. Erst die Entwicklung neuer Technologien während der letzten Jahre (z.B. der ChIP-on-Chip- Technologie, mit der man heute das gesamte Genom auf bindende Proteine analysieren kann) hat die Voraussetzungen für die genomweite epigenetische Analysen geschaffen. Dementsprechend befinden sich mittlerweile die Planungen für große Epigenom-Projekte in ihrer entscheidenden Phase [5]. Allerdings gibt es aus bioinformatischer Sicht einen fundamentalen Unterschied zwischen dem menschlichen Genom und Epigenom: Während jeder Mensch im Wesentlichen nur ein Genom besitzt, trägt jeder Zell- und Gewebetyp sein eigenes, spezifisches Epigenom – das sich zusätzlich noch in Folge von Alterung, Krankheiten und sogar der Ernährung verändern kann. Und um die Sache weiter zu verkomplizieren, besteht das Epigenom aus einer Vielzahl verschiedener Typen von epigenetischen Modifikationen, deren biologische und medizinische Bedeutung sich oft erst aus ihrem Zusammenspiel ergibt [6].

Aus diesem Grunde stellen Epigenom-Projekte eine große Herausforderung für die Bioinformatik dar. Einerseits müssen eine Vielzahl unterschiedlicher Epigenome auf der Basis des Genoms als Grundgerüst kombiniert und zusammengefasst werden. Diese Datenintegration wird derzeit von so genannten Genombrowsern geleistet [7]. Andererseits sollen über die reine Zusammenfassung hinaus automatisch Muster von epigenetischen Modifikationen und ihrem Verhältnis zum Genom erkannt und daraus statistische Modelle der verschiedenen epigenetischen Modifikationen abgeleitet werden. Diese Fragestellung lässt sich in ein Klassifikations- bzw. Regressionsproblem umformulieren: Gegeben sei (i) das menschliche Genom, (ii) eine Matrix aus numerischen oder binären Vektoren, die eine (hochdimensionale) Landkarte der bekannten genetischen und epigenetischen Eigenschaften entlang des Genoms darstellen und (iii) eine zu modellierende epigenetische Modifikation, für die ebenfalls experimentelle Daten in Form einer (in der Regel eindimensionalen) genomischen Landkarte vorliegt. Gesucht ist eine Funktion, die das Zielattribut (iii) auf der Basis von (i) und (ii) möglichst exakt vorhersagt und gewissen zusätzlichen Anforderungen bzgl. Abstraktion und Robustheit entspricht. Diese Funktion stellt dann ein bioinformatisches Modell der untersuchten epigenetischen Modifikation dar und kann sowohl für genomweite Vorhersagen verwendet werden, als auch als Modul in komplexere statistische Modelle einfließen.

3.2 Anforderungen an eine Software zur Modellierung epigenetischer Modifikationen

Was sich auf abstrakter Ebene kompliziert anhört, lässt sich am konkreten Beispiel in einen einfachen Anforderungskatalog übertragen. Angenommen, ein Biologe hat experimentell eine Landkarte der DNA-Methylierung eines menschlichen Chromosoms erstellt, und zwar sowohl für gesunde Zellen als auch für Krebszellen (DNA-Methylierung ist eine epigenetische Modifikation, die besonders eng mit Krebs zusammenhängt). Dann stellen sich für ihn die folgenden, bioinformatischen Fragen:

Wie hoch ist die generelle Übereinstimmung oder Korrelation der DNA-Methylierung mit anderen genetischen und epigenetischen Eigenschaften? Wenn sich die Landkarten für verschiedene epigenetische Modifikationen stark ähneln, dann deutet dies auf funktionale Zusammenhänge hin. Andererseits sind reproduzierbare Abweichungen ein Hinweis darauf, dass die experimentelle Analyse von DNA-Methylierung neue Informationen liefert, die so nicht aus bereits bekannten Daten abgeleitet werden können.
Bestehen signifikante Unterschiede zwischen gesunden Zellen und Krebszellen? Unterschiede deuten auf eine funktionale Bedeutung der betreffenden epigenetischen Modifikation bei Krebserkrankungen hin. Diese muss jedoch sehr sorgfältig experimentell validiert werden, um nichtkausale Beziehungen und indirekte Zusammenhänge auszuschließen.
Wenn signifikante Unterschiede bestehen, welche Bereiche sind in Krebszellen besonders stark verändert? Solche Regionen sind Kandidaten für neue Biomarker zur Krebs-Frühdiagnose – unabhängig davon, ob tatsächlich ein kausaler Zusammenhang zu Krebs besteht oder ob es sich um Sekundäreffekte handelt.
Kann die DNA-Methylierung aus bekannten Daten vorhergesagt werden? Wenn verschiedene epigenetische Modifikationen immer wieder gemeinsam oder in ähnlichen Kombinationen auftreten, dann lassen sie sich mit hoher Genauigkeit vorhersagen. Dies kann die Kosten für eine experimentelle Bestimmung erheblich reduzieren.

3.3 Realisierung

Diese vier Fragen lassen sich mithilfe eines statistischen Modells von DNA-Methylierung in ihrem Verhältnis zur Genomsequenz und zu anderen epigenetischen Modifikationen beantworten. Daher ist die Konstruktion derartiger Modelle eine Kernaufgabe des am Max-Planck-Institut für Informatik entwickelten EpiGRAPH-Softwaresystems. Dieses System ist so konzeptioniert, dass ein Biologe auch mit geringen Bioinformatik-Kenntnissen komplexe Analysen selbst durchführen kann. Dafür leistet das System aktive Hilfe bei der Interpretation der Analyseergebnisse und schlägt besonders interessante Abschnitte des Genoms für eine zusätzliche experimentelle Validierung vor. Als Web-Service steht die Software Wissenschaftlern in aller Welt zur Verfügung.

Die Struktur des EpiGRAPH-Systems folgt einer Dreischichtenarchitektur (Abb. 2), die die Software flexibel auf zukünftige Anforderungen vorbereitet. Eine typische Sitzung am EpiGRAPH-System verläuft wie folgt. Der Benutzer besucht die Portal-Webseite von EpiGRAPH und lädt dort die Landkarten der von ihm analysierten epigenetischen Modifikationen hoch. Auf Serverseite wird dann auf Basis der vom Benutzer bereitgestellten Trainingsdaten ein Klassifikationsmodell bzw. ein Regressionsmodell konstruiert. Hierfür verwendet das System leistungsfähige Algorithmen aus dem Gebiet des statistischen Lernens. Dazu gehören die Lasso-Methode für Regressionsprobleme, logistische Regression und Ensemble-Verfahren für Klassifikationsprobleme und Support-Vektor-Maschinen für beide Problemarten. Wenn ein geeignetes Modell konstruiert worden ist, wird die Genauigkeit und Robustheit dieses Modells ausgewertet. Anschließend kann das Modell – falls es die epigenetische Modifikation exakt genug beschreibt – direkt zur genomweiten Vorhersage verwendet werden, was oft signifikanten experimentellen Aufwand und Laborkosten einspart.

3.4 Ergebnisse

Das hier beschriebene Software-System wurde bisher zur Analyse von DNA-Schmelzprofilen [8] (in Kooperation mit Eivind Hovig am Norwegian Radium Hospital in Oslo), von Imprinting-Genen [9] (in Kooperation mit Martina Paulsen an der Universität des Saarlandes) sowie von DNA-Methylierung [10] eingesetzt. Letztere Anwendung soll hier kurz vorgestellt werden, um die praktische Relevanz des Systems zu illustrieren. Mithilfe des EpiGRAPH-Systems konnte gezeigt werden, dass die DNA-Methylierung in menschlichen weißen Blutkörperchen (Lymphozyten) eng mit besonderen Eigenschaften der DNA-Sequenz zusammenhängt [10]. Zum Beispiel wurden bestimmte DNA-Sequenzmuster identifiziert, die fast nur in unmethylierten Regionen des Genoms vorkommen. Außerdem zeigte sich, dass die sequenzabhängige Feinstruktur der DNA-Doppelhelix in methylierten Regionen stärker vom genomweiten Durchschnitt abweicht als in unmethylierten Regionen. Auf Basis dieser Unterschiede ist es gelungen, die DNA-Methylierung mit neunzigprozentiger Genauigkeit vorherzusagen. Die Verlässlichkeit und Übertragbarkeit dieser Ergebnisse wurde nachgewiesen, indem eine Auswahl der Vorhersagen ex post im Labor verifiziert wurde. Die statistische Modellierung von DNA-Methylierung mithilfe von EpiGRAPH trägt also nicht nur zum besseren Verständnis einer krebsrelevanten epigenetischen Modifikation bei, sondern ermöglicht auch die Vorhersage von DNA-Methylierungs-Landkarten für das menschliche Genom.

4. Zusammenfassung und Ausblick

Die Krebs-Epigenetik beschäftigt sich mit molekularbiologischen Veränderungen, die zu einer dauerhaften Störung der Gen-Regulation bei gleichzeitig intakter DNA-Sequenz führen. Insbesondere handelt es sich dabei um Veränderungen an den Proteinen, die die DNA verpacken und organisieren. Von einem besseren Verständnis dieser Mechanismen erhofft man sich neue Möglichkeiten zur Krebs-Früherkennung, zur Krebsdiagnose und zur Krebsbehandlung.

Am Max-Planck-Institut für Informatik werden bioinformatische Methoden entwickelt, die die biologische und medizinische Forschung in der Krebs-Epigenetik unterstützen und eine schnelle Umsetzung der Forschungsergebnisse in der Krebstherapie ermöglichen. Bisher konnte am Beispiel des MGMT-Gens ein Verfahren zur Optimierung vielversprechender Biomarker für den klinischen Routineeinsatz entwickelt werden. Außerdem wurde mit dem EpiGRAPH-Softwaresystem ein grundlegender Beitrag zum besseren Verständnis von epigenetischen Modifikationen in ihrem genomweiten Kontext geleistet. Der praktische Nutzen dieses Systems konnte in mehreren Pilotstudien nachgewiesen werden. Ein langfristiges Ziel stellt die Kombination dieser beiden Ansätze dar: Aus dem theoretischen Verständnis der krebsrelevanten epigenetischen Modifikationen sollen vielversprechende Biomarker-Kandidaten abgeleitet werden, die dann in Zusammenarbeit mit biologischen und klinischen Kooperationspartnern im Tumormodell und auf Patientenproben validiert und optimiert werden.

Originalveröffentlichungen

Roloff, T.C. and U.A. Nuber
Chromatin, epigenetics and stem cells.
European Journal of Cell Biology 84, 123-35 (2005).
Arney, K.L. and A.G. Fisher
Epigenetic aspects of differentiation.
Journal of Cell Science 117, 4355-63 (2004).
Feinberg, A.P., R. Ohlsson and S. Henikoff, S.
The epigenetic progenitor origin of human cancer.
National Review of Genetics 7, 21-33 (2006).
Hegi, M.E. et al.
MGMT gene silencing and benefit from temozolomide in glioblastoma.
New England Journal of Medicines 352, 997-1003 (2005).
Jones, P.A. and R. Martienssen
A blueprint for a Human Epigenome Project: the AACR Human Epigenome Workshop.
Cancer Research 65, 11241-6 (2005).
Jenuwein, T. and C.D. Allis
Translating the histone code.
Science 293, 1074-80 (2001).
Furey, T.S.
Comparison of human (and other) genome browsers.
Hum Genomics 2, 266-70 (2006).
Tostesen, E., G.I. Jerstad and E. Hovig
Stitchprofiles.uio.no: analysis of partly melted DNA conformations using stitch profiles..
Nucleic Acids Res 33, W573-6 (2005)
Walter, J.and M. Paulsen
M. Imprinting and disease.
Seminars on Cell and Developmental Biology 14, 101-10 (2003).
Bock, C. et al.
CpG island methylation in human lymphocytes is highly correlated with DNA sequence, repeats and predicted DNA structure.
PLoS Genetics 2, e26 (2006).
Zur Redakteursansicht