Forschungsbericht 2014 - Max-Planck-Institut für Physik komplexer Systeme

Phänotyp und Genotyp: Wie wiederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zwischen Spezies verantwortlich sind

Autoren
Hiller, Michael
Abteilungen
Biologische Physik / Nachwuchsgruppe Bioinformatik und Evolutionäre Genomik
Zusammenfassung
Obwohl die Genome vieler Spezies sequenziert sind, wissen wir nur sehr wenig darüber, welche Unterschiede im Genom für phänotypische Unterschiede zwischen Spezies verantwortlich sind. Forward Genomics ist eine neue Methode, die wiederholte Evolution nutzt, um solche Assoziationen zwischen genomischen und phänotypischen Unterschieden zu finden. Für den wiederholt verlorengegangenen Phänotyp „Vitamin-C-Synthese“ kann dieser Ansatz das Vitamin C synthetisierende Enzym finden, und zwar nur mit der Suche nach Genen, die in allen nicht Vitamin C synthetisierenden Spezies neutral evolvieren.

Charles Darwin beendete sein Buch „On the Origin of Species“ 1859 mit „... from so simple a beginning endless forms most beautiful and most wonderful have been, and are being, evolved.“ In der Tat kann man sich mit jedem Zoobesuch von der großartigen Vielfalt an Farben, Formen und Eigenschaften, die im Laufe der Evolution in den verschiedensten Arten auf unserer Erde entstanden sind, überzeugen. Viele der Eigenschaften, die Organismen unterscheiden, sind in der DNA kodiert, weshalb die DNA als die Blaupause des Lebens gilt. Die Gesamtheit der DNA in jeder Zelle eines Individuums wird Genom genannt. Wenn dieses Genom gleich ist, wie bei eineiigen Zwillingen, sind sich die Individuen sehr ähnlich. Unterschiede in den Eigenschaften (im Folgenden als Phänotypen bezeichnet) müssen demnach auf Unterschiede im Genom zurückzuführen sein.

Während für die Entschlüsselung der A, C, G und T Buchstaben des menschlichen Genoms vor rund zehn Jahren noch ein internationales Konsortium nötig war, kann man heute wesentlich schneller und billiger das Genom sequenzieren (auch wenn das Zusammensetzen des Genoms aus kurzen Sequenzschnipseln immer noch eine große Herausforderung darstellt). Als Folge dessen sind mittlerweile mehr als einhundert Wirbeltiergenome entschlüsselt. Mithilfe der vergleichenden Genomanalyse kann man jetzt diese Genome alignieren und systematisch sowohl nach Ähnlichkeiten als auch nach Unterschieden in der DNA-Sequenz suchen.

Wenn wir aber diese vielen sequenzierten Genome und gleichzeitig eine Fülle an Wissen über Phänotypen dieser Spezies haben, warum wissen wir dann so wenig darüber, welche Unterschiede im Genom für bestimmte phänotypische Unterschiede verantwortlich sind? Der Hauptgrund ist, dass der Vergleich zweier Spezies, selbst wenn diese sehr eng miteinander verwandt sind, unzählige genomische und etliche phänotypische Unterschiede zu Tage bringt. Das Problem ist also eine sogenannte N:M Beziehung zwischen genomischen und phänotypischen Unterschieden, die es extrem schwierig macht vorherzusagen, welche Genomunterschiede für bestimmte Phänotypunterschiede verantwortlich sind. Um dieses Problem zu lösen, haben wir eine computerbasierte Methode entwickelt, die sich auf zwei wichtige Prinzipien stützt: 1. den Verlust nicht benötigter genetischer Information und 2. die wiederholte Evolution.  

Use it or lose it

Was für Muskeln gilt, gilt auch für die Information im Genom. Im Laufe der Evolution sammeln sich zufällige Mutationen im Genom an. Diese Mutationen können genetische Information, die zum Beispiel in der DNA-Sequenz eines überlebenswichtigen Gens steckt, verändern oder zerstören. Ein wichtiger Mechanismus, um diese Information zu erhalten, ist Selektion. Individuen, die Mutationen in wichtigen Genombereichen (wie in diesem überlebenswichtigen Gen) aufweisen, werden ausselektiert. Als Folge dessen bleibt wichtige Information im Genom erhalten. Wenn aber ein Phänotyp in einer Spezies verloren geht, dann ist die genetische Information, die einst für diesen Phänotyp wichtig war, nicht mehr von Bedeutung und damit nicht mehr unter Selektion. Die Folge von neutraler Evolution über einen längeren Zeitraum ist dann der Verlust der einst wichtigen genetischen Information in dieser Spezies aufgrund von Mutationen.

Ein Beispiel hierfür ist die Synthese von Vitamin C. Die Vorfahren der Säugetiere besaßen die Eigenschaft, selbst Vitamin C herstellen zu können. Und die meisten Säugetiere besitzen sie immer noch. Der Mensch und einige andere Primaten haben diese Fähigkeit jedoch verloren und müssen ihr Vitamin C über die Nahrung aufnehmen, um Skorbut zu vermeiden. Das Gen, welches das Vitamin C synthetisierende Enzym kodiert, ist also in diesen Primaten nicht mehr von Bedeutung und evolviert neutral. Die Information in diesem Gen wurde deshalb im Laufe der Zeit von zufälligen Mutationen „erodiert“. Infolgedessen divergiert die DNA-Sequenz dieses Gens in den Primaten wesentlich schneller als in anderen Säugetieren, bei denen Selektion viele Mutationen ausgesondert hat.

Wiederholte Evolution

Einige phänotypische Unterschiede haben eine Eigenschaft, die sehr hilfreich ist: Dieselben phänotypischen Unterschiede kommen in verschiedenen, sich unabhängig voneinander entwickelnden Arten vor, d. h. Evolution hat sich wiederholt. Zum Beispiel ist der Phänotyp Vitamin-C-Synthese nicht nur in Primaten, sondern auch in Meerschweinen und Fledermäusen (unabhängigen Arten, siehe Abb. 1) verloren gegangen. Nach dem „use it or lose it“-Prinzip kann man vorhersagen, dass das Gen für das Vitamin C synthetisierende Enzym in all diesen Arten neutral evolviert.

original
Original 1508156964
Abb. 1: Die Fähigkeit, Vitamin C synthetisieren zu können, ist mehrfach im Laufe der Säugetierevolution verloren gegangen und kann durch den Verlust des Gulo-Gens erklärt werden.
Abb. 1: Die Fähigkeit, Vitamin C synthetisieren zu können, ist mehrfach im Laufe der Säugetierevolution verloren gegangen und kann durch den Verlust des Gulo-Gens erklärt werden.

Während man im Vergleich zweier Arten viele neutral evolvierende genomische Regionen findet, sollte es nur sehr wenige Regionen geben, die in exakt den unabhängigen Arten neutral evolvieren, die nicht mehr Vitamin C synthetisieren können. Solche wiederholten phänotypischen Verluste führen also zu einem spezifischen evolutionären Muster in diesen Genomen, das man zur Vorhersage von Assoziationen zwischen genomischer Region und phänotypischer Änderung nutzen kann.

Forward Genomics

Beide Prinzipien liefern eine Methode, die analog zu Forward GeneticsForward Genomics“ genannt wird [1], wie man durch den Vergleich vieler Genome die genomischen Regionen und damit die entsprechenden Änderungen finden könnte, die für den wiederholten Verlust eines Phänotyps verantwortlich sind. Forward Genomics durchforstet das Genom nach Bereichen, die einerseits in allen Spezies, bei denen der Phänotyp fehlt, neutral evolvieren und damit auf der Sequenzebene divergiert sind und die andererseits in allen anderen Spezies unter Selektion und damit wenig divergiert sind (Abb. 2).

original
Original 1508156964

Abb. 2: Schematische Darstellung der Forward Genomics Methode. Ein Phänotyp, der im Vorfahren dieser Spezies vorhanden war, ist in unabhängigen Spezies verloren gegangen. In diesem Beispiel gibt es nur eine Genomregion (blaue Kästchen), bei der Sequenzdivergenz aufgrund neutraler Evolution exakt mit dem Verlust des Phänotyps korreliert. Kompletter Verlust als extremster Fall von Sequenzdivergenz ist durch das Fehlen der Region dargestellt.

Abb. 2: Schematische Darstellung der Forward Genomics Methode. Ein Phänotyp, der im Vorfahren dieser Spezies vorhanden war, ist in unabhängigen Spezies verloren gegangen. In diesem Beispiel gibt es nur eine Genomregion (blaue Kästchen), bei der Sequenzdivergenz aufgrund neutraler Evolution exakt mit dem Verlust des Phänotyps korreliert. Kompletter Verlust als extremster Fall von Sequenzdivergenz ist durch das Fehlen der Region dargestellt.

Was fehlt, ist eine genaue Quantifizierung der Sequenzdivergenz jeder Genomregion in jeder Spezies. Wenn man die DNA-Sequenz des Säugetiervorfahren kennen würde, könnte man durch den paarweisen Vergleich der DNA-Sequenz des Vorfahren und einer Spezies einfach die Sequenzdivergenz als die Anzahl der Mutationen bestimmen. Je mehr Mutationen aufgetreten sind, desto mehr ist diese Region in dieser Spezies divergiert und desto wahrscheinlicher ist neutrale Evolution.

Obwohl die DNA-Sequenz des Säugetiervorfahren natürlich unbekannt ist, kann man diese trotzdem recht genau schätzen, indem man für jede Position der Region die wahrscheinlichste DNA-Base des Vorfahrens unter Berücksichtigung eines gegebenen Wahrscheinlichkeitsmodells der Sequenzevolution berechnet. Simulationsstudien haben gezeigt, dass man den Säugetiervorfahren mit 98%iger Genauigkeit berechnen kann.

Allerdings sind die heutigen Genomsequenzen bei weitem nicht vollständig und nicht zu 100% korrekt. So sind einige Genomregionen einfach noch nicht sequenziert, andere weisen erhöhte Fehlerraten auf. Da diese Fehlerquellen wie Löschungen beziehungsweise Mutationen aussehen, ist es für eine akkurate Genom-weite Anwendung zwingend nötig, diese Artefakte auszuschließen.

Angewendet auf den Vitamin-C-Phänotyp und die Genome vieler Säugetiere, findet Forward Genomics gezielt einen einzigen Genombereich. Diese Stelle enthält das Gen Gulo (gulonolactone (L-) oxidase), das ein für die Vitamin-C-Synthese verantwortliches Schlüsselenzym kodiert. Eine detaillierte Untersuchung zeigt, dass dieses Gen in allen nicht Vitamin C synthetisierenden Spezies nicht mehr funktional sein kann, obwohl noch Bruchstücke des Gens vorhanden sind (Abb. 1). Dies ist ein klares Indiz für neutrale Evolution und zeigt, dass diese Spezies von Vorfahren abstammen, die Vitamin C synthetisieren konnten. Obwohl die Funktion von Gulo schon bekannt und dieses Gen von vornherein ein guter Kandidat war, kann es spezifisch nur mithilfe der vergleichenden Genomanalyse gefunden werden.

Nachfolgende Simulationsstudien können untersuchen, ob das spezifische evolutionäre Muster in den Genomen der nicht Vitamin C synthetisierenden Spezies zu erwarten ist. Mithilfe von Wahrscheinlichkeitsmodellen für evolutionäre Prozesse kann man im Computer simulieren, wie sich ein Genom im Laufe der Evolution unter Berücksichtigung von neutraler Evolution und Selektion ändert. In dieser Simulation wählen wir als Ersatz für Gulo zufällig ein Gen aus vielen anderen Genen aus und lassen nur dieses Gen in den nicht Vitamin C synthetisierenden Spezies neutral evolvieren. Dann quantifiziert man die Divergenz jeder Genomregion in jeder Spezies und wendet Forward Genomics „blind“ auf die simulierten Daten an. Die Simulation des Vitamin-C-Phänotyps zeigte, dass wir auch in diesen simulierten Genomen das korrekte Gen finden können. Das spezifische evolutionäre Muster in den Genomen ist also kein Zufall, sondern zu erwarten. Weiterhin konnten wir zeigen, dass Forward Genomics für eine große Anzahl von verschiedenen simulierten Szenarien unabhängiger Phänotypverluste einige der korrekten Abschnitte mit großer Genauigkeit finden konnte. Die Simulationsstudien zeigten aber auch, dass Forward Genomics nicht alle relevanten Genomregionen finden kann; dafür ist Evolution einfach zu komplex, und wir sind auf einen zufälligen Prozess (neutrale Evolution) angewiesen, der das spezifische Muster in den Genomen generiert.

Eine Analyse vorhandener phänotypischer Datensätze mit insgesamt 461 Phänotypen zeigt, dass 42% dieser Phänotypen dieselben Änderungen in mindestens zwei unabhängigen evolutionären Linien aufweisen. Zusammen mit den Simulationsergebnissen gibt dies Hoffnung, dass Forward Genomics auf viele weitere Phänotypen systematisch angewendet werden kann und zumindest einige der relevanten Genomregionen finden wird. Dies liefert eine einmalige Möglichkeit, mithilfe der vergleichenden Genomik Zoologie und Molekularbiologie zusammenzubringen und wird helfen zu verstehen, wie die phänotypische Vielfalt, die wir überall in der Natur beobachten, in der DNA verschlüsselt ist.

Literaturhinweise

1.
Hiller, M.; Schaar, B. T.; Indjeian, V. B.; Kingsley, D. M.; Hagey, L. R.; Bejerano, G.
A “forward genomics” approach links genotype to phenotype using independent phenotypic losses among related species
Cell Reports 2, 817-823 (2012)
Zur Redakteursansicht