Forschungsbericht 2008 - Max-Planck-Institut für Informatik

Informatik für die Metagenomforschung: Einblicke in die Welt der unkultivierbaren Mikroorganismen

Autoren
McHardy, Alice Carolyn; Patil, Kaustubh
Abteilungen

Computational Genomics and Epidemiology
MPI für Informatik, Saarbrücken

Zusammenfassung
Die Sequenzierung des Erbguts von mikrobiellen Gemeinschaften ermöglicht eine genomische Analyse der Fähigkeiten von nicht kultivierbaren Mikroorganismen. Am Max-Planck-Institut für Informatik werden Verfahren für die Zuordnung der entschlüsselten Sequenzen zu den verschiedenen Organismen der Gemeinschaft entwickelt. Die Anwendung auf Metagenome von Gemeinschaften mit industriell interessanten Fähigkeiten, wie zum Beispiel dem Abbau von Holz zu Metaboliten, die in Biotreibstoffe umgewandelt werden können, zeigt, welche Organismen bei diesen Prozessen eine wichtige Rolle spielen.

Einleitung

Wussten Sie, dass Sie die überwiegende Mehrheit der Bewohner dieses Planeten mit bloßem Auge nicht erkennen können? Es handelt sich hierbei um Mikroorganismen: Winzige Lebewesen, die erst mithilfe eines Mikroskops sichtbar werden. Man findet sie nahezu überall – im Eis in der Arktis, in heißen Quellen und tiefen Meereskratern, im Verdauungstrakt, auf der Haut und sogar in der Atmosphäre. Zuverlässige Aussagen über die Gesamtzahl aller existierenden mikrobiellen Spezies sind noch nicht möglich, aber es wird von mehr als hundert Millionen existierenden Spezies ausgegangen. Insbesondere prokaryotische Mikroorganismen, zu denen Bakterien und die erst 1977 entdeckten Archaebakterien gehören, zeichnen sich durch eine Vielzahl von einzigartigen Fähigkeiten aus. Dies macht ihre Untersuchung unter agrarwirtschaftlichen, biotechnologischen, umwelttechnischen und medizinischen Aspekten interessant.

Vieles über die Eigenschaften und Fähigkeiten eines Lebewesens lässt sich durch die Analyse der Genomsequenz erfahren. Als Genom oder auch Erbgut wird die Gesamtheit der vererbbaren Informationen einer Zelle bezeichnet, die als Desoxyribonukleinsäure (DNA) vorliegt. Es enthält die Bauanleitung für sämtliche Proteine und Ribonukleinsäuren, die in der Zelle für verschiedene Funktionen benötigt werden. Aus chemischer Sicht entspricht ein Genom einer oder mehreren Ketten von DNA-Bausteinen, so genannten Nukleotiden, mit Längen von bis zu mehreren Millionen Nukleotiden. Es gibt insgesamt vier DNA-Bausteine, die in der Natur verwendet werden und die durch die Buchstaben A, C, G und T dargestellt werden. Eine entschlüsselte genomische Sequenz kann man sich wie ein sehr langes Wort aus diesen vier Buchstaben vorstellen.

Bei der Sequenzierung der Genome von Mikroorganismen mit interessanten Fähigkeiten gibt es eine Schwierigkeit: Die meisten Mikroorganismen lassen sich nicht in einer reinen Kultur im Labor anreichern; sie benötigen zum Teil unbekannte Zusatzstoffe um zu wachsen, oder sind auf die Interaktion mit anderen Organismen in ihrer Umgebung angewiesen. Um diese Organismen zu studieren, ist es deswegen notwendig, Zellmaterial und DNA direkt aus deren natürlicher Umgebung zu isolieren. Die genomische Analyse einer Gemeinschaft von Organismen durch Sequenzierung nennt sich Metagenomik. Das Ergebnis der Sequenzierung ist ein so genanntes Metagenom: Eine Menge von Sequenzfragmenten unterschiedlicher Länge, die Ausschnitte aus den Genomsequenzen der Organismen in der Gemeinschaft darstellen. Aber welches Fragment gehört zu welchem Organismus? Am Max-Planck-Institut für Informatik werden Verfahren entwickelt, um die entschlüsselten genomischen Sequenzfragmente den verschiedenen Mikroorganismen zuzuordnen.

Die Sequenzierung von mikrobiellen Gemeinschaften

Eine Metagenom-Analyse beginnt mit der Isolierung von Zellmaterial und Extraktion der DNA von Mikroorganismen aus einer interessanten Umgebung. Da nur kürzere Abschnitte eines Genoms direkt sequenziert werden können, wird das isolierte Erbmaterial zuerst in viele kurze Fragmente zerstückelt. Deren Sequenzierung führt zu so genannten „reads“, Sequenzen von weniger als tausend Nukleotiden Länge. Anhand von sich überlappenden Abschnitten lassen sich reads, die zusammenhängende Bereiche der ursprünglichen Genomsequenz beschreiben, zusammenfügen und so längere Bereiche einer Genomsequenz rekonstruieren. Zum Beispiel lassen sich die beiden Fragmente ACTGCTGGTCGA und GTCGATCAAATCGCT anhand der wiederholten Teilsequenz GTCGA zusammenfügen und hierdurch die Sequenz ACTGCTGGTCGATCAAATCGCT rekonstruieren. Da allerdings für viele Organismen in der Gemeinschaft, insbesondere für selten vorkommende, nicht alle Bereiche des Genoms durch reads abgedeckt sind, lassen sich hierdurch keine vollständigen Genomsequenzen rekonstruieren. Das Ergebnis ist eine Vielzahl genomischer Sequenzfragmente von unterschiedlicher Länge.

Zuordnung von Sequenzfragmenten

Die Zuordnung der Sequenzfragmente zu den in der Gemeinschaft vorhandenen Organismen wird als phylogenetische Klassifizierung oder Binning bezeichnet. Die am Max-Planck-Institut für Informatik entwickelten Verfahren machen sich zum Lösen dieses Problems eine Eigenschaft von genetischen Sequenzen zunutze, die Hinweise auf die Zugehörigkeit eines Fragments gibt: Zählt man das Vorkommen von Oligomeren (kurze Teilwörter mit Längen zwischen 2 und 30 Nukleotiden) in der Sequenz eines Genoms, stellt man fest, dass manche Oligomere häufiger vorkommen als andere.

So ist zum Beispiel das Dimer AT überrepräsentiert im Genom von Rhodobacter capsulatus, jedoch ist TA unterrepräsentiert [1]. Im Genom von Aquifex aeolicus hingegen sind sowohl AT als auch TA unterrepräsentiert. Weiterhin sind diese Trends innerhalb eines Genomes relativ konstant, was die Definition von genomischen Oligomer-Signaturen erlaubt, die charakteristisch für die Sequenzfragmente eines Genoms sind (Abb. 1).

Bei der phylogenetischen Klassifizierung der genomischen Sequenzfragmente werden diese Klassen zugewiesen, die jeweils einzelne Organismen oder Gruppen von evolutionär verwandten Organismen repräsentieren. Hierfür wird im Vorfeld die zu erwartende phylogenetische Zusammensetzung einer sequenzierten mikrobiellen Gemeinschaft mithilfe von universell vorkommenden Markergenen abgeschätzt. Mit einem statistischen Lernverfahren namens Support Vector Machine (SVM) [2] lässt sich dann ein phylogenetisches Modell erstellen, welches die Charakteristika der Sequenzfragmente dieser Klassen im Oligomer-Gebrauch beschreibt [3]. Die für das Training benötigten Sequenzfragmente der zu modellierenden Klassen lassen sich direkt aus dem Sequenzdatensatz mithilfe von Markergenen gewinnen oder aus der Genomsequenz bereits sequenzierter verwandter Organismen. Da Fragmente mit Markergenen in Metagenomen selten sind und oft keine oder wenige Genome verwandter Organismen bereits sequenziert wurden, stehen häufig nur wenige Fragmente für das Training zur Verfügung. Die SVM zeichnet sich dadurch aus, dass sie auch anhand von kleinen Trainingsdatensätzen mit schwierig zu trennenden Klassen Modelle mit hoher Vorhersagegenauigkeit lernen kann. Anschließend werden die Fragmente des Metagenoms durch das Modell den phylogenetischen Klassen zugeordnet. Dies ermöglicht die Analyse der funktionellen Fähigkeiten der verschiedenen Organismen und phylogenetischen Gruppen in der sequenzierten mikrobiellen Gemeinschaft (Abb. 2).

Anwendungen

Das beschriebene Binning-Verfahren wird zur Analyse vieler Metagenome eingesetzt, wie zum Beispiel zur Klassifizierung des Metagenoms von Mikroorganismen aus der hinteren Darmkammer von Nasutitermes ephratae, einer höheren Termitenart [5]. Die Bakterien im Magen dieser Termiten sind in der Lage, Holz effizient zu verdauen und die hierbei entstehenden Zuckermoleküle zu Wasserstoff zu verarbeiten. Wasserstoff und andere aus Zucker erzeugbare Metabolite wie Ethanol sind als Brennstoff einsetzbar und deren Gewinnung aus einem erneuerbaren Rohstoff wie Holz ist von großem industriellem Interesse [6]. Die Analyse des Termitendarm-Metagenoms führte zu der Entdeckung einer Vielzahl von neuen Enzymen, die die Zerlegung von Holz in einzelne Zucker katalysieren sowie zu der Erkenntnis, dass Organismen der phylogenetischen Klassen Spirochaetes und Fibrobacteres eine wichtige Rolle in diesem Prozess spielen. Mithilfe der neu entdeckten Gene lassen sich nun vielleicht effiziente industrielle Verfahren zur Gewinnung von Wasserstoff aus pflanzlichen Materialien entwickeln. Die Suche nach industriell einsetzbaren Enzymen wird fortgeführt mit der Analyse mikrobieller Metagenome aus den Mägen von niederen Holz abbauenden Termiten (Kollaboration mit A. Brune, Max-Planck-Institut für terrestrische Mikrobiologie und P. Hugenholtz, Joint Genome Institute des U.S. Departments of Energy) und des australischen Tammar Wallabys [7], welches besonders wenig des Treibhausgases Methan beim Verdauen pflanzlicher Materialien als Nebenprodukt produziert.

Auch von mikrobiellen Gemeinschaften aus heißen Quellen im Yellowstone National Park werden Metagenome sequenziert und die genomischen Sequenzen auf die Fähigkeiten zur Wasserstofferzeugung hin analysiert [8]. In den Genomen dieser bei extremen Temperaturen lebenden Mikroorganismen finden sich Gene, die besonders temperaturstabile Enzyme kodieren, deren Robustheit für die industrielle Anwendung von Vorteil sein kann. Neben der Erzeugung von alternativen Treib- und Brennstoffen sind mikrobielle Gemeinschaften auch für viele andere industrielle Prozesse von Interesse. So werden Mikroben zur Abwasseraufbereitung bei der industriellen Plastikproduktion eingesetzt. Die Metagenom-Analyse einer mikrobiellen Gemeinschaft in einem neuen und effizienteren Bioreaktor soll das Verständnis der hieran beteiligten biochemischen Prozesse und Organismen vertiefen, um diesen industriellen Prozess weiter zu optimieren [9].

Zusammenfassung und Ausblick

Die Metagenomik ist eines der spannendsten Forschungsgebiete der letzten Jahre in der Biologie und liefert neue Einsichten in die Funktionen und Fähigkeiten der unkultivierbaren mikrobiellen Welt auf unserem Planeten. Am Max-Planck-Institut für Informatik werden Verfahren für die Zuordnung von Metagenomsequenzen zu den Organismen einer mikrobiellen Gemeinschaft entwickelt. Aktuell werden die existierenden Verfahren weiterentwickelt, um eine Klassifizierung von sehr kurzen Sequenzfragmenten zu ermöglichen. Deren Zuordnung ist aufgrund der wenigen vorhandenen Sequenzinformation besonders schwierig. Weiterhin wird an einem Verfahren gearbeitet, welches eine Zuordnung von neuen, bisher unbekannten Genen in einem Metagenom zu den in der mikrobiellen Gemeinschaft ablaufenden biologischen Prozessen ermöglichen soll.

Originalveröffentlichungen

A. Campbell, J. Mrazek, S. Karlin:
Genome signature comparisons among prokaryote, plasmid and mitochondrial DNA.
Proceedings of the National Academy of Sciences 96, 9184-9189 (1999).
V. Vapnik:
The Nature of Statistical Learning Theory.
Springer Verlag, 1995.
A.C. McHardy, H.Garcia Martin, A. Tsirigos, P. Hugenholtz, I. Rigoutsos:
Accurate phylogenetic classification of variable-length DNA fragments.
Nature Methods 4, 63-72 (2007).
K. Mavromatis, N. Ivanova, K. Barry, H. Shapiro, E. Goltsman, A.C. McHardy, I. Rigoutsos, A. Salamov, F. Korzeniewski, M. Land, A. Lapidus, I. Grigoriev, P. Richardson, P. Hugenholtz, N.C. Kyrpides:
Use of simulated data sets to evaluate the fidelity of metagenomic processing methods.
Nature Methods 4, 495-500 (2007).
F. Warnecke, P. Luginbühl, N. Ivanova, M. Ghassemian, T.H. Richardson, J.T. Stege, M. Cayouette, A.C. McHardy, G. Djordjevic, N. Aboushadi, R. Sorek, S.G. Tringe, M. Podar, H.G. Martin, V. Kunin, D. Dalevi, J. Madejska, E. Kirton, D. Platt, E. Sze:
Metagenomic and functional analysis of hindgut microbiota of a wood-feeding higher termite.
Nature 450, 560-565 (2007).
E.M. Rubin:
Genomics of cellulosic biofuels.
Nature 454, 841-845 (2008).
Why sequence organisms in the foregut of the Tammar Wallaby?
https://jgi.doe.gov/why-sequence-organisms-in-the-foregut-of-the-tammar-wallaby/
Why sequence extreme microbial habitats in Yellowstone National Park?
https://jgi.doe.gov/why-sequence-extreme-microbial-habitats-from-yellowstone-national-park/
Why sequence a Terephthalate-degrading microbial community?
https://jgi.doe.gov/why-sequence-a-terephthalate-degrading-microbial-community/
Zur Redakteursansicht