Forschungsbericht 2009 - Max-Planck-Institut für Pflanzenzüchtungsforschung

Vernetzung zur Integration biologischer Daten

Autoren

Schoof, Heiko

Abteilungen

Unabhängige Forschergruppen
MPI für Pflanzenzüchtungsforschung, Köln

Zusammenfassung

Die moderne Molekularbiologie bedient sich Hochdurchsatzmethoden, um beispielsweise Genomsequenzen zu bestimmen. Deren Auswertung und Interpretation erfordert immer mehr die Integration vielfältiger Datensätze. Standards für den Zugang zu biologischen Daten sowie Webservicetechnologien können das Auffinden und automatisierte Abfragen von Bioinformatikressourcen erleichtern.

Datenintegration in der Biologie

Neue Technologien ermöglichen die Erzeugung von molekularbiologischen Daten in einem Maßstab, der völlig neue Herausforderungen für die Auswertung mit sich bringt. Ein entscheidender Schritt waren die Genomprojekte mit Modellorganismen, aber inzwischen ist die Sequenzierung von jedem individuellen Genom mit geringem Aufwand möglich geworden [1]. Die Bioinformatik und deren Methoden zur Auswertung dieser Daten hat zunehmend an Bedeutung gewonnen. Für viele Aufgaben ist dabei allerdings die Datenintegration das entscheidende Hemmnis und damit die Frage, wie die zunehmend preiswert und schnell erzeugten Daten verfügbar gemacht werden, sodass sie von zahlreichen Wissenschaftlern für Auswertungen verwendet werden können [2]. Dabei stellen sich in der Biologie durch die Vielzahl sehr unterschiedlicher Datentypen, die verarbeitet werden müssen, spezifische Fragen.

Das Hinzufügen von Informationen zur Genomsequenz wird als Genomannotation bezeichnet [3]. Hierbei werden funktionstragende Bereiche markiert, beispielsweise proteinkodierende Leseraster. Erst hierdurch werden die im Genom kodierten Proteine erkennbar. Hinweise auf die Funktion dieser Proteine können einerseits durch Vergleich mit bekannten, charakterisierten Proteinen erhalten werden, andererseits aus weiteren Daten, beispielsweise aus Messungen der Genaktivität (Expressionsanalysen) oder der Bindung an andere Proteine [4]. Es müssen also Sequenzdaten aus mehreren Genomen, Proteindatenbanken, Expressionsdaten und Proteininteraktionsdaten verknüpft werden. Dazu kommen noch eine Reihe von Eigenschaften, die mit bioinformatischen Mitteln aus der Sequenz vorhergesagt werden können, beispielsweise Bereiche eines Proteins, die in Zellmembranen liegen, oder Sortierungsignale, die anzeigen, dass ein Protein dafür bestimmt sein könnte, aus der Zelle ausgeschleust zu werden.

Die Bioinformatikanwendungen, die solche Vorhersagen ermöglichen, sowie die Datenbanken sind meist im Internet erreichbar. Damit können durch Abfragen einer ganzen Reihe von Webseiten alle Informationen zusammengetragen werden. In einer Zeit, wo Hunderte Genomsequenzen erzeugt werden, ist ein solches Vorgehen allerdings nicht nur mühselig, sondern nicht praktikabel. Das Auffinden, Abfragen und Verknüpfen von Bioinformatikanwendungen und Datenbanken muss also automatisiert möglich werden [5].

Webservices ermöglichen Interoperabilität

Die Technologie, die diese Automatisierung ermöglicht, ist im World Wide Web bereits etabliert. Webservices ermöglichen die Verbindung von Datenbankabfragen und Operationen zwischen verteilten Rechnern. In mehreren internationalen Projekten wurde die Anwendung in der Bioinformatik erprobt. Unsere Forschungsgruppe beteiligt sich am internationalen Biomoby-Projekt, das zu dem Ergebnis kam, dass den etablierten Webservice-Standards eine entscheidende Zutat fehlt: Eine maschineninterpretierbare Beschreibung der Datentypen, die Eingabe und Ausgabe eines Webservice sind, sowie eine zentrale Registratur aller Webservices [6]. Letztere muss Abfragen beantworten können wie „Welche Webservices können mit einem Genbezeichner aus Arabidopsis thaliana aufgerufen werden und liefern Bilddaten“. Die Beschreibung der Datentypen erfolgt in einer Ontologie, sodass aufgelöst werden kann, welche spezifischen Datentypen (z.B. JPEG, PNG, GIF mit Imagemap, kommentiertes TIFF) Bilddaten enthalten.

Aggregatoren und Workflows

Durch solche Interoperabilität werden zwei wichtige Anwendungen ermöglicht. Aggregatoren sind Computerprogramme, die mehrere Datenquellen gleichzeitig abfragen und die Ergebnisse vereinen können. Eine solche Anwendung, JABBA [7], wurde am MPIPZ für Gene aus der Ackerschmalwand, Arabidopsis thaliana, entwickelt, welches die erste Pflanze war, deren Genom vollständig sequenziert wurde. Für ein Gen stellt JABBA beispielsweise Sequenzen, Funktionsbeschreibungen, Referenzen und Bilder dar, welche aus verschiedenen internationalen Datenbanken abgefragt werden. Das Besondere: Sobald eine neue Datenbank einen passenden Biomoby Webservice anbietet, wird dieser automatisch von JABBA mit abgefragt.

BioMoby Workflow zur Funktionsvorhersage von Proteinsequenzen. A: Für eine unbekannte Proteinsequenz soll durch Vergleich mit charakterisierten Proteinen eine Funktion vorgeschlagen werden. Dazu wird eine Datenbanksuche durchgeführt (GetInAndOrthologsFromRefSeq) und mit den gefundenen Proteinsequenzen ein phylogenetischer Stammbaum berechnet. Mit dem Programm Sifter, welches an der University of California und am Max-Planck-Institut für Pflanzenzüchtungsforschung entwickelt wurde, werden Funktionsannotationen an im Baum benachbarte Proteine übertragen. Der Workflow und dieses Diagramm wurden in Taverna [8] erstellt. Er kann unter http://www.myexperiment.org/workflows/95 geladen und ausgeführt werden.
B: Eine Eingabe für den Workflow ist die Aminosäuresequenz eines unbekannten Proteins als BioMoby Objekt „AminoAcidSequence“. Dieser Datentyp ist definiert als Spezialform einer „GenericSequence“, welche die eigentliche Sequenz als „SequenceString“ enthält. Eine „GenericSequence“ leitet sich wiederum von einer „VirtualSequence“ ab, welche lediglich die Information über die Länge enthält. Im Workflow werden Länge und Sequenz als BioMoby Datentypen „Integer“ und „String“ angelegt und als Eingabe für die „AminoAcidSequence“ verwendet. — BioMoby Workflow zur Funktionsvorhersage von Proteinsequenzen. A: Für eine unbekannte Proteinsequenz soll durch Vergleich mit charakterisierten Proteinen eine Funktion vorgeschlagen werden. Dazu wird eine Datenbanksuche durchgeführt (GetInAndOrthologsFromRefSeq) und mit den gefundenen Proteinsequenzen ein phylogenetischer Stammbaum berechnet. Mit dem Programm Sifter, welches an der University of California und am Max-Planck-Institut für Pflanzenzüchtungsforschung entwickelt wurde, werden Funktionsannotationen an im Baum benachbarte Proteine übertragen. Der Workflow und dieses Diagramm wurden in Taverna [8] erstellt. Er kann unter http://www.myexperiment.org/workflows/95 geladen und ausgeführt werden. B: Eine Eingabe für den Workflow ist die Aminosäuresequenz eines unbekannten Proteins als BioMoby Objekt „AminoAcidSequence“. Dieser Datentyp ist definiert als Spezialform einer „GenericSequence“, welche die eigentliche Sequenz als „SequenceString“ enthält. Eine „GenericSequence“ leitet sich wiederum von einer „VirtualSequence“ ab, welche lediglich die Information über die Länge enthält. Im Workflow werden Länge und Sequenz als BioMoby Datentypen „Integer“ und „String“ angelegt und als Eingabe für die „AminoAcidSequence“ verwendet.

© Das Diagramm wurde von Heiko Schoof unter Verwendung von Taverna (http://www.taverna.org.uk) und dem BioMoby Registry Browser (http://lipm-bioinfo.toulouse.inra.fr/registry/cgi/registry.cgi) erstellt.

BioMoby Workflow zur Funktionsvorhersage von Proteinsequenzen. A: Für eine unbekannte Proteinsequenz soll durch Vergleich mit charakterisierten Proteinen eine Funktion vorgeschlagen werden. Dazu wird eine Datenbanksuche durchgeführt (GetInAndOrthologsFromRefSeq) und mit den gefundenen Proteinsequenzen ein phylogenetischer Stammbaum berechnet. Mit dem Programm Sifter, welches an der University of California und am Max-Planck-Institut für Pflanzenzüchtungsforschung entwickelt wurde, werden Funktionsannotationen an im Baum benachbarte Proteine übertragen. Der Workflow und dieses Diagramm wurden in Taverna [8] erstellt. Er kann unter http://www.myexperiment.org/workflows/95 geladen und ausgeführt werden. B: Eine Eingabe für den Workflow ist die Aminosäuresequenz eines unbekannten Proteins als BioMoby Objekt „AminoAcidSequence“. Dieser Datentyp ist definiert als Spezialform einer „GenericSequence“, welche die eigentliche Sequenz als „SequenceString“ enthält. Eine „GenericSequence“ leitet sich wiederum von einer „VirtualSequence“ ab, welche lediglich die Information über die Länge enthält. Im Workflow werden Länge und Sequenz als BioMoby Datentypen „Integer“ und „String“ angelegt und als Eingabe für die „AminoAcidSequence“ verwendet.

© Das Diagramm wurde von Heiko Schoof unter Verwendung von Taverna (http://www.taverna.org.uk) und dem BioMoby Registry Browser (http://lipm-bioinfo.toulouse.inra.fr/registry/cgi/registry.cgi) erstellt.

Die zweite Anwendung sind Workflows, in denen Datenbankabfragen und Bioinformatikanwendungen zu Analysen verknüpft und automatisiert ausgeführt werden können. Taverna, ein Programm zum Erstellen und Ausführen bioinformatischer Workflows, wurde durch das MyGrid-Projekt implementiert [8]. Dieses fragt die Biomoby-Registratur ab und bietet entsprechende Webservices an, die per Drag-and-drop zu Workflows kombiniert werden können. Biomoby erleichtert das Erstellen von Workflows, indem nur Webservices angeboten werden, für die der Eingabedatentyp zum Ausgabedatentyp des vorherigen Schrittes passt [9].

Solche Workflows können auch ein Beitrag zur Reproduzierbarkeit von Bioinformatikanalysen sein. Das MyGrid-Projekt hat mit myexperiment.org eine Webplattform geschaffen, in der Workflows abgelegt, dokumentiert und gemeinsam genutzt werden können [10].

Immer mehr Bioinformatikressourcen sind durch Webservices selbst erreichbar. Dies bietet eine effiziente Zugangsmöglichkeit, um automatisiert auf diese Dienste zuzugreifen. Dadurch lassen sich deutlich einfacher komplexe Anwendungen implementieren, die auf verschiedene verteilte Ressourcen zugreifen müssen. Allerdings löst dies nicht das eigentliche Problem der biologischen Datenintegration, nämlich wie verschiedene Datentypen sinnvoll miteinander verbunden werden können. Aber Standards für den Zugang zu Daten und Bioinformatikanwendungen vereinfachen die Erforschung integrativer Analysen.

Originalveröffentlichungen

S. Schuster:

Next-generation sequencing transforms today's biology.

Nature Methods 5, 16 - 18 (2008).

L. D. Stein:

Towards a cyberinfrastructure for the biological sciences: progress, visions and challenges.

Nature Reviews Genetics 9, 678 - 688 (2008).

H. Schoof, H. W. Mewes:

Ein nützliches "Unkraut": Bioinformatik im Arabidopsis thaliana-Genomprojekt.

Biospektrum 3.01, 234 - 238 (2001).

N. Nariai, E. D. Kolaczyk, S. Kasif:

Probabilistic protein function prediction from heterogeneous genome-wide data.

PLoS One 2, e337 (2007).

L. D. Stein:

Creating a bioinformatics nation.

Nature 417, 119 - 120 (2002).

The BioMoby Consortium

Interoperability with Moby 1.0--It's better than sharing your toothbrush!

Briefings in Bioinformatics 9, 220 - 231 (2008).

JABBA: http://bioinfo.mpiz-koeln.mpg.de/jabba

T. Oinn, M. Addis, J. Ferris, D. Marvin, M. Senger, M. Greenwood, T. Carver, K. Glover, M. R. Pocock, A. Wipat, P. Li:

Taverna: a tool for the composition and enactment of bioinformatics workflows.

Bioinformatics 20, 3045 - 3054 (2004).

E. Kawas, M. Senger, M. Wilkinson:

BioMoby extensions to the Taverna workflow management and enactment software.

BMC Bioinformatics 7, 523 (2006).

D. De Roure, C. Goble:

Software design for empowering scientists.

IEEE Software 26, 88 - 95 (2009).