Forschungsbericht 2016 - Max-Planck-Institut für Informatik

Rekonstruktion zellulärer Stammbäume

Autoren
Andres, Björn1; Schiele, Bernt1; Jug, Florian2; Blasse, Corinna2, Myers, Eugene W.2
Abteilungen
1 „Computer Vision and Multimodal Computing“, MPI für Informatik, Saarbrücken
2 „Gene Myers Group“ MPI für molekulare Zellbiologie und Genetik, Dresden
Zusammenfassung
Rasante Fortschritte in der Lichtmikroskopie machen es möglich, lebendes Gewebe aus vielen tausend Zellen während der Entwicklung abzubilden. Wissenschaftler des Max-Planck-Instituts für Informatik und des Max-Planck-Instituts für molekulare Zellbiologie und Genetik arbeiten gemeinsam an Algorithmen, um den Stammbaum aller abgebildeten Zellen aus den aufgenommenen Bilddaten automatisch zu rekonstruieren. Durch einen Ansatz, der zwei Teilprobleme gemeinsam löst, das Bildsegmentierungsproblem und das Zellverfolgungsproblem, können zelluläre Stammbäume mit hoher Genauigkeit rekonstruiert werden.

Der räumliche Aufbau vielzelliger Lebewesen zählt zu den komplexesten Strukturen überhaupt. Im Detail zu verstehen, welche Mechanismen den Aufbau zellulären Gewebes während dessen Entwicklung steuern, ist ein aktives Forschungsfeld der Biologie. Rasante Fortschritte in der Lichtmikroskopie machen es inzwischen möglich, Gewebe aus vielen tausend Zellen während der Entwicklung abzubilden und dabei eine räumliche und zeitliche Auflösung zu erreichen, die es Menschen erlaubt, den Stammbaum aller abgebildeten Zellen aus den aufgenommenen Bilddaten zu rekonstruieren. Die Rekonstruktion solcher zellulärer Stammbäume ist allerdings selbst für speziell ausgebildete Menschen derart aufwendig, dass sie als Verfahren nur für wenige und kleine Bilddatensätze praktikabel ist. Um aber ein umfassendes Verständnis über die Mechanismen der räumlichen Gewebeentwicklung zu erlangen, ist es notwendig, zelluläre Stammbäume aus vielen und großen Bilddatensätzen zu rekonstruieren. Deshalb arbeiten Wissenschaftler des Max-Planck-Instituts für Informatik und des Max-Planck-Instituts für molekulare Zellbiologie und Genetik gemeinsam an Algorithmen, um zelluläre Stammbäume aus Bilddaten automatisch zu rekonstruieren. Ein Ziel dieser Forschungsarbeit ist es, bei der Rekonstruktion dieselbe Genauigkeit zu erreichen wie speziell ausgebildete Menschen. Ein zweites Ziel ist es, die Rekonstruktion mit einem leistungsfähigen, aber handelsüblichen Computer ebenso rasch durchzuführen wie die Bildaufnahme. Letzteres ist sinnvoll, weil anderenfalls ein Arbeitsrückstand unverarbeiteter Bilddatensätze entstehen kann.

Ein Problem der automatischen Bildanalyse in zwei Teilen

Das Bildanalyseproblem, das sich die Forscher stellen, ist im Grunde einfach zu beschreiben: Das Ziel besteht darin, die Stammbäume aller abgebildeten Zellen automatisch aus einer Folge von Bildern, die mit einem Lichtmikroskop aufgenommen worden sind, zu konstruieren. Dazu müssen zwei Teilprobleme gelöst werden (Abb. 1).

Das erste Teilproblem besteht darin, in jedem Einzelbild jede einzelne Zelle zu erkennen und von anderen Zellen sowie dem Bildhintergrund zu trennen. Dieses erste Teilproblem gehört zur Klasse der sogenannten Bildsegmentierungsprobleme. Das zweite Teilproblem besteht darin, für jedes Einzelbild und jede darin abgebildete Zelle zu entscheiden, was mit dieser Zelle im folgenden Bild geschieht. Dieses zweite Teilproblem gehört zur Klasse der sogenannten Tracking-Probleme. Bei lebenden Zellen können drei Fälle auftreten: Einerseits kann sich eine Zelle innerhalb des Bildfeldes bewegen. In diesem Fall besteht die Aufgabe darin, dieselbe Zelle wiederzuerkennen, das heißt, eine Verbindung herzustellen zwischen der Zelle im vorliegenden Bild und derselben Zelle im folgenden Bild. Zweitens kann eine Zelle sich aus dem Bildfeld hinaus bewegen, verdeckt oder (selten) zerstört werden. In diesem Fall besteht die Aufgabe darin, die Situation zu erkennen und die Zelle als Blatt des Stammbaumes zu markieren. Drittens kann sich eine Zelle innerhalb des Zeitraums zwischen den Aufnahmen der beiden Bilder teilen. In diesem Fall besteht die Aufgabe darin, die Zelle mit ihren beiden Nachfahren im nächsten Bild zu verbinden und so eine Verzweigung des Stammbaumes zu erkennen. Zelluläre Stammbäume sind in Abbildung 2 dargestellt. Zellteilungen sind darin schwarz markiert.

Ein gemeinsamer Ansatz

Ein klassischer Ansatz zur Lösung des Problems insgesamt besteht darin, die beiden Teilprobleme nacheinander zu lösen, erst das Segmentierungsproblem für jedes Bild einzeln und dann das Tracking-Problem für alle Zellen und Bilder gemeinsam. Ein Aspekt der Arbeit besteht darin, genau das nicht zu tun und die beiden Teilprobleme stattdessen gemeinsam zu lösen. Dieser Ansatz hat sowohl praktische als auch theoretische Gründe.

Sind Zellen wesentlich größer als die räumliche Bildauflösung, klar vom Bildhintergrund getrennt und in großem Abstand voneinander, sind beide Teilprobleme einfach zu lösen, für einen Menschen ebenso wie für einen Algorithmus. Schwierigkeiten entstehen dann, wenn Zellen gerade noch aufgelöst werden können, sich nur schwach vom Bildhintergrund abheben, dicht beieinander liegen oder sich derart bewegen, dass das Wiedererkennen derselben Zelle über die Zeit lokal uneindeutig wird. Um etwa zu entscheiden, ob es sich in einem gegebenen Bereich eines Bildes um eine oder zwei Zellen handelt, unternehmen Menschen, die in der Lösung des Problems geschult sind, den Versuch, für beide Hypothesen jeweils einen Stammbaum über die Zeit zu konstruieren. Ist einer der Stammbäume plausibler als der andere, kann das eine Entscheidung zwischen den beiden Hypothesen erleichtern. Dieses Beispiel aus der Praxis zeigt, dass es sinnvoll sein kann, die beiden Teilprobleme nicht unabhängig voneinander zu lösen, sondern gemeinsam.

Ein theoretischer Grund zur gemeinsamen Lösung beider Probleme ergibt sich aus dem Grad ihrer Schwierigkeit, genauer gesagt, aus der Komplexität bestimmter mathematischer Abstraktionen der beiden Probleme. Für das Problem, ein Bild in Zellen und einen Bildhintergrund zu zerlegen, gibt es zahlreiche mathematische Abstraktionen. Die Arbeit an den Max-Planck-Instituten konzentriert sich auf eine Abstraktion, die a priori alle möglichen Lösungen gleich bewertet. Das ist sinnvoll, um das Verfahren zur objektiven Analyse biologischer Prozesse einsetzen zu können. Im Grunde ist diese mathematische Abstraktion des Segmentierungsproblems einfach zu verstehen: Für jeden Bildpunkt muss die Entscheidung getroffen werden, ob dieser einen Teil einer Zelle darstellt oder den Bildhintergrund. Abhängig vom Bildinhalt werden diesen Entscheidungen Kosten zugeordnet, die positiv oder negativ sind, die Entscheidung also belohnen oder bestrafen, abhängig davon, ob sie für das gegebene Bild plausibel oder unplausibel erscheinen. Diese Kosten werden mit Verfahren des maschinellen Lernens aus Instanzen des Problems geschätzt, die bereits von Menschen gelöst worden sind. Weiterhin muss für jedes Paar von Bildpunkten, die beide einen Teil einer Zelle darstellen, entschieden werden, ob es sich dabei um dieselbe Zelle handelt. Auch diesen Entscheidungen werden Kosten zugeordnet, die vom Bildinhalt abhängen. Wichtig ist nun, dass nicht jede Kombination von Entscheidungen eine Zerlegung des Bildes in Zellen und einen Hintergrund beschreibt. Insbesondere gilt für jede Menge aus drei paarweise verschiedenen Bildpunkten, A, B, und C, Folgendes: Wenn A und B dieselbe Zelle darstellen, ebenso wie B und C, dann stellen auch A und C dieselbe Zelle dar. Diese offensichtliche Eigenschaft, die auch Transitivität genannt wird, macht das Segmentierungsproblem komplex. Es gehört zur Klasse der sogenannten NP-schweren Probleme, für die kein Algorithmus bekannt ist, der jede Instanz in einer Zeit löst, die durch ein festes Polynom in der Größe der Instanz beschränkt ist.

Das Problem, für fest gehaltene Zerlegungen aller Bilder in Zellen und einen Bildhintergrund die Stammbäume aller Zellen zu finden, ist weniger komplex: Für jede Zelle in einem gegebenen Bild und jede Zelle im darauf folgenden Bild muss eine Entscheidung getroffen werden: Stehen die beiden Zellen derart in Beziehung, dass es sich um dieselbe Zelle zu unterschiedlichen Zeitpunkten handelt, oder dass es sich bei der zweiten Zelle um einen Nachfahren der ersten Zelle handelt, die sich zwischen den beiden Aufnahmen teilt? Oder stehen die Zellen nicht in einer solchen Beziehung? Auch hier werden beiden Entscheidungen Kosten zugeordnet, die positiv oder negativ sind, abhängig davon, ob sie für die gegebenen Bilder plausibel oder unplausibel erscheinen. Auch diese Kosten werden aus Instanzen des Problems geschätzt, die bereits von Menschen gelöst worden sind. Und auch diese Entscheidungen sind nicht unabhängig voneinander. So kann typischerweise ausgeschlossen werden, dass zwei Zellen, die in einem Bild getrennt sind, im darauf folgenden Bild zu einer Zelle verschmelzen. Anders als beim NP-schweren Segmentierungsproblem handelt es sich hier um ein weniger komplexes Problem aus der Klasse der polynomiell lösbaren Probleme. Aus dieser theoretischen Sicht ergibt sich nun ein weiterer Grund, beide Probleme gemeinsam zu lösen: Da beide Probleme über Zwangsbedingungen zusammenhängen, wie etwa jene, dass Zellen nicht miteinander verschmelzen, kann es passieren, dass die Kosten der möglichen Lösungen des einfacheren Tracking-Problems die möglichen Lösungen des schwierigeren Segmentierungs-Problems besser in günstige (plausible) und teure (unplausible) Lösungen trennen. Hierdurch kann es im theoretisch relevanten schlechtesten Fall zwar lange dauern, eine optimale Lösungen zu finden, es wird in der Praxis aber dennoch möglich.

In der Tat können so, durch die gemeinsame Lösung beider Teilprobleme, Stammbäume offener Zellkulturen und kleiner Ausschnitte dichten Gewebes mit hoher Genauigkeit rekonstruiert werden. Derzeit wird an den Max-Planck-Instituten daran gearbeitet, die zellulären Stammbäume dichten Gewebes mit derselben Genauigkeit zu rekonstruieren.

Literaturhinweise

Amat, F.; Lemon, W.; Mossing, D. P.; McDole, K.; Wan, Y.; Branson, K.; Myers, E. W.; Keller, P. J.
Fast, accurate reconstruction of cell lineages from large-scale fluorescence microscopy data
Nature Methods 11, 951-958 (2014)
Aigouy, B.; Farhadifar, R.; Staple, D. B.; Sagner, A.; Röper, J.-C.; Jülicher, F.; Eaton, S.
Cell Flow Reorients the Axis of Planar Polarity in the Wing Epithelium of Drosophila
Cell 142, 773-786 (2010)
Jug, F.; Levinkov, E.; Blasse, C.; Myers, E. W.; Andres B.
Moral Lineage Tracing
2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 5926-5935 (2016)
Keller, P. J.
Imaging Morphogenesis: Technological Advances and Biological Insights
Science 340, 1234168 (2013)
Keuper, M.; Levinkov, E.; Bonneel, N.; Lavoué, G.; Brox, T.; Andres, B.
Efficient Decomposition of Image and Mesh Graphs by Lifted Multicuts
2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1751-1759 (2015)
Maška, M.; Ulman, V.; Svoboda, D.; Matula, P.; Matula, P.; Ederra, C.; Urbiola, A.; España, T.; Venkatesan, S.; Balak, D. M. W.; Karas, P.; Bolcková, T.; Štreitová, M.; Carthel, C.; Coraluppi, S.; Harder, N.; Rohr, K.; Magnusson, K. E. G.; Jaldén, J.; Blau, H. M.; Dzyubachyk, O.; Křížek, P.; Hagen, G. M.; Pastor-Escuredo, D.; Jimenez-Carretero, D.; Ledesma-Carbayo, M. J.; Munoz-Barrutia, A.; Meijering, E.; Kozubek, M.; Ortiz-de Solorzano, C.
A benchmark for comparison of cell tracking algorithms.
Bioinformatics 30, 1609-1617 (2014)
Zur Redakteursansicht