Datenmengen durch das Auge der algebraischen Geometrie betrachtet

22. August 2018

In unserer heutigen Welt werden täglich riesige Mengen an Daten produziert, gestreut und gesammelt. Die Wissenschaft ist gefordert, diese zu analysieren und den gesammelten Datensätzen zugrundeliegende Muster aufzudecken. Im kürzlich erschienenen Artikel "Learning Algeberaic Varieties from Samples" stellen Wissenschaftler des Max-Planck-Instituts für Mathematik in den Naturwissenschaften in Leipzig einen neuartigen Ansatz zur Analyse von Datenmengen, die eine intrinsische geometrischen Struktur aufweisen, vor.

Algebraische Varietäten treten natürlich beim Studium von Datenmengen auf, die in den Naturwissenschaften vorkommen.

Die stetige Produktion von Informationen und Daten ist eine der Besonderheiten unserer heutigen Zeit und stellt eine große Herausforderung an die Wissenschaft dar. Fortschritte in Wissenschaft und Technologie erfordern effiziente Methoden, diese Daten zu analysieren, entsprechend zu deuten und zudem die riesigen Datenengen effektiv zu sammeln und zu bearbeiten. In der Datenanalyse entstehen wie selbstverständlich mathematische Strukturen und häufig weisen Datenmengen, die in reale Anwendungen eingebunden sind, eine intrinsische geometrische Struktur auf. Dies ist der Fall bei Daten aus den Bereichen medizinische Bildgebung, Bild- und Videoerkennung, Computer Vision, mathematische Biologie und Chemie. Eine der größten Herausforderungen in der heutigen Data Science besteht darin, solche zugrundeliegenden geometrischen Strukturen identifizieren zu können.

Eine Gruppe von Forschern des Max-Planck-Instituts für Mathematik in den Naturwissenschaften, unter der Leitung von Prof. Dr. Bernd Sturmfels, hat eine neue Methode zur Untersuchung geometrisch verteilter Datenmengen vorgestellt. Ihre Ergebnisse sind kürzlich in der Revista Matemática Complutense erschienen, einer erstklassigen mathematischen Zeitschrift, die sich auf angewandte und computergestützte Mathematik spezialisiert hat.

In dem Artikel "Learning algebraic varieties from samples" erklären die Autoren, wie man geometrische Informationen aus einer ausreichend umfangreichen Datenmenge erhält. Zudem argumentieren sie, dass es möglich ist, die mathematische Datenanalyse zu verbessern, indem man die Daten aus dem Blickwinkel der algebraischen Geometrie betrachtet.

Eines der ersten Probleme, das sie angehen, ist das Erkennen von Datenmengen mit geringer Dimension. In ihrem Artikel argumentieren die Autoren, dass "die Mathematik der Datenwissenschaft darauf abzielt, in einem hochdimensionalen Heuhaufen niederdimensionale Nadeln zu finden".

In praktischen Anwendungen hängt die geometrische Form, entlang welcher die Daten verteilt werden, von einer festen Anzahl von Parametern ab. Diese ist typischerweise weitaus geringer als die Zahl der Paramater, die zur Beschreibung des entsprechenden Umgebungsraums benötigt wird. Die Dimensionierung einer Sammlung zu erkennen, ist daher ein entscheidender Schritt im mathematischen Ansatz der Datenanalyse. Die Autoren schlagen vor, die zugrundeliegende Form als eine algebraische Varietät - also als eine Menge von Punkten, auf denen ein gegebenes Polynom verschwindet - zu erkennen. Die Wissenschaftler nutzen dann die geometrischen Eigenschaften dieser Varietät, um weitere Informationen über die Daten einschließlich der Dimension zu extrahieren.

Die Idee, algebraische Techniken zu verwenden, ist ein innovativer Aspekt ihrer Arbeit. Während die gegenwärtigen Ansätze zu geometrisch verteilten Daten dazu tendieren, die zugrundeliegende algebraische Struktur zu verwerfen, konnten die Max-Planck-Forscher zeigen, dass es durch die Ausnutzung der zusätzlichen Informationen in den Polynomgleichungen möglich ist, die Qualität, die Genauigkeit und die Effizienz der Analyse zu verbessern.

Parallel zu den eher theoretischen Aspekten ihrer Studie haben die Autoren auch ein Softwarepaket entwickelt, das ihre in der Open-Source-Programmiersprache Julia geschriebene Prozedur für jeden, der in diesem Bereich arbeitet, frei verfügbar macht. Die Verwendung des Softwarepakets wird in dem Artikel inklusive zahlreicher Beispiele ausführlich diskutiert.

Die Wissenschaftler erprobten ihren Algorithmus an Datensätzen aus einer chemischen Datenbank, wie im Beispiel des Cyclooctans, einer organisch-chemischen Verbindung, der bei der Herstellung von Kunststoff- und anderen Fasern verwendet wird. Hierbei konnten sie beweisen, dass ihre Technik das Molekül mit weniger als bei anderen weit verbreiteten Ansätzen geforderten Datenpunkten sehr genau identifizieren kann.

Zusätzliches mathematisches Know-how innerhalb der Gruppe der Autoren, von Computergestützter algebraischer Geometrie bis hin zur angewandter Topologie, trug entscheidend zum Erfolg des gemeinschaftlichen Projektes bei. Dieser Artikel stellt einen ersten Schritt zur Entwicklung einer neuen Forschungsrichtung innerhalb der Mathematik der Daten dar. Der Workshop "TAGS: Linking Topology with algebraic Geometry and Statistics", welcher im Februar dieses Jahr am Institut organisiert wurde, hatte dies bereits entsprechend verdeutlicht.

Paul Breiding, Sara Kališnik, Bernd Sturmfels, Madeleine Weinstein
Learning Algebraic Varieties from Samples
Zur Redakteursansicht