Forschungsbericht 2024 - Max-Planck-Institut für Informatik
Erklärbare KI-Entscheidungen
Understandable AI-reasoning through mechanistic explanations
Explainable Machine Learning group
Abteilung D2 – Computer Vision and Machine Learning
Wenn ein neuronales Netz an seinem Eingang die Pixel eines Katzenbildes aufnimmt und an seinem Ausgang erklärt, dass es auch tatsächlich eine Katze erkannt hat, mag es nicht von allzu großer Bedeutung sein, wie dieses Ergebnis zustande gekommen ist. Geht es allerdings um menschliche Gesundheit und die Diagnose einer Krankheit auf Basis unterschiedlicher Symptome, wird mangelnde Nachvollziehbarkeit schnell zum Problem.
Im Grunde sind neuronale Netze komplexe mathematische Modelle. Sie bestehen aus aufeinander aufbauenden mathematischen Funktionen, die in Schichten organisiert sind. Wie genau diese mathematischen Funktionen aussehen, wird durch die Neuronen und Verbindungen des Netzwerks bestimmt, die während des Trainings anhand großer Datenmengen nach und nach optimiert werden. Am Max-Planck-Institut für Informatik interessieren wir uns dafür, welche Abhängigkeiten ein neuronales Netz dabei lernt, und stellen auch die Frage, welche Teile des Netzes zur Entscheidungsfindung beitragen. So wollen wir Fehler oder ungewollte Abweichungen im System aufspüren und beheben. Außerdem ist es unser Ziel nachzuvollziehen, warum Netze bestimmte Aufgaben lösen, die uns Menschen bislang schwerfallen.
Um festzustellen, welchen Weg eine Information durch das Netz zu einem bestimmten Ergebnis nimmt, haben wir eine grundlegende Methode entwickelt, die sich auf Mustererkennung stützt. Wir suchen nach Abhängigkeiten zwischen Neuronen und versuchen zu verstehen, welche davon bei welchen Eingaben aktiv sind. Welche kodieren gemeinsam welche Information? Und wie hängen sie zusammen, um den Signalfluss hin zur Ausgabe zu steuern? Indem wir also verstehen, wie ein Signal durch das neuronale Netz geleitet wird, erklären wir sehr mechanistisch, was im Inneren der KI vor sich geht. Eine Entscheidung der KI wird damit nachvollziehbarer, das ist vergleichbar mit einer Vielzahl von Zahnrädern, die ineinandergreifen, um einen bestimmten Effekt zu erzielen.
Ein Beispiel, bei dem wir durch eine solche mechanistische Herangehensweise bereits ein fehlerhaftes System aufdecken konnten, ist ein Diagnosesystem, das auf Nahaufnahmen von Muttermalen bei Frauen häufiger als erwartet Hautkrebs festgestellt hat. Wie eine genauere Analyse zeigte, waren es insbesondere Muttermale auf wenig behaarter Haut, die in den Trainingsdaten stark mit Krebs assoziiert waren. Das lag daran, dass das medizinische Personal verdächtige Hautstellen und damit auch einen Großteil der tatsächlichen Tumore vor Aufnahme der Trainingsfotos von Haaren befreit hat. Das Netz hat also einen falschen Zusammenhang zwischen geringer Körperbehaarung und Hautkrebs hergestellt.
Auf Fachwissen aufbauen
In der Regel lernen neuronale Netze durch große Datenmengen. Im Falle eines Sprachmodells sind das etwa Sammlungen von Dokumenten und Webtexten. Dabei hoffen die Entwicklerinnen und Entwickler, dass das Netzwerk diese Informationen korrekt lernt und einsetzt. Erfahrungen zeigen jedoch, dass sich bei Vorhersagen oft Fehler einschleichen, da beispielsweise Abhängigkeiten in den Daten nicht richtig erlernt oder ungewollt verwendet wurden.
In vielen Forschungsfeldern verfügen wir allerdings bereits seit Langem über tiefgehendes Fachwissen, das über Jahrzehnte hinweg erarbeitet und experimentell im Labor bestätigt wurde. Wenn wir dieses Wissen in neuronale Netze integrieren, vermeiden wir Fehler und steigern die Leistungsfähigkeit der KI erheblich. In einem Projekt zur Vorhersage der Genregulation in der Molekularbiologie gelang es, ein hoch performantes Netz mit nur geringem Datenaufwand zu trainieren, indem man existierendes Wissen in das Netz verwob. Bestimmte Teile von neuronalen Netzen, die mit einem übermäßigen Daten- und Zeitaufwand trainiert wurden, können wir nun „zurechtstutzen“, indem wir existierendes Vorwissen integrieren. In der Molekularbiologie haben wir so schon mehr als 90 Prozent unnötiger Verbindungen zwischen Neuronen entfernt und damit ein leistungsstärkeres KI-Modell gewonnen, dessen Entscheidungsprozesse auch nachvollziehbarer sind.
Von neuronalen Netzen lernen
Wie bereits erwähnt, beschreiben komplexe mathematische Funktionen die Vorhersage eines neuronalen Netzes. Die Werte der Verbindungen und Neuronen des Netzes haben aber keine einfach nachvollziehbare Bedeutung. Beim sogenannten neurosymbolischen Ansatz beschreiben sie direkt interpretierbare Abhängigkeiten in den Daten, wie beispielsweise „Gen A und Gen B sind meist gleichzeitig aktiv“. Das hilft auch, die Eingangsdaten besser zu verstehen. Darauf aufbauend haben wir ein vollständig interpretierbares, neurosymbolisches Modell entwickelt, das Zusammenhänge findet wie etwa „Gen A und Gen B sind nur in Brustkrebs eines bestimmten Typs aktiv“. In der Biologie und Medizin ist das besonders interessant. Es bleibt aber nicht bei reinen Zusammenhängen, dank dieser Methoden verstehen wir sie auch, da sie im neuronalen Netz nun symbolisch und damit verständlich abgebildet sind.
Die großen Herausforderungen
Die Forschung zur Interpretierbarkeit von künstlichen neuronalen Netzen steckt zwar noch in den Kinderschuhen, hat aber dennoch bereits erstaunliche Ergebnisse geliefert und die Entscheidungsfindung in Netzen verbessert. Neuronale Netze können nun Probleme lösen, die seit vielen Jahrzehnten eine Herausforderung für die Gesellschaft darstellten. Prominente Beispiele dafür sind etwa die Vorhersage von Proteinfaltung (Chemie-Nobelpreis 2024) oder die Kontrolle von Plasma in einem Fusionsreaktor. Um diese komplexen Modelle nachzuvollziehen, brauchen wir ein mechanistisches Verständnis davon, wie das Netz arbeitet. Wo wird welche Information wie verarbeitet, um zu welcher Entscheidung zu gelangen? Mit diesen Herausforderungen beschäftigen wir uns in unserer Forschung.
Literaturhinweise
‡*equal contribution
