KI-Modelle profitieren von dosierter Nichtlinearität 

Nichtlineare Einheiten fungieren beim maschinellen Lernen als Schalter, die zwischen verschiedenen linearen Verarbeitungsmodi hin- und herschalten

Auf den Punkt gebracht

  • Sequence models: Chatbots wie ChatGPT basieren auf Machine Learning-gesteuerten Sequenzmodellen. Für die Qualität dieser Anwendungen ist entscheidend, welche Art von Sequenzmodell zum Einsatz kommt.
  • Forschende belegen: Inbesondere bei der Verarbeitung kontextbezogener Zusammenhänge übertreffen Modelle mit dosierter Nichtlinearität sowohl rein lineare als auch vollständig nichtlineare Modelle. Zur Optimierung von Sequenzmodellen könnte die Integration dosierter Nichtlinearität hilfreich sein.
  • Analyse neuronaler Aufzeichnungen: Kombinierte Modelle können nicht nur Verhalten vorhersagen, sondern auch offenlegen, welche Berechnungsprinzipien dem Gehirn zugrunde liegen.

Regenschirm oder Sonnenhut? Aktien kaufen oder verkaufen? In Fragen wie diese vertrauen weite Personenkreise heute auf KI-gestützte Empfehlungen. Chatbots wie ChatGPT, KI-gesteuerte Wettervorhersagen oder Finanzmarktprognosen basieren auf Machine Learning-gesteuerten Sequenzmodellen. Für die Qualität dieser Anwendungen ist es daher entscheidend, welche Art von Sequenzmodell zum Einsatz kommt und wie sich solche Modelle weiter optimieren lassen.

Eine zentrale Rolle spielt dabei die Linearität und Nichtlinearität der Modelle. Lineare Sequenzmodelle verarbeiten Informationen nach dem Prinzip der Proportionalität: Die Reaktion auf einen Input ist immer direkt proportional zu seiner Stärke, ähnlich dem Prinzip "Wie der Wind, so die Welle". Nichtlineare Modelle hingegen können komplexere, kontextabhängige Zusammenhänge abbilden: Sie können dieselbe Information je nach Situation völlig unterschiedlich verarbeiten. Ein einfaches Beispiel: Ob das Wort "Bank" als Geldinstitut oder Sitzgelegenheit interpretiert wird, hängt vom Kontext ab, und solch eine bedingte Unterscheidung können lineare Modelle nicht leisten.

Trainingseffizienz spielt maßgebliche Rolle

Diese Fähigkeit zur kontextabhängigen Verarbeitung macht nichtlineare Modelle so mächtig für komplexe Aufgaben wie Sprachverständnis oder Mustererkennung. Aber braucht man wirklich überall im Modell Nichtlinearität, oder reicht diese vielleicht an gezielten Stellen aus? Denn neben der Qualität der Ergebnisse spielt auch die Trainingseffizienz eine maßgebliche Rolle.

Sowohl lineare Modelle als auch Transformer (die Architektur hinter dem "T" in ChatGPT) erlauben paralleles Training, bei dem viele Informationen gleichzeitig verarbeitet werden können, was die Skalierung auf riesige Datenmengen erst möglich gemacht hat. Doch während lineare Modelle sich günstig trainieren lassen, ist das Training großer Transformer-Modelle extrem kosten- und energieintensiv: Weltweit werden riesige Serverfarmen für KI-Training gebaut, mit gigantischem Energieverbrauch als Folge. Das Optimum wäre ein smarter Mittelweg: Ein Modell, das die Vorteile des parallelen Trainings nutzt, aber ohne die enormen Kosten vollständig nichtlinearer Architekturen.

Zentral ist also die Frage, wie Nichtlinearität innerhalb von Sequenzmodellen zielführend eingesetzt werden kann. Das haben Forschende des Ernst Strüngmann Instituts in Frankfurt sowie am Interdiszplinären Zentrum für Wissenschaftliches Rechnen an der Universität Heidelberg herausgefunden. Die zentrale Erkenntnis der Forschung: Es lohnt sich, eine sinnvolle Balance zu finden. Um dies systematisch zu untersuchen, testeten die Forschenden ihre Modelle an einer breiten Palette von Aufgaben: von Textklassifizierung über Bilderkennung bis hin zu kognitiven Benchmarks aus der computergestützten Neurowissenschaft. Diese Vielfalt ermöglichte es, zu unterscheiden, welche Aufgaben Nichtlinearität wirklich funktional benötigen und welche sich bereits durch weitgehend lineare Prozesse lösen lassen.

Das überraschende Ergebnis: Modelle mit dosierter Nichtlinearität, bei denen nur ein Teil des Modells (der „Neuronen“ im neuronalen Netzwerk) nichtlinear arbeitet, übertrafen sowohl rein lineare als auch vollständig nichtlineare Modelle in vielen Szenarien. Besonders deutlich zeigte sich dieser Vorteil bei begrenzten Datenmengen: Hier waren die spärlich-nichtlinearen Modelle klar überlegen. Aber auch bei größeren Datenmengen blieben sie wettbewerbsfähig. Der Grund: Die nichtlinearen Einheiten fungieren als flexible Schalter, die kontextabhängig zwischen verschiedenen linearen Verarbeitungsmodi umschalten.

Dosierte nichtlinearer Modelle sind besser interpretierbar

Ein entscheidender Vorteil dosierter nichtlinearer Modelle liegt in ihrer Interpretierbarkeit. Weil die Nichtlinearität auf wenige Einheiten beschränkt ist, konnten die Forschenden nachvollziehen, wo und wie das Modell diese einsetzt. Das macht die Architektur besonders wertvoll für die Neurowissenschaft: Bei der Analyse neuronaler Aufzeichnungen können die Modelle nicht nur Verhalten vorhersagen, sondern auch offenlegen, welche Berechnungsprinzipien dem Gehirn zugrunde liegen. Die Ergebnisse zeigen in diesem Zusammenhang ein konsistentes Muster: Gedächtnis wird oft über langsame lineare Dynamiken implementiert, während rechnerische Operationen durch gezielte nichtlineare Mechanismen realisiert werden.

Damit legen die Forschenden einerseits einen Ansatz zur Erklärung neurowissenschaftlicher Messung vor. Andererseits schlagen sie darüber hinaus bezüglich der Optimierung von Sequenzmodellen im Rahmen des Machine Learning vor, die Integration dosierter Nichtlinearität als allgemein nützliches Designprinzip für moderne, daten-effiziente Sequenzmodelle anzusehen.

Weitere interessante Beiträge

Zur Redakteursansicht