KI nimmt Bilder anders wahr als der Mensch
Während sich Menschen auf die Bedeutung von Objekten konzentrieren, fokussiert sich Künstliche Intelligenz auf visuelle Eigenschaften

Auf den Punkt gebracht
- Unterschiedliche Strategien: Menschen konzentrieren sich auf die Bedeutung von Objekten, während KI sich auf visuelle Eigenschaften wie Form und Farbe fokussiert.
- Ergebnisse: KI erfasst Dimensionen, die sich jedoch von denen unterscheiden, die Menschen wählen. Dies beeinflusst ihre Zuverlässigkeit.
- Zukünftige Forschung: Mit der in der Studie verwendeten Technik lässt sich die Wahrnehmung von KI und Menschen besser vergleichen und verstehen.
„Diese Dimensionen repräsentieren verschiedene Eigenschaften von Objekten, die von rein visuellen Aspekten wie ‚rund‘ oder ‚weiß‘ bis hin zu eher semantischen Eigenschaften wie ‚tierbezogen‘ oder ‚feuerbezogen‘ reichen, wobei viele Dimensionen sowohl visuelle als auch semantische Elemente enthalten“, erklärt Florian Mahner vom Max-Planck-Institut für Kognitions- und Neurowissenschaften.
"Unsere Ergebnisse zeigen einen wichtigen Unterschied: Während sich Menschen vor allem auf Dimensionen konzentrieren, die mit der Bedeutung zusammenhängen - was ein Objekt ist und was wir darüber wissen -, verlassen sich KI-Modelle stärker auf Dimensionen, die visuelle Eigenschaften erfassen, wie etwa die Form oder Farbe des Objekts. Wir nennen dieses Phänomen ,visuelle Bevorzugung‘ in der KI. Selbst wenn die KI Objekte genauso zu erkennen scheint wie der Mensch, wendet sie oft grundlegend andere Strategien an. Dieser Unterschied ist von Bedeutung, denn KI-Systeme denken und treffen Entscheidungen möglicherweise ganz anders, obwohl sie sich ähnlich wie Menschen verhalten. Dies wirkt sich natürlich darauf aus, wie sehr wir ihnen vertrauen können."
Ähnlichkeitsurteile für Bilder der gleichen Objekte
Für das menschliche Verhalten nutzten die Forschenden rund fünf Millionen öffentlich verfügbare Odd-One-Out-Urteile über 1.854 verschiedene Objektbilder. Einem Teilnehmer wurde zum Beispiel das Bild einer Gitarre, eines Elefanten und eines Stuhls gezeigt und er wurde gefragt, welches Objekt nicht übereinstimmt. Die Forschenden setzten dann mehrere tiefe neuronale Netze ein, die Bilder analog zu menschlichen Teilnehmern erkennen können, und sammelten Ähnlichkeitsurteile für Bilder der gleichen Objekte, die für Menschen verwendet wurden. Anschließend wendeten sie denselben Algorithmus an, um die Schlüsselmerkmale dieser Bilder - von den Forschenden als „Dimensionen“ bezeichnet - zu ermitteln, die den Ausreißerentscheidungen zugrunde liegen. Dadurch, dass das neuronale Netz analog zum Menschen behandelt wurden, war eine direkte Vergleichbarkeit zwischen den beiden gewährleistet.
„Als wir uns die Dimensionen, die wir in den tiefen neuronalen Netzen entdeckten, zum ersten Mal ansahen, dachten wir, dass sie denen des Menschen sehr ähnlich sind“, erklärt Martin Hebart, Letztautor der Studie. "Als wir jedoch die übereinstimmenden Dimensionen zwischen Menschen und tiefen neuronalen Netzen direkt verglichen, stellten wir fest, dass das Netz diese Dimensionen nur annähernd erfasste. Bei einer tierbezogenen Dimension wurden viele Bilder von Tieren nicht einbezogen, und ebenso wurden viele Bilder einbezogen, die gar keine Tiere waren. Das ist etwas, das wir mit Standardtechniken übersehen hätten.“
Die Wissenschaftler hoffen, dass zukünftige Forschungen ähnliche Ansätze verwenden werden, die Menschen und KI direkt miteinander vergleichen, um besser zu verstehen, wie KI die Welt wahrnimmt. „Unsere Forschung bietet eine klare und interpretierbare Methode zur Untersuchung dieser Unterschiede, die uns hilft, besser zu verstehen, wie KI im Vergleich zum Menschen Informationen verarbeitet“, sagt Martin Hebart, „Dieses Wissen kann uns nicht nur helfen, die KI-Technologie zu verbessern, sondern liefert auch wertvolle Einblicke in die menschliche Kognition.“