Forschungsbericht 2013 - Max-Planck-Institut für Informatik

Computergestützte Displays: Mehr wahrgenommene 2D- und 3D-Details als die Physik erlaubt

Perceptual displays: exceeding physical limitations and improving apparent qualities

Autoren
Myszkowski, Karol; Ritschel, Tobias
Abteilungen
Computergrafik
Zusammenfassung
Wir beschreiben wie Effekte der menschlichen Wahrnehmung genutzt werden können um die physikalischen Einschränkungen von Bildschirmen zu überwinden und räumliche Details über das scheinbar physikalisch
Mögliche hinaus zu reproduzieren. Zuerst wird ein Verfahren zur Darstellung von Bilddetails die kleiner als Bildschirmpixel sind vorgestellt. Danach gehen wir auf die Darstellung von Details in 3D-Displays ein. Schließlich präsentieren wir „rückwärtskompatibles” Stereo, das gleichzeitig 3D-Darstellung beim Verwenden von Stereobrillen und klassische 2D-Darstellung ohne Stereobrille ermöglicht.
Summary
In this report, we focus on the exploitation of perceptual effects to help overcome the physical limitations of display devices in order to enhance apparent image qualities. First, we present apparent display resolution enhancement beyond the physical resolution of display pixels. Then, we discuss various aspects of stereo three-dimensional (S3D) displays that lead to a better control over reproduced depth. Finally, we present an image processing solution, which enables us to see S3D content using any type of stereo glasses and traditional 2D content in glasses-free viewing simultaneously.

Einleitung

Existierende Displaygeräte weisen eine Reihe von technischen Einschränkungen auf, die eine realistische Darstellung von Inhalten erschweren. Zum Beispiel stimmt die kontinuierliche Natur der räumlichen und zeitlichen Informationen nicht direkt mit den diskreten Begriffen „Pixel” und „Bildwiederholrate” überein. Das menschliche Sehsystem hat seine eigenen Grenzen, die die Anforderungen an Displaygeräte zum Teil verringern. Beispielsweise begrenzen die Dichte der Photorezeptoren in der Netzhaut und die Unvollkommenheiten der Augenoptik die räumliche Auflösung der Details, die wahrgenommen werden können. Die Flimmer-Grenzfrequenz (Critical Flicker Frequency – CFF) sorgt dafür, dass zeitliche Veränderung über 60 Hz nicht mehr zu unterscheiden sind. Alle diese Beschränkungen des HVS (Human Visual System) werden beim Konzipieren von Anzeigegeräten berücksichtigt. Sie zeigen aber immer noch deutliche Defizite bezüglich des reproduzierbaren Kontrasts, der Helligkeit und der räumlichen Auflösung und sind somit den Fähigkeiten des HVS unterlegen. Zusätzlich schaffen unglückliche Wechselwirkungen technischer und biologischer Aspekte neue Probleme, die unter realen Beobachtungsbedingungen nicht bekannt sind. Zum Beispiel ist der Tiefenbereich, der in 3D-Stereodisplays bequem betrachtet werden kann, durch den Konflikt zwischen der auf dem Bildschirm eingestellten Augenakkommodation und der von Tiefe getriebener Augapfelkonvergenz beschränkt: Auch wenn ein 3D-Display einen Gegenstand 20 cm vor dem Display erscheinen lässt, fokussiert die Linse immer noch die Tiefe des Displays selbst.

In der Arbeitsgruppe „Computergrafik” am Max-Planck-Institut für Informatik wird an der Bildwahrnehmung sowie an der Entwicklung von Abbildungsalgorithmen mit eingebetteten Computermodellen des menschlichen Sehsystems (HVS) geforscht. Auf diese Weise können Recheneffizienz und Bildqualität, wie sie ein menschlicher Beobachter wahrnimmt, erheblich verbessert werden. In aktuellen Forschungsarbeiten konzentrierten wir uns auf die Nutzung von Wahrnehmungseffekten, um die physikalischen Grenzen der Anzeigegeräte zu überwinden und die wahrgenommene Bildqualität zu verbessern. Dazu forschten wir im Bereich des „Tone Mappings” von High Dynamic Range (HDR)-Bildern, um wahrgenommenen Kontrast und Helligkeit zu verbessern [1]. Im vorliegenden Bericht konzentrieren wir uns auf zwei weitere wichtige Aspekte der Bildqualität: die Verbesserung auflösbarer Bilddetails jenseits der physischen Pixelauflösung und die Optimierung der wahrgenommenen Tiefe auf 3D-Stereodisplays. Diese Entwicklungen betrachten wir als einen Beitrag zu einem neu entstehenden Gebiet namens „Computational Display”.

Apparent Resolution Enhancement: Verbesserung wahrgenommener Auflösung

Zwischen der räumlichen Auflösung einer Kamera und der Anzahl von Pixeln, die tatsächlich auf einem Bildschirm gezeigt werden können, besteht ein erheblicher Unterschied: Ein Bild enthält wesentlich mehr Informationen. Des Weiteren wird unter den typischen Betrachtungsbedingungen jedes Pixel von einer Anzahl von Photorezeptoren im fovealen Bereich der Netzhaut abgebildet (mehr als zehn Photorezeptoren pro Pixel für ein High-Definition (HD)-Desktop-Bildschirm, aus einer Entfernung von 50 cm gesehen). Dies bedeutet, dass potenziell alle diese Photorezeptoren Bilddetails wahrnehmen, die aufgrund der begrenzten Pixelauflösung nicht gezeigt werden.

Wir nutzen zwei Eigenschaften des HVS, um die wahrnehmbare Auflösung zu verbessern: glatte Augenfolgebewegung (Smooth Pursuit Eye Motion – SPEM) und zeitliche Integration des Signals durch Photorezeptoren [2]. SPEM wird unwillentlich und mühelos vom HVS ausgelöst, um das sich bewegende Objekt im Fokus zu halten, das die visuelle Aufmerksamkeit im mittleren Bereich der Fovea an sich zieht (dort, wo die Auflösung der Photorezeptoren am höchsten ist). Bemerkenswerterweise macht es die hohe Präzision der SPEM möglich, fein strukturierte Details des sich bewegenden Objekts aufzulösen, die sonst als unscharf wahrgenommen werden würden. Signal-Integration ist ein wichtiger Faktor, um durch die Reduzierung des neuralen Rauschens und des Photonenrauschens im HVS die Photorezeptor-Antwort zu stabilisieren, welches auch die Grenzen der wahrnehmbaren Flimmer-Grenzfrequenz (CFF) aufweist. Es zeigt sich, dass die CFF für kleine Strukturen (wenige Pixel) auf dem Bildschirm nur 40 Hz beträgt. Dies bedeutet, ein Display mit einer Bildwiederholfrequenz von 120 Hz kann ohne Flackern drei verschiedene Einzelbilder anzeigen. Wir nutzen diese Beobachtung und zerlegen die hohe Auflösung des Input-Bildes in drei Einzelbilder, die optimiert und aufeinanderfolgend angezeigt werden und die bei bekannter SPEM, ein unterschiedliches integriertes Signal für jeden Photorezeptor ergeben. Wie in Abbildung 1 zu sehen ist, sind solche zerlegten Einzelbilder von hohem Kontrast und enthalten eine Vielzahl räumlicher Details. Indem wir von einem einfachen Modell des Photorezeptor-Layouts ausgehen, stellen wir sicher, dass jeder Photorezeptor ein Signal integriert, das einem gegebenen Pixel im hochauflösenden Eingangsbild entspricht. Es ist zu beachten, dass dies nur bei sich bewegenden Mustern auf dem Bild möglich ist, die durch SPEM verfolgt werden. Für ein statisches Bild werden alle Photorezeptoren auf die gleichen Displaypixel projiziert und integrieren genau das gleiche Signal, was keine scheinbare Auflösungsverbesserung bewirkt. Dies ist jedoch kein Problem für Videos mit bewegten Objekten oder scrollendem Text (z. B. Börsenticker), bei denen die natürliche Bewegung innerhalb der Szene genutzt wird.

Durch die Entwicklung von Displays mit einer noch höheren Bildwiederholfrequenz als 120 Hz, z. B. mit OLED-Technologie, können mehr als drei Einzelbilder zeitlich integriert werden, was die Menge der erkennbaren Details noch weiter erhöht.

Ein Modell menschlicher Stereowahrnehmung

Die Darstellung von Bildern in 3D hat in jüngster Zeit erneut viel Beachtung gefunden. Obwohl 3D-Filme, 3D-Spiele oder die ersten 3D-TV-Kanäle für eine Vielzahl von Kunden verfügbar sind, bleiben noch viele Herausforderungen, wenn optisch überzeugende Stereoinhalte produziert werden sollen. Binokulare Disparität, einer der stärksten Tiefenreize, kann flache Bilder auf einem Bildschirm in deutlich realistischere dreidimensionale Szenen verwandeln. Daher ist es wichtig zu verstehen, wie das HVS physikalische Disparitätswerte auf Sinneseindrücke abbildet.

Wir haben auf der Grundlage einer Reihe von psycho-physischen Messungen ein Wahrnehmungsmodell für binokulare Disparität entwickelt. Wir untersuchten die Empfindlichkeit des Sehsystems, um Tiefendifferenzen für eine Vielzahl von Abstufungen und räumlichen Veränderungen zu unterscheiden [3]. Das daraus resultierende Modell verwandelt physische Einheiten in Einheiten menschlicher Wahrnehmung, sogenannte „kleinste unterscheidbare Einheiten” (Just-Noticable Differences − JNDs). Die JND-skalierten Unterschiede entsprechen den tatsächlich gesehenen Tiefenunterschieden. Unterschiede unter 1 JND können nicht wahrgenommen werden. Unser Modell ist invertierbar und kann verwendet werden, um physikalische und psychologische Einheiten in beide Richtungen umzurechnen. Praktischerweise erlaubt uns dies, alle Manipulationen von Stereobildern in einem wahrnehmungslinearisierten Raum durchzuführen und dann die entsprechenden physischen Werte abzuleiten.

Eine wichtige Anwendung unseres Modelles ist ein sinnvoller Vergleich von Stereobildern bezüglich der wahrgenommenen Tiefe (Abb. 2). Mit einer originalen und einer bearbeiteten Disparitätskarte, berechnet das Modell eine Karte der pro Pixel wahrgenommenen Stereounterschiede in JND (skaliert). Der Umfang binokularer Disparität muss dabei begrenzt werden, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. Dazu kann unsere Metrik die Anpassung der Stereobilder steuern, sodass wahrgenommene Tiefen-Verzerrungen lokal minimiert werden. Eine weitere mögliche Anwendung unseres Modells ist die verlustbehaftete Kompression zur schnellen Übertragung und Speicherung. Hierzu werden die Anteile des Stereobildes, die unter 1 JND fallen, ohne wahrnehmbaren Verlust entfernt und die Datenrate dadurch verringert.

Wir erhalten verschiedene Instanzen unseres Modells, indem wir die Empfindlichkeitsmessungen für verschiedene S3D-Technologien wie Shutter-, Polarisations-und Anaglyphen-Brillen, aber auch für brillenfreie autostereoskopische Displays, durchführen. Auf diese Weise kann man Inhalte gezielt auf jede dieser Anzeigetechnologien zuschneiden. Da sich Stereosehen von Person zu Person stark unterscheiden kann, kann unser Modell zusätzlich personalisiert werden, um Inhalte auf das Stereosehen bestimmter Personen abzustimmen.

Wir haben unser Modell so erweitert, dass es auch RGB-Bildinhalte einbezieht, was eine noch stärkere Bearbeitung in Bildbereichen mit geringerem Kontrast ermöglicht [4]. Dies ist in Bildern mit Tiefenschärfeeffekten (Kamerafokus), Bewegungsunschärfe oder Szenendarstellungen bei Nacht (in der die Tiefenwahrnehmung schwächer ist) durchaus üblich.

Rückwärtskompatibles 3D-Stereo

Da ein 3D-Eindruck ggf. von manchen Betrachtern nicht gewünscht ist, ergibt sich ein praktisches Problem: Wie können Inhalte in traditionellem 2D und gleichzeitig in 3D auf dem gleichen Gerät dargestellt werden? Wir haben ein „rückwärtskompatibles” 3D-Bearbeitungsverfahren entwickelt. Dazu wird binokulares Stereo so minimiert, dass die ohne 3D-Brille gesehenen Inhalte keine erheblichen Bildstörungen aufweisen, aber ein 3D-Eindruck mit 3D-Brille wahrgenommen wird [3]. Unsere Technik stützt sich ausschließlich auf die Bildverarbeitung und funktioniert für alle vorhandenen 3D-Brillen-Technologien.

Die rückwärtskompatible S3D-Technik nutzt die Stereovariante der Cornsweet-Illusion, die sonst nur für Darstellung von Helligkeiten bekannt ist (Abb. 3). Wir fügen Cornsweet-Profile an Tiefendiskontinuitäten ein (an den Silhouetten der Objekte in verschiedenen Tiefen), was im Wesentlichen eine winzige Verschiebung zwischen den Bildern des linken und des rechten Auges, die aber dann allmählich in den Normalzustand, wie bei den traditionellen 2D-Bildern, ausläuft. Effektiv bedeutet dies, mit Ausnahme der Tiefendiskontinuität verschwindet die Disparität im gesamten Bild. Durch neuronale Füllmechanismen (Fill-in) nimmt das HVS an, dass die in der Tiefendiskontinuität eingeführte Disparität sich in beiden Richtungen in Bezug auf die Diskontinuität vermehrt und interpretiert sie als Tiefendifferenz zwischen den durch diese Tiefendiskontinuität getrennten Objekten.

Durch die konsequente Anwendung des Cornsweet-Profilen an benachbarten Tiefendiskontinuitäten, kann man diese „kaskadieren”, sodass sich die wahrnehmbaren Tiefenunterschiede aufaddieren, was zu einem noch stärkeren Tiefeneindruck führt. Bei der Standard-3D-Methode müssen alle solchen Disparitäten akkumuliert werden. Dies erhöht die Verschiebungen zwischen den Bildern des linken und des rechten Auges, was für einen Betrachter ohne 3D-Brille störend wird (Abb. 4). Obwohl unsere Technik den Gesamttiefeneindruck auch reduziert, ist der erhaltene 3D-Effekt stark und gleichmäßig für den Betrachter mit Brille, während gleichzeitig Bildstörungen für den Betrachter ohne Brille minimiert werden (Abb. 4) .

Wir experimentierten mit der Cornsweet-Illusion als Mittel zur Verbesserung des lokalen Tiefeneindrucks im Rahmen der regulären 3D-Darstellung. Wie wir besprochen haben, ist deren Reichweite typischerweise stark komprimiert, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. Wir waren in der Lage den verlorenen Tiefeneindruck teilweise wiederherzustellen, indem Cornsweet-Profile zu bestehenden (komprimierten) Disparitäten hinzugefügt werden [5].

Hinweis: Für Betrachtung der Abbildungen 2-4 empfehlen wir eine Anaglyphen-Brille für den besten Effekt (bitte die Zoom-Version der Bilder verwenden).

Literaturhinweise

Reinhard, E.; Ward, G.; Debevec, P.; Pattanaik, S.; Heidrich, W.; Myszkowski, K.
High Dynamic Range Imaging
Morgan Kaufmann Publishers, 2nd Edition, San Francisco, 2010
Didyk, P.; Eisemann, E.; Ritschel, T.; Myszkowski, K.; Seidel, H.-P.
Apparent Display Resolution Enhancement for Moving Images
ACM Transactions on Graphics 29(4), 113 (2010); Proceedings of ACM SIGGRAPH 2010
Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Perceptual Model for Disparity
ACM Transactions on Graphics 30(4), 42 (2011); Proceedings of ACM SIGGRAPH 2011
Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Luminance-Contrast-Aware Disparity Model and Applications
ACM Transactions on Graphics 31(6), 184 (2012); Proceedings of ACM SIGGRAPH Asia 2012

Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
Apparent Stereo: The Cornsweet Illusion Can Enhance Perceived Depth
Human Vision and Electronic Imaging XVII, IS&TSPIE’s Symposium on Electronic Imaging, pages 1–12, Burlingame, CA (2012)
Zur Redakteursansicht