Forschungsbericht 2014 - Max-Planck-Institut für Informatik

Computergestützte Displays: Mehr wahrgenommene 2D- und 3D-Details als die Physik erlaubt

Autoren
Myszkowski, Karol; Ritschel, Tobias
Abteilungen
Computergrafik
Zusammenfassung
Wir beschreiben wie Effekte der menschlichen Wahrnehmung genutzt werden können um die physikalischen Einschränkungen von Bildschirmen zu überwinden und räumliche Details über das scheinbar physikalisch
Mögliche hinaus zu reproduzieren. Zuerst wird ein Verfahren zur Darstellung von Bilddetails die kleiner als Bildschirmpixel sind vorgestellt. Danach gehen wir auf die Darstellung von Details in 3D-Displays ein. Schließlich präsentieren wir „rückwärtskompatibles” Stereo, das gleichzeitig 3D-Darstellung beim Verwenden von Stereobrillen und klassische 2D-Darstellung ohne Stereobrille ermöglicht.

Einleitung

Existierende Displaygeräte weisen eine Reihe von technischen Einschränkungen auf, die eine realistische Darstellung von Inhalten erschweren. Zum Beispiel stimmt die kontinuierliche Natur der räumlichen und zeitlichen Informationen nicht direkt mit den diskreten Begriffen „Pixel” und „Bildwiederholrate” überein. Das menschliche Sehsystem hat seine eigenen Grenzen, die die Anforderungen an Displaygeräte zum Teil verringern. Beispielsweise begrenzen die Dichte der Photorezeptoren in der Netzhaut und die Unvollkommenheiten der Augenoptik die räumliche Auflösung der Details, die wahrgenommen werden können. Die Flimmer-Grenzfrequenz (Critical Flicker Frequency – CFF) sorgt dafür, dass zeitliche Veränderung über 60 Hz nicht mehr zu unterscheiden sind. Alle diese Beschränkungen des HVS (Human Visual System) werden beim Konzipieren von Anzeigegeräten berücksichtigt. Sie zeigen aber immer noch deutliche Defizite bezüglich des reproduzierbaren Kontrasts, der Helligkeit und der räumlichen Auflösung und sind somit den Fähigkeiten des HVS unterlegen. Zusätzlich schaffen unglückliche Wechselwirkungen technischer und biologischer Aspekte neue Probleme, die unter realen Beobachtungsbedingungen nicht bekannt sind. Zum Beispiel ist der Tiefenbereich, der in 3D-Stereodisplays bequem betrachtet werden kann, durch den Konflikt zwischen der auf dem Bildschirm eingestellten Augenakkommodation und der von Tiefe getriebener Augapfelkonvergenz beschränkt: Auch wenn ein 3D-Display einen Gegenstand 20 cm vor dem Display erscheinen lässt, fokussiert die Linse immer noch die Tiefe des Displays selbst.

In der Arbeitsgruppe „Computergrafik” am Max-Planck-Institut für Informatik wird an der Bildwahrnehmung sowie an der Entwicklung von Abbildungsalgorithmen mit eingebetteten Computermodellen des menschlichen Sehsystems (HVS) geforscht. Auf diese Weise können Recheneffizienz und Bildqualität, wie sie ein menschlicher Beobachter wahrnimmt, erheblich verbessert werden. In aktuellen Forschungsarbeiten konzentrierten wir uns auf die Nutzung von Wahrnehmungseffekten, um die physikalischen Grenzen der Anzeigegeräte zu überwinden und die wahrgenommene Bildqualität zu verbessern. Dazu forschten wir im Bereich des „Tone Mappings” von High Dynamic Range (HDR)-Bildern, um wahrgenommenen Kontrast und Helligkeit zu verbessern [1]. Im vorliegenden Bericht konzentrieren wir uns auf zwei weitere wichtige Aspekte der Bildqualität: die Verbesserung auflösbarer Bilddetails jenseits der physischen Pixelauflösung und die Optimierung der wahrgenommenen Tiefe auf 3D-Stereodisplays. Diese Entwicklungen betrachten wir als einen Beitrag zu einem neu entstehenden Gebiet namens „Computational Display”.

Apparent Resolution Enhancement: Verbesserung wahrgenommener Auflösung

Zwischen der räumlichen Auflösung einer Kamera und der Anzahl von Pixeln, die tatsächlich auf einem Bildschirm gezeigt werden können, besteht ein erheblicher Unterschied: Ein Bild enthält wesentlich mehr Informationen. Des Weiteren wird unter den typischen Betrachtungsbedingungen jedes Pixel von einer Anzahl von Photorezeptoren im fovealen Bereich der Netzhaut abgebildet (mehr als zehn Photorezeptoren pro Pixel für ein High-Definition (HD)-Desktop-Bildschirm, aus einer Entfernung von 50 cm gesehen). Dies bedeutet, dass potenziell alle diese Photorezeptoren Bilddetails wahrnehmen, die aufgrund der begrenzten Pixelauflösung nicht gezeigt werden.

original
Abb.1: Die Abbildung zeigt drei Beispiele mit Auflösungsverbesserung. Die ersten drei Spalten zeigen im Optimierungsprozess erhaltene Teilbilder. Die vierte Spalte (integriert) zeigt die Simulation der Bilder wie sie auf der Netzhaut entstehen sobald die drei Teilbilder auf einem Display mit hoher Bildwiederholrate angezeigt werden. Die beiden letzten Spalten vergleichen unsere mit einer herkömmlichen Methode (Lanczos) sowie dem original-hochaufgelösten Bild. Es ist zu beachten, dass, obwohl die Auflösung drei Mal reduziert wurde, unser Verfahren in der Lage ist, feinere Details wiederzugeben.

Wir nutzen zwei Eigenschaften des HVS, um die wahrnehmbare Auflösung zu verbessern: glatte Augenfolgebewegung (Smooth Pursuit Eye Motion – SPEM) und zeitliche Integration des Signals durch Photorezeptoren [2]. SPEM wird unwillentlich und mühelos vom HVS ausgelöst, um das sich bewegende Objekt im Fokus zu halten, das die visuelle Aufmerksamkeit im mittleren Bereich der Fovea an sich zieht (dort, wo die Auflösung der Photorezeptoren am höchsten ist). Bemerkenswerterweise macht es die hohe Präzision der SPEM möglich, fein strukturierte Details des sich bewegenden Objekts aufzulösen, die sonst als unscharf wahrgenommen werden würden. Signal-Integration ist ein wichtiger Faktor, um durch die Reduzierung des neuralen Rauschens und des Photonenrauschens im HVS die Photorezeptor-Antwort zu stabilisieren, welches auch die Grenzen der wahrnehmbaren Flimmer-Grenzfrequenz (CFF) aufweist. Es zeigt sich, dass die CFF für kleine Strukturen (wenige Pixel) auf dem Bildschirm nur 40 Hz beträgt. Dies bedeutet, ein Display mit einer Bildwiederholfrequenz von 120 Hz kann ohne Flackern drei verschiedene Einzelbilder anzeigen. Wir nutzen diese Beobachtung und zerlegen die hohe Auflösung des Input-Bildes in drei Einzelbilder, die optimiert und aufeinanderfolgend angezeigt werden und die bei bekannter SPEM, ein unterschiedliches integriertes Signal für jeden Photorezeptor ergeben. Wie in Abbildung 1 zu sehen ist, sind solche zerlegten Einzelbilder von hohem Kontrast und enthalten eine Vielzahl räumlicher Details. Indem wir von einem einfachen Modell des Photorezeptor-Layouts ausgehen, stellen wir sicher, dass jeder Photorezeptor ein Signal integriert, das einem gegebenen Pixel im hochauflösenden Eingangsbild entspricht. Es ist zu beachten, dass dies nur bei sich bewegenden Mustern auf dem Bild möglich ist, die durch SPEM verfolgt werden. Für ein statisches Bild werden alle Photorezeptoren auf die gleichen Displaypixel projiziert und integrieren genau das gleiche Signal, was keine scheinbare Auflösungsverbesserung bewirkt. Dies ist jedoch kein Problem für Videos mit bewegten Objekten oder scrollendem Text (z. B. Börsenticker), bei denen die natürliche Bewegung innerhalb der Szene genutzt wird.

Durch die Entwicklung von Displays mit einer noch höheren Bildwiederholfrequenz als 120 Hz, z. B. mit OLED-Technologie, können mehr als drei Einzelbilder zeitlich integriert werden, was die Menge der erkennbaren Details noch weiter erhöht.

Ein Modell menschlicher Stereowahrnehmung

Die Darstellung von Bildern in 3D hat in jüngster Zeit erneut viel Beachtung gefunden. Obwohl 3D-Filme, 3D-Spiele oder die ersten 3D-TV-Kanäle für eine Vielzahl von Kunden verfügbar sind, bleiben noch viele Herausforderungen, wenn optisch überzeugende Stereoinhalte produziert werden sollen. Binokulare Disparität, einer der stärksten Tiefenreize, kann flache Bilder auf einem Bildschirm in deutlich realistischere dreidimensionale Szenen verwandeln. Daher ist es wichtig zu verstehen, wie das HVS physikalische Disparitätswerte auf Sinneseindrücke abbildet.

Wir haben auf der Grundlage einer Reihe von psycho-physischen Messungen ein Wahrnehmungsmodell für binokulare Disparität entwickelt. Wir untersuchten die Empfindlichkeit des Sehsystems, um Tiefendifferenzen für eine Vielzahl von Abstufungen und räumlichen Veränderungen zu unterscheiden [3]. Das daraus resultierende Modell verwandelt physische Einheiten in Einheiten menschlicher Wahrnehmung, sogenannte „kleinste unterscheidbare Einheiten” (Just-Noticable Differences − JNDs). Die JND-skalierten Unterschiede entsprechen den tatsächlich gesehenen Tiefenunterschieden. Unterschiede unter 1 JND können nicht wahrgenommen werden. Unser Modell ist invertierbar und kann verwendet werden, um physikalische und psychologische Einheiten in beide Richtungen umzurechnen. Praktischerweise erlaubt uns dies, alle Manipulationen von Stereobildern in einem wahrnehmungslinearisierten Raum durchzuführen und dann die entsprechenden physischen Werte abzuleiten.

original
Abb. 2: Eine aus unserem Modell abgeleitete Metrik, die die wahrgenommene Differenz (rechts) zwischen Original und veränderter binokularer Disparität (Mitte) vorhersagt.

Eine wichtige Anwendung unseres Modelles ist ein sinnvoller Vergleich von Stereobildern bezüglich der wahrgenommenen Tiefe (Abb. 2). Mit einer originalen und einer bearbeiteten Disparitätskarte, berechnet das Modell eine Karte der pro Pixel wahrgenommenen Stereounterschiede in JND (skaliert). Der Umfang binokularer Disparität muss dabei begrenzt werden, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. Dazu kann unsere Metrik die Anpassung der Stereobilder steuern, sodass wahrgenommene Tiefen-Verzerrungen lokal minimiert werden. Eine weitere mögliche Anwendung unseres Modells ist die verlustbehaftete Kompression zur schnellen Übertragung und Speicherung. Hierzu werden die Anteile des Stereobildes, die unter 1 JND fallen, ohne wahrnehmbaren Verlust entfernt und die Datenrate dadurch verringert.

Wir erhalten verschiedene Instanzen unseres Modells, indem wir die Empfindlichkeitsmessungen für verschiedene S3D-Technologien wie Shutter-, Polarisations-und Anaglyphen-Brillen, aber auch für brillenfreie autostereoskopische Displays, durchführen. Auf diese Weise kann man Inhalte gezielt auf jede dieser Anzeigetechnologien zuschneiden. Da sich Stereosehen von Person zu Person stark unterscheiden kann, kann unser Modell zusätzlich personalisiert werden, um Inhalte auf das Stereosehen bestimmter Personen abzustimmen.

Wir haben unser Modell so erweitert, dass es auch RGB-Bildinhalte einbezieht, was eine noch stärkere Bearbeitung in Bildbereichen mit geringerem Kontrast ermöglicht [4]. Dies ist in Bildern mit Tiefenschärfeeffekten (Kamerafokus), Bewegungsunschärfe oder Szenendarstellungen bei Nacht (in der die Tiefenwahrnehmung schwächer ist) durchaus üblich.

Rückwärtskompatibles 3D-Stereo

Da ein 3D-Eindruck ggf. von manchen Betrachtern nicht gewünscht ist, ergibt sich ein praktisches Problem: Wie können Inhalte in traditionellem 2D und gleichzeitig in 3D auf dem gleichen Gerät dargestellt werden? Wir haben ein „rückwärtskompatibles” 3D-Bearbeitungsverfahren entwickelt. Dazu wird binokulares Stereo so minimiert, dass die ohne 3D-Brille gesehenen Inhalte keine erheblichen Bildstörungen aufweisen, aber ein 3D-Eindruck mit 3D-Brille wahrgenommen wird [3]. Unsere Technik stützt sich ausschließlich auf die Bildverarbeitung und funktioniert für alle vorhandenen 3D-Brillen-Technologien.

original

Abb. 3: Die Cornsweet-Illusion, farbanaglyphisch dargestellt. Oben (Anaglyphstereo): Ein Kreis mit Tiefe durch echte physikalische Disparität und scheinbarer Tiefe aufgrund der Stereovariante der Cornsweet-Illusion. Unten: Die entsprechenden Tiefenprofile und deren wahrgenommene Formen. Der dreidimensionale Bereich zeigt die Gesamtdisparität, die mit Cornsweet Profilen deutlich kleiner ist.

Die rückwärtskompatible S3D-Technik nutzt die Stereovariante der Cornsweet-Illusion, die sonst nur für Darstellung von Helligkeiten bekannt ist (Abb. 3). Wir fügen Cornsweet-Profile an Tiefendiskontinuitäten ein (an den Silhouetten der Objekte in verschiedenen Tiefen), was im Wesentlichen eine winzige Verschiebung zwischen den Bildern des linken und des rechten Auges, die aber dann allmählich in den Normalzustand, wie bei den traditionellen 2D-Bildern, ausläuft. Effektiv bedeutet dies, mit Ausnahme der Tiefendiskontinuität verschwindet die Disparität im gesamten Bild. Durch neuronale Füllmechanismen (Fill-in) nimmt das HVS an, dass die in der Tiefendiskontinuität eingeführte Disparität sich in beiden Richtungen in Bezug auf die Diskontinuität vermehrt und interpretiert sie als Tiefendifferenz zwischen den durch diese Tiefendiskontinuität getrennten Objekten.

original
Abb. 4: Rückwärtskompatibles Anaglyphstereo (oben) bietet gute Tiefenwiedergabequalität. Das Bild sieht dem Standardstereobild ähnlich. Die geringe Menge an Disparität führt zu einer relativ hohen Bildqualität auch ohne die Verwendung einer Stereobrille. Um mit der traditionellen Methode eine äquivalente Tiefenwiedergabequalität zu erreichen, ist deutlich mehr Disparität notwendig (unten). In diesem Fall verschlechtert sich das anaglyphe Stereobild ohne 3D-Brille signifikant.

Durch die konsequente Anwendung des Cornsweet-Profilen an benachbarten Tiefendiskontinuitäten, kann man diese „kaskadieren”, sodass sich die wahrnehmbaren Tiefenunterschiede aufaddieren, was zu einem noch stärkeren Tiefeneindruck führt. Bei der Standard-3D-Methode müssen alle solchen Disparitäten akkumuliert werden. Dies erhöht die Verschiebungen zwischen den Bildern des linken und des rechten Auges, was für einen Betrachter ohne 3D-Brille störend wird (Abb. 4). Obwohl unsere Technik den Gesamttiefeneindruck auch reduziert, ist der erhaltene 3D-Effekt stark und gleichmäßig für den Betrachter mit Brille, während gleichzeitig Bildstörungen für den Betrachter ohne Brille minimiert werden (Abb. 4) .

Wir experimentierten mit der Cornsweet-Illusion als Mittel zur Verbesserung des lokalen Tiefeneindrucks im Rahmen der regulären 3D-Darstellung. Wie wir besprochen haben, ist deren Reichweite typischerweise stark komprimiert, um den Akkommodation-Konvergenz-Konflikt zu vermeiden. Wir waren in der Lage den verlorenen Tiefeneindruck teilweise wiederherzustellen, indem Cornsweet-Profile zu bestehenden (komprimierten) Disparitäten hinzugefügt werden [5].

Hinweis: Für Betrachtung der Abbildungen 2-4 empfehlen wir eine Anaglyphen-Brille für den besten Effekt (bitte die Zoom-Version der Bilder verwenden).

Literaturhinweise

1.
Reinhard, E.; Ward, G.; Debevec, P.; Pattanaik, S.; Heidrich, W.; Myszkowski, K.
High Dynamic Range Imaging
Morgan Kaufmann Publishers, 2nd Edition, San Francisco, 2010
2.
Didyk, P.; Eisemann, E.; Ritschel, T.; Myszkowski, K.; Seidel, H.-P.
Apparent Display Resolution Enhancement for Moving Images
ACM Transactions on Graphics 29(4), 113 (2010); Proceedings of ACM SIGGRAPH 2010
3.
Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Perceptual Model for Disparity
ACM Transactions on Graphics 30(4), 42 (2011); Proceedings of ACM SIGGRAPH 2011
4.
Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
A Luminance-Contrast-Aware Disparity Model and Applications
ACM Transactions on Graphics 31(6), 184 (2012); Proceedings of ACM SIGGRAPH Asia 2012

5.
Didyk, P.; Ritschel, T.; Eisemann, E.; Myszkowski, K.; Seidel, H.-P.
Apparent Stereo: The Cornsweet Illusion Can Enhance Perceived Depth
Human Vision and Electronic Imaging XVII, IS&TSPIE’s Symposium on Electronic Imaging, pages 1–12, Burlingame, CA (2012)
Zur Redakteursansicht