Lehrstuhl für
Multimediakommunikation und Signalverarbeitung
Prof. Dr.-Ing. André Kaup

Codierung von dynamischen Lichtfeldern

Arbeitsgebiet: Videosignalverarbeitung und -übertragung
Schwerpunkt: Videocodierung und Videokommunikation
Mitarbeiter: Dr.-Ing. Ulrich Fecker

Codierung von dynamischen Lichtfeldern

Dreidimensionale Objekte mit komplexen Reflexionscharakteristika (z. B. Fell, Stoff oder Bäume) lassen sich mit Hilfe von klassischen geometrischen Modellen nur unzureichend darstellen. Bei einem Lichtfeld hingegen werden zahlreiche Bilder der gleichen Szene mit einem Kamerasystem aus unterschiedlichen Richtungen aufgenommen, ohne dass die Geometrie der Szene bekannt sein muss. Aus der resultierenden Datenstruktur können dann beliebige Zwischenansichten des Objekts gewonnen werden.

Während sich bei einem statischen Lichtfeld das aufgenommene Objekt zeitlich nicht verändert, können mit einem dynamischen Lichtfeld bewegte Objekte aufgenommen werden. So lassen sich veränderliche 3-D-Objekte (z. B. ein schlagendes Herz) räumlich betrachten.

Eine entscheidende Schwierigkeit stellen dabei die enormen Datenmengen in der Größenordnung von mehreren Gigabyte dar, die bei der Aufnahme von Lichtfeldern anfallen. Daher ist eine effiziente Quellencodierung der Lichtfelddaten erforderlich. Ausgehend von den Prinzipien der klassischen Videocodierung sind bereits Konzepte zur Codierung von statischen Lichtfeldern entwickelt worden. Darauf aufbauend sollen im Rahmen dieses Projekts nun Codierverfahren für dynamische Lichtfelder entwickelt werden.

Die Arbeiten werden von der Deutschen Forschungsgemeinschaft (DFG) als Teilprojekt C8 des Sonderforschungsbereiches 603 "Modellbasierte Analyse und Visualisierung komplexer Szenen und Sensordaten" gefördert.

Bisherige Ergebnisse

Zwei Beispiele für Bilder aus Lichtfelddatensätzen sind im Folgenden dargestellt:

Xmas Flamenco
Erstes Bild der ersten Kameraansicht der "Xmas"-Sequenz Erstes Bild der ersten Kameraansicht der "Flamenco1"-Sequenz


Als einfaches Codierverfahren wurde zunächst eine sogenannte Simulcast-Codierung von Lichtfeldbildern durchgeführt. Dabei werden die einzelnen Videoströme der verschiedenen Kamerapositionen jeweils separat unter Verwendung des H.264/AVC-Standards komprimiert. So konnten Rate-Distortion-Kurven gewonnen werden, die für weitere Untersuchungen als Referenz dienen.

Simulcast
Simulcast-Codierung


Als ersten Ansatz zur Ausnutzung sowohl zeitlicher als auch örtlicher Korrekationen zwischen den einzelnen Blöcken des Lichtfelds wurde ein Umsortierschema entwickelt. Dabei werden die Bilder aller Videoströme der verschiedenen Kameraansichten neu sortiert und in eine einzelne Videosequenz geschrieben. Diese wird dann mit H.264/AVC komprimiert. Der Coder wird hierfür so konfiguriert, dass als Referenz für die Prädiktion u. a. sowohl ein räumlich benachbartes Bild als auch das Bild der gleichen Kamera zum vorausgehenden Zeitpunkt vorhanden sind. Es konnte gezeigt werden, dass auf diese Weise ein Codiergewinn gegenüber der Simulcast-Codierung möglich ist. Ferner konnte veranschaulicht werden, in welchem Maße die zu erwartende Codiereffizienz von der Bildwiederholrate und dem Kameraabstand der Lichtfeldsequenz abhängt.

Resorted Resorted Detail
Umsortierschema Einbezogene Referenzen beim Umsortierschema

 

Codiereffizienz
Codiereffizienz des Umsortierschemas, abhängig vom Kameraabstand (Beispiel "Xmas"-Sequenz)


In einem verallgemeinerten Ansatz wurde die Statistik der möglichen Prädiktionshypothesen ausgewertet. Für jeden Block eines zu codierenden Lichtfeldbildes wird dabei unter allen vorhandenen Referenzen diejenige ausgewählt, die nach einer Bewegungs- bzw. Disparitätskompensation den geringsten Restfehler aufweist. Wird dieses Verfahren auf verschiedene Testdatensätze angewandt, wird deutlich, dass in den meisten Fällen die Mehrheit der Bildblöcke am besten von einer der zeitlichen Referenzen her prädiziert wird. Jedoch existiert ein signifikanter Prozentsatz, für den die örtliche Prädiktion besser als die zeitliche Prädiktion abschneidet. Für diese Blöcke kann also der Prädiktionsfehler verringert werden, was zu der Annahme führt, dass mit einem optimierten zeitlich-örtlichen Ansatz ein Codiergewinn gegenüber der Simulcast-Codierung möglich ist. Anhand der detaillierten Statistik der möglichen Referenzen konnte eine Aussage darüber getroffen werden, welche Referenzen in einem praktischen Lichtfeldcoder am sinnvollsten herangezogen werden und welche aus Aufwandsgründen vernachlässigt werden sollten. Dabei wurden auch sogenannte "Mixed Modes" berücksichtigt, also Referenzen, die zu einem vergangenen Zeitschritt von einer der benachbarten Kameras aufgezeichnet wurden.

Mögliche Referenzen Prädikationswahrscheinlichkeiten
Mögliche Referenzen für die Prädiktion (T: zeitlich, S: örtlich, M: "mixed"). "P" kennzeichnet das zu codierende Bild Prädiktionswahrscheinlichkeiten (Beispiel "Flamenco1"-Sequenz)


Bei der Aufnahme von Sequenzen mit mehreren Bildsensoren treten häufig Schwankungen in Helligkeit und Chrominanz zwischen den verschiedenen Kameraansichten auf. Diese können das Codierergebnis und auch die weitere Verarbeitung, wie z. B. das Rendering, beeinträchtigen. Es ist daher wünschenswert, solche störenden Schwankungen in einem Vorverarbeitungsschritt vor der Codierung auszugleichen. Hierzu wurde vorgeschlagen, die kumulierten Histogramme der Bilder aufeinander abzugleichen. Für die so modifizierten Datensätze wurde zur Evaluierung erneut die Statistik der Prädiktionshypothesen ausgewertet, und es konnte eine Zunahme an örtlichen Referenzen und somit eine Verbesserung der örtlichen Prädiktionseffizienz verzeichnet werden.

Histogramm
Histogrammabgleich eines gestörten Bildes auf ein Referenzbild.
Dargestellt sind die Histogramme beider Eingangsbilder sowie das Histogramm des korrigierten Bildes.

In einem Lichtfeld-Renderingsystem werden zur Erzeugung neuer Ansichten häfig nicht nur die Kamerabilder selbst, sondern auch aus diesen gewonnene Tiefenkarten als Zusatzinformation verwendet. In enger Zusammenarbeit mit dem Teilprojekt C2 des Sonderforschungsbereiches 603 wurde daher analysiert, wie solche Tiefenkarten zusätzlich zu den Lichtfelddaten selbst codiert werden können. Dies wurde sowohl für den Fall dynamischer Lichtfelder untersucht, die mit einem Mehrkamerasystem aufgenommen wurden, als auch für Sequenzen, die mit Hilfe einer Freihandkamera gewonnen wurden. Insbesondere wurde bewertet, wie sich Kompressionsartefakte in den Tiefenkarten auf die visuelle Qualität der gerenderten Bilder auswirken. Es konnte gezeigt werden, dass auf Basis des Videocodierstandards H.264/AVC Kompressionsraten erreicht werden können, die diejenigen für die Lichtfeldbilder selbst noch deutlich übertreffen. Die Codiereffizienz hängt dabei auch von der Genauigkeit und damit der Komplexität der verwendeten Tiefenkarten ab. Ferner konnte nachgewiesen werden, dass auch stärkere Störungen in den Tiefenkarten das Renderingergebnis kaum beeinträchtigen.

Zwerg
Aufgenommenes Bild
(erstes Bild der Freihandkamerasequenz "Santa")

 

Tiefenkarte Tiefenkarte 2
Zugehörige Tiefenkarte Decodierte Tiefenkarte mit starken
Kompressionsartefakten

Veröffentlichungen

2009-13
CRIS
U. Fecker
   [bib]

Coding Techniques for Multi-View Video Signals, Dissertation
Erlanger Berichte aus Informations- und Kommunikationstechnik, Vol. 22, Shaker Verlag, Aachen, Germany, Mär. 2009
2008-22
CRIS
U. Fecker, J. Seiler, A. Kaup
   [doi]   [bib]

4-D Frequency Selective Extrapolation for Error Concealment in Multi-View Video
IEEE, 10th International Workshop on Multimedia Signal Processing (MMSP 2008), Seiten: 267-272, Cairns, Australia, Okt. 2008
2008-4
CRIS
U. Fecker, M. Barkowsky, A. Kaup
   [bib]

Histogram-Based Prefiltering for Luminance and Chrominance Compensation of Multiview Video
IEEE Transactions on Circuits and Systems for Video Technology (IEEE TCSVT) Vol. 18, Num. 9, Seiten: 1258-1267, Sep. 2008
2007-36
CRIS
U. Fecker, M. Barkowsky, A. Kaup
   [bib]

Time-Constant Histogram Matching for Luminance and Chrominance Compensation of Multi-View Video Sequences
Picture Coding Symposium (PCS), Lisbon, Portugal, Nov. 2007
2007-24
CRIS
U. Fecker, A. Kaup
   [bib]

Complexity Evaluation of Random Access to Coded Multi-View Video Data
Invited paper, Proc.15th European Signal Processing Conference (EUSIPCO 2007), Seiten: 1-4, Poznan, Poland, Sep. 2007
2006-44
CRIS
A. Kaup, U. Fecker
   [bib]

Analysis of Multi-Reference Block Matching for Multi-View Video Coding
7th Workshop Digital Broadcasting, Seiten: 33-39, Erlangen, Germany, Sep. 2006
2006-17
CRIS
U. Fecker, M. Barkowsky, A. Kaup
   [bib]

Improving the Prediction Efficiency for Multi-View Video Coding Using Histogram Matching
Picture Coding Symposium (PCS 2006), Beijing, China, Apr. 2006
2006-17
CRIS
U. Fecker, M. Barkowsky, A. Kaup
   [bib]

Improving the Prediction Efficiency for Multi-View Video Coding Using Histogram Matching
Picture Coding Symposium (PCS 2006), Beijing, China, Apr. 2006
2006-4
CRIS
U. Fecker, A. Guenegues, I. Scholz, A. Kaup
   [bib]

Depth Map Compression for Unstructured Lumigraph Rendering
Visual Communications and Image Processing (VCIP 2006), San Jose, CA, USA, Jan. 2006
2005-48
CRIS
U. Fecker, A. Kaup
   [bib]

Statistical Analysis of Multi-Reference Block Matching for Dynamic Light Field Coding
10th International Fall Workshop - Vision, Modeling, and Visualization (VMV), Seiten: 445-452, Erlangen, Germany, Nov. 2005
2005-40 U. Fecker, M. Barkowsky, A. Kaup
   [bib]

Luminance and Chrominance Compensation for Multi-View Sequences Using Histogram Matching
ISO/IEC JTC1/SC29/WG11, Document MPEG2005/M12487, Nice, France, Okt. 2005
2005-33
CRIS
U. Fecker, A. Kaup
   [bib]

H.264/AVC-Compatible Coding of Dynamic Light Fields Using Transposed Picture Ordering
13th European Signal Processing Conference (EUSIPCO), Antalya, Turkey, Sep. 2005
2004-20 U. Fecker, A. Kaup
   [bib]

Transposed Picture Ordering for Dynamic Light Field Coding
ISO/IEC JTC1/SC29/WG11, Document MPEG2004/M10929, Redmond, WA, USA, Jul. 2004