Lehrstuhl für
Multimediakommunikation und Signalverarbeitung
Prof. Dr.-Ing. André Kaup

Analyse komprimierter Videodaten

Arbeitsgebiet: Videosignalverarbeitung und -übertragung
Schwerpunkt: Videoanalyse und Videoverarbeitung
Mitarbeiter: Dipl.-Ing. Marcus Laumer

Beschreibung

In der Literatur findet man viele Verfahren für die verschiedensten Nachverarbeitungsschritte für Videos. Die meisten davon arbeiten in der sog. Pixel Domain. Dabei werden alle Verarbeitungsschritte direkt auf den tatsächlichen Pixelwerten der Videobilder durchgeführt. Dazu müssen sämtliche Videodaten decodiert werden, bevor darauf Analysealgorithmen angewandt werden können. Ein Beispiel für eine einfache Verarbeitungskette ist in Abbildung 1 dargestellt.

Verarbeitungskette der Pixel Domain
Abbildung 1: Verarbeitungskette der Pixel Domain

Die einfachste Möglichkeit ein Video zu analysieren besteht darin, das Video auf einem geeigneten Display zu betrachten. Zum Beispiel könnte eine Überwachungskamera die Bilder eines sicherheitskritischen Bereichs übertragen, um diese anschließend von einem Wachmann auswerten zu lassen. Obwohl dieses Verfahren wohl Anwendung in der Praxis findet, ist es nicht bei jedem System anwendbar, auf Grund hauptsächlich zweier Probleme. Das erste Problem besteht darin, dass zu jeder Zeit jemand die Monitore im Blick haben muss. So ist dieser Modus zwar auf der einen Seite echtzeitfähig, aber auf der anderen Seite auch recht teuer. Ein zweites Problem ist die Skalierbarkeit. Hat ein Überwachungssystem eine sehr große Anzahl an Kameras installiert, ist es nahezu unmöglich alle Monitore zur selben Zeit im Blick zu haben. Daher wird in einem solchen System die Effizienz mit einer Zunahme der Videoquellen sinken.

Neben der manuellen Analyse von Videoinhalten, wurden in den letzten Jahren automatische Analysen immer wichtiger. Die Verarbeitungskette in Abbildung 1 zeigt eine vereinfachte Prozedur zur automatischen Videoanalyse in der Pixel Domain. Zunächst muss der aus dem Netzwerk empfangene Videoinhalt decodiert werden. Dabei werden die einzelnen Videobilder in einem Bildspeicher abgelegt, um während der Analyse Zugriff auf sie zu haben. Basierend auf diesen Videobildern wird ein Analysealgorithmus, wie z. B. Detektion und Verfolgung eines Objekts angewandt. Ein großer Vorteil gegenüber einer manuellen Analyse ist, dass dieses Verfahren normalerweise leicht skalierbar und weniger kostenintensiv ist. Aber auf Grund des Decodierprozesses, den Bildspeicheroperationen und der gewöhnlich hohen Rechenzeit von Detektionsalgorithmen der Pixel Domain, ist dieser Modus nicht immer echtzeitfähig und hat noch dazu eine hohe Komplexität.

Wegen den Beschränkungen der Ansätze der Pixel Domain, wurden mehr und mehr Anstrengungen unternommen, Videoanalyseprozeduren von der Pixel Domain in die Compressed Domain zu transferieren. Arbeiten in der Compressed Domain bedeutet direkt auf komprimierten Daten zu arbeiten. Abbildung 2 zeigt eine Verarbeitungskette der Compressed Domain.

Verarbeitungskette der Compressed Domain
Abbildung 2: Verarbeitungskette der Compressed Domain

Durch den Wegfall des vorangestellten Decoders besteht nun die Möglichkeit direkt mit den empfangenen Daten zu arbeiten. Gleichzeitig erlaubt es der nun integrierte Syntax Parser einzelne benötigte Elemente aus dem Datenstrom zu extrahieren und ebenfalls zur Analyse heranzuziehen. Dadurch wird erreicht, dass die Analyse weniger rechenintensiv ist, da der aufwändige Decodierprozess nicht immer vollständig zu durchlaufen ist. Des Weiteren verbraucht diese Lösung weniger Ressourcen, da die einzelnen Videobilder nicht mehr in einem Speicher abgelegt werden müssen. Das führt zu einem Verfahren, das im Vergleich zu Verfahren der Pixel Domain in der Regel effizienter arbeiten kann und einfacher skalierbar erscheint.

Die Hauptaufgabe dieses Forschungsprojekts ist es, neue Verfahren und Algorithmen für ein allgemeines, mehrschichtiges System zur Analyse von komprimierten Videodaten zu entwickeln. Dabei ist eine Schicht als ein einzelner Decodierschritt des gesamten Decodierprozesses definiert. Verschiedene Analysealgorithmen können auf verschiedenen Schichten durchgeführt werden. Die Aufgabe ist, eine allgemeine Beschreibung von Analyseklassen zu geben und zusätzlich den minimalen Decodieraufwand für jede Klasse zu bestimmen. Allgemein gilt, dass die Komplexität eines Analysealgorithmus sinkt, falls er auf einer niedrigeren Schicht durchgeführt werden kann. So wird die Analyse schneller und es wird möglich mehrere Videoströme simultan zu verarbeiten, was wiederum zu einer höheren Skalierbarkeit führt.

Kooperationen

Dieses Forschungsprojekt wird durch die Siemens Corporate Technology in München unterstützt. Dabei wurden Teile der Forschungsarbeit auch im Rahmen des EU-Projekts FIWARE veröffentlicht. Weiterführende Details und dazugehörige Videos finden Sie auf der Webseite Compressed Domain Video Analysis in FIWARE.

Veröffentlichungen

2016-50
CRIS
M. Laumer, P. Amon, A. Hutter, A. Kaup
   [link]   [doi]   [bib]

Moving Object Detection in the H.264/AVC Compressed Domain
APSIPA Transactions on Signal and Information Processing (ATSIP) Vol. 5, Online-Publikation, Num. e18, Seiten: 1-20, Nov. 2016
2016-27 M. Laumer, P. Amon, A. Hutter
   [bib]

Apparatus and Method for Detecting a Moving Object
CN 105516650 A, Apr. 2016
2016-26 M. Laumer, P. Amon, A. Hutter
   [bib]

Vorrichtung und Verfahren zum Detektieren eines sich bewegenden Objekts
DE 10 2014 220 809 A1, Apr. 2016
2016-19 P. Wojaczek, M. Laumer, P. Amon, A. Hutter
   [bib]

Object Detection Device and Method for Detecting an Object Within a Video Sequence
EP 2 988 273 A1, Feb. 2016
2015-12
CRIS
M. Laumer, P. Amon, A. Hutter, A. Kaup
   [doi]   [bib]

Compressed Domain Moving Object Detection by Spatio-Temporal Analysis of H.264/AVC Syntax Elements
Picture Coding Symposium (PCS), Seiten: 282-286, Cairns, Australia, Mai 2015
2015-2
CRIS
P. Wojaczek, M. Laumer, P. Amon, A. Hutter, A. Kaup
   [doi]   [bib]

Hybrid Person Detection and Tracking in H.264/AVC Video Streams
Int. Conf. on Computer Vision Theory and Applications (VISAPP), Vol. 1, Seiten: 478-485, Berlin, Germany, Mär. 2015
2013-78 M. Laumer, P. Amon, A. Hutter, A. Kaup
   [bib]

Method for Processing a Compressed Video Stream
US 2013/0300940 A1, Nov. 2013
2013-73 M. Laumer, P. Amon
   [bib]

Methods and Devices for Object Detection in Coded Video Data
WO 2013/160040 A1, Okt. 2013
2013-72 M. Laumer, P. Amon, A. Hutter, A. Kaup
   [bib]

Method for Processing a Compressed Video Stream
CN 103299618 A, Sep. 2013
2013-71 M. Laumer, P. Amon
   [bib]

Methods and Devices for Object Detection in Coded Video Data
EP 2 658 255 A1, Okt. 2013
2013-54 M. Laumer, P. Amon, A. Hutter, A. Kaup
   [bib]

Method for Processing a Compressed Video Stream
EP 2 619 982 A2, Jul. 2013
2013-2
CRIS
M. Laumer, P. Amon, A. Hutter, A. Kaup
   [doi]   [bib]

Compressed Domain Moving Object Detection Based on H.264/AVC Macroblock Types
Int. Conf. on Computer Vision Theory and Applications (VISAPP), Seiten: 219-228, Barcelona, Spain, Feb. 2013
2012-64 M. Laumer, P. Amon, A. Hutter, A. Kaup
   [bib]

Method for Processing a Compressed Video Stream
WO 2012/098078 A3, Okt. 2012
2012-63 M. Laumer, P. Amon, A. Hutter, A. Kaup
   [bib]

Method for Processing a Compressed Video Stream
WO 2012/098078 A2, Jul. 2012
2011-48
CRIS
M. Laumer, P. Amon, A. Hutter, A. Kaup
   [doi]   [bib]

A Compressed Domain Change Detection Algorithm for RTP Streams in Video Surveillance Applications
IEEE Int. Workshop on Multimedia Signal Processing (MMSP), Seiten: 1-6, Hangzhou, China, Okt. 2011