Materialien Visuelle Analyse

Low-level Visual Features/Generic Video Concept Classification

Aufgabe

Es sollen Verfahren zur low-level Feature Detction und Descriptor Extraction entwickelt und auf Parallelisierbarkeit optimiert werden.

Feature Detection beschreibt die Identifikation "interessanter" Bereiche in einem Bild/Videosegment. Aufgabe ist es, Regionen zu finden, die sich aufgrund ihrer lokalen Struktur/Textur/Farbverteilung sinnvolle Ziele für eine genauere Analyse darstellen. Vertreter sind Edge Detection (z.B. Canny Edge Detector), Corner Detection (z.B. Harris Corner Detector) und Blob Detection (z.B. Difference of Gaussians).
Im Anschluss and die Feature Detection werden aus den identifizierten Regionen Merkmale, die diese Regionen beschreiben, extrahiert. Bekannt Vertreter hier sind die Histogram of (oriented) Gradients (HoG) zu denen auch die Scale-Invarient Feature Transform (SIFT) gehört sowie die Speeded-Up Robust Features (SURF).
Lokale Bildmerkmale werden häufig mit Hilfe des aus der Textklassifikation entlehnten Bag-of-Words Ansatzes zu "globalen" Merkmalen kombiniert indem die statistische Häufigkeit einzelner Merkmalsklassen innerhalb eines Bildes untersucht wird.

Neben diesen auf lokalen Bildmerkmalen basierenden Verfahren zur Feature Detection und Extraction existieren zahlreich globale Verfahren, wie zum Beispiel dem auf der Analyse kognitiver Prozesse bei der Bildwahrnehmung beruhenden Spatial Envelope oder Scene-GIST.

Higher-level Features aggregieren diese low-level Features (häufig unter Verwendung maschineller Lernverfahren). Verfahren zur Face Detection gehören in diese Gruppe. Diese werden verwendet um Gesichter in Videosegmenten auf Pixelebene zu lokalisieren.
Um die gefundenen Gesichter zu einzelnen Personen (Identitäten) zuzuordnen, müssen diese nach visueller Ähnlichkeit gruppiert (Clustering) werden.


Allen der o.g. Verfahren ist gemeinsam, dass die Extraktion bzw. die Berechnung ein extrem rechenintensiver Prozess ist, der jedoch i.d.R. leicht paralleisiert werden kann. Aufgabe ist es, diese Parallelisierung konzeptionell zu durchdenken und umzusetzen. Dabei kann auf verschiedene Toolkits und Bibliotheken zur Feature Extraction und zur Parallelisierung zurückgegriffen werden.

Literatur

Einen sehr ausführlichen Literaturüberblick zum Thema concept-based vdeo classification bietet:
  • Cees G. M. Snoek and Marcel Worring - Concept-Based Video Retrieval PDF

Einen Überblick und einen Vergleich bekannter Verfahren zur Feature Detection bieten:
  • K. Mikolajczyk et al. - A Comparison of Affine Region Detectors PDF
  • T. Tuytelaars, K. Mikolajczyk - Local Invariant Feature Detectors: A Survey PDF

Standard-Verfahren zur Feature Extraction:
  • David G. Lowe - Distinctive image features from scale-invariant keypoints PDF
  • H. Bay, A. Ess, T. Tuytelaars, L.V. Gool - SURF: Speeded Up Robust Features PDF

Bag-of-Keypoints:
  • G. Csurka et al. - Visual categorization with bags of keypoints PDF

Spatial Envelope:
  • Aude Oliva, Antonio Torralba - Modeling the shape of the scene: a holistic representation of the spatial envelope Link

Face Detection:
  • Es existieren gut dokumentierte Standardverfahren (Viola-Jones, Wikipedia)
  • Diese Verfahren sind zum Teil bereits in der OpenCV-Library implementiert.

Verfahren zur Personenidentifikation mittels Face-Clustering:
  • Koji YAMAMOTO, Osamu YAMAGUCHI, and Hisashi AOKI, "Fast face clustering based on shot similarity for browsing video", Progress in Informatics, No. 7, pp.53–62, (2010) PDF
  • S. Thilagamani, N. Shanthi, "A Survey on Image Segmentation Through Clustering", International Journal of Research and Reviews in Information Sciences Vol. 1, No. 1, March 2011 Paper
Diese Literatur ist nur ein Einstieg in die berührten Themenkomplexe. Sie sind aufgefordert eigene Literaturrecherchen durchzuführen und Verfahren zu identifizieren und umzusetzen.

Software
Die frei erhältliche Bibliothek OpenCV bietet zahlreiche Verfahren zur lokalen und globalen Feature Extraction, die i.d.R. jedoch nicht parallelisiert sind (es existieren erste Ansätze unter Verwendung der Intel Threading Building Blocks).

Die parallelisierten Verfahren müssen unter Linux lauffähig sein.




Text Detection


Aufgabe

Bei der text Identification werden zunächst Bilder aus einem Videodatenstrom herausgefiltert, die Text enthalten. Weiterhin wird die betreffende Region im Bild gekennzeichnet. Die Kennzeichnung der Textregion erfolgt üblicherweise durch eine Boundingbox, welche die Koordinaten im Bild beschreibt, wo Text vorkommt.


Materialien

OpenCV beinhaltet zahlreiche Algorithmen für Bildverarbeitung und maschinelles Sehen.

Der Vorteil besteht darin, dass nicht alle „einfachen“ Algorithmen (z.B. Bilder aus einem Videodatenstrom extrahieren) selbst implementiert werden müssen.


Literatur

Gonzales, R.-C-, Woods, R.E. "Digital Image Processing," 2nd edn., Prentice- Hall, Englewood Cliffs, 2002.

D.Chen, J-M.Odobez, and H.Bourlard: Textdetection and recognition in images and video frames, Journal of The Pattern Recognition Society, pp. 595-608, 2004.

M. Zhao, S. Li, and J. Kwok: Text detection in images using sparse representation with discriminative dictionaries, Journal of Image and Vision Computing, vol. 28, pp. 1590-1599, 2010.

X.Chen, Alan Yuille, "Adaboost Learning for Detecting and Recognizing Text", Journal of Computer Vision and Pattern Recognition. Vol. 2. pp366-373. June 2004

Bradski, G. ; Kaehler, A. : Learning OpenCV. Beijing : O'Reilly, 2008

Images“ Image Vision Comput., Butterworth-Heinemann, 2010, Vol. 28, pp. 1413-1426 PDF

Yi-Feng Pan, Xinwen Hou, Cheng-Lin Liu, "Text Localization in Natural Scene Images Based on Conditional Random Field," Document Analysis and Recognition, International Conference on, pp. 6-10, 2009 10th International Conference on Document Analysis and Recognition, 2009 PDF




Genre Detection

Aufgabe

Videosegmente sollen nach unterschiedlichen Genre-Klassen 
(Tag, Nacht, Innenraum, Außen, Grafik, Vor-/Abspann, Interview, Vortrag/Rede, etc.) klassifiziert werden. Initial müssen Low-Level-Features auf Einzelbildern bestimmt und
 automatisch extrahiert werden (z.B.: Helligkeitsverteilung,
 Farbspektrum, Farbverteilung, ...). 

Literatur

Stephan Fischer, Rainer Lienhart, and Wolfgang Effelsberg: "Automatic Recognition of Film Genres", 1995


Martin Szummer, and Rosalind W. Picard: "Indoor-Outdoor Image Classification", 1998


Tzvetanka Ianeva: PhD Thesis "Detecting cartoons: a case study in automatic video-genre classification", 2003


Pedro Quelhas, Florent Monay, Jean-Marc Odobez, Daniel Gatica-Perez, and Tinne Tuytelaars: "A Thousand Words in a Scene", 2007