TU Darmstadt / ULB / TUbiblio

Monocular Visual Scene Understanding from Mobile Platforms

Wojek, Christian Alexander (2010)
Monocular Visual Scene Understanding from Mobile Platforms.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Automatic visual scene understanding is one of the ultimate goals in computer vision and has been in the field’s focus since its early beginning. Despite continuous effort over several years, applications such as autonomous driving and robotics are still unsolved and subject to active research. In recent years, improved probabilistic methods became a popular tool for current state-of-the-art computer vision algorithms. Additionally, high resolution digital imaging devices and increased computational power became available. By leveraging these methodical and technical advancements current methods obtain encouraging results in well defined environments for robust object class detection, tracking and pixel-wise semantic scene labeling and give rise to renewed hope for further progress in scene understanding for real environments. This thesis improves state-of-the-art scene understanding with monocular cameras and aims for applications on mobile platforms such as service robots or driver assistance for automotive safety. It develops and improves approaches for object class detection and semantic scene labeling and integrates those into models for global scene reasoning which exploit context at different levels. To enhance object class detection, we perform a thorough evaluation for people and pedestrian detection with the popular sliding window framework. In particular, we address pedestrian detection from a moving camera and provide new benchmark datasets for this task. As frequently used single-window metrics can fail to predict algorithm performance, we argue for application-driven image-based evaluation metrics, which allow a better system assessment. We propose and analyze features and their combination based on visual and motion cues. Detection performance is evaluated systematically for different feature-classifiers combinations which is crucial to yield best results. Our results indicate that cue combination with complementary features allow improved performance. Despite camera ego-motion, we obtain significantly better detection results for motion-enhanced pedestrian detectors. Realistic onboard applications demand real-time processing with frame rates of 10 Hz and higher. In this thesis we propose to exploit parallelism in order to achieve the required runtime performance for sliding window object detection. In a case study we employ commodity graphics hardware for the popular histograms of oriented gradients (HOG) detection approach and achieve a significant speed-up compared to a baseline CPU implementation. Furthermore, we propose an integrated dynamic conditional random field model for joint semantic scene labeling and object detection in highly dynamic scenes. Our model improves semantic context modeling and fuses low-level filter bank responses with more global object detections. Recognition performance is increased for object as well as scene classes. Integration over time needs to account for different dynamics of objects and scene classes but yields more robust results. Finally, we propose a probabilistic 3D scene model that encompasses multi-class object detection, object tracking, scene labeling, and 3D geometric relations. This integrated 3D model is able to represent complex interactions like inter-object occlusion, physical exclusion between objects, and geometric context. Inference in this model allows to recover 3D scene context and perform 3D multi-object tracking from a mobile observer, for objects of multiple categories, using only monocular video as input. Our results indicate that our joint scene tracklet model for the evidence collected over multiple frames substantially improves performance. All experiments throughout this thesis are performed on challenging real world data. We contribute several datasets that were recorded from moving cars in urban and sub-urban environments. Highly dynamic scenes are obtained while driving in normal traffic on rural roads. Our experiments support that joint models, which integrate semantic scene labeling, object detection and tracking, are well suited to improve the individual stand-alone tasks’ performance.

Typ des Eintrags: Dissertation
Erschienen: 2010
Autor(en): Wojek, Christian Alexander
Art des Eintrags: Erstveröffentlichung
Titel: Monocular Visual Scene Understanding from Mobile Platforms
Sprache: Englisch
Referenten: Schiele, Prof. Dr. Bernt ; Van Gool, Prof. Dr. Luc
Publikationsjahr: 12 Juli 2010
Datum der mündlichen Prüfung: 30 Juni 2010
URL / URN: urn:nbn:de:tuda-tuprints-22377
Kurzbeschreibung (Abstract):

Automatic visual scene understanding is one of the ultimate goals in computer vision and has been in the field’s focus since its early beginning. Despite continuous effort over several years, applications such as autonomous driving and robotics are still unsolved and subject to active research. In recent years, improved probabilistic methods became a popular tool for current state-of-the-art computer vision algorithms. Additionally, high resolution digital imaging devices and increased computational power became available. By leveraging these methodical and technical advancements current methods obtain encouraging results in well defined environments for robust object class detection, tracking and pixel-wise semantic scene labeling and give rise to renewed hope for further progress in scene understanding for real environments. This thesis improves state-of-the-art scene understanding with monocular cameras and aims for applications on mobile platforms such as service robots or driver assistance for automotive safety. It develops and improves approaches for object class detection and semantic scene labeling and integrates those into models for global scene reasoning which exploit context at different levels. To enhance object class detection, we perform a thorough evaluation for people and pedestrian detection with the popular sliding window framework. In particular, we address pedestrian detection from a moving camera and provide new benchmark datasets for this task. As frequently used single-window metrics can fail to predict algorithm performance, we argue for application-driven image-based evaluation metrics, which allow a better system assessment. We propose and analyze features and their combination based on visual and motion cues. Detection performance is evaluated systematically for different feature-classifiers combinations which is crucial to yield best results. Our results indicate that cue combination with complementary features allow improved performance. Despite camera ego-motion, we obtain significantly better detection results for motion-enhanced pedestrian detectors. Realistic onboard applications demand real-time processing with frame rates of 10 Hz and higher. In this thesis we propose to exploit parallelism in order to achieve the required runtime performance for sliding window object detection. In a case study we employ commodity graphics hardware for the popular histograms of oriented gradients (HOG) detection approach and achieve a significant speed-up compared to a baseline CPU implementation. Furthermore, we propose an integrated dynamic conditional random field model for joint semantic scene labeling and object detection in highly dynamic scenes. Our model improves semantic context modeling and fuses low-level filter bank responses with more global object detections. Recognition performance is increased for object as well as scene classes. Integration over time needs to account for different dynamics of objects and scene classes but yields more robust results. Finally, we propose a probabilistic 3D scene model that encompasses multi-class object detection, object tracking, scene labeling, and 3D geometric relations. This integrated 3D model is able to represent complex interactions like inter-object occlusion, physical exclusion between objects, and geometric context. Inference in this model allows to recover 3D scene context and perform 3D multi-object tracking from a mobile observer, for objects of multiple categories, using only monocular video as input. Our results indicate that our joint scene tracklet model for the evidence collected over multiple frames substantially improves performance. All experiments throughout this thesis are performed on challenging real world data. We contribute several datasets that were recorded from moving cars in urban and sub-urban environments. Highly dynamic scenes are obtained while driving in normal traffic on rural roads. Our experiments support that joint models, which integrate semantic scene labeling, object detection and tracking, are well suited to improve the individual stand-alone tasks’ performance.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Automatisiertes visuelles Szenenverstehen gehört zu den letztendlichen Zielen des maschinellen Sehens und steht bereits seit dem Beginn der Forschungsaktivitäten im Zentrum des Interesses. Trotz mehrjähriger kontinuierlicher Bemühungen sind jedoch Anwendungen wie zum Beispiel autonomes Fahren und autonome Robotorsysteme noch immer ungelöst und Gegenstand aktiver Forschung. In den letzten Jahren entwickelten sich probabilistische Methoden zu einem beliebten Werkzeug für die Ansätze des maschinellen Sehens, die den derzeitigen Stand der Technik darstellen. Zusätzlich hat die Leistungsfähigkeit von Rechnern stark zugenommen und hochauflösende digitale Kamerasensoren wurden verfügbar. Gegenwärtige Ansätze nutzen diese methodischen und technischen Verbesserungen und erreichen in wohl definierten Umgebungen ermutigende Ergebnisse in den Bereichen robuste Objektklassenerkennung, Objektverfolgung und pixelweise semantische Szenensegmentierung. Diese geben Anlass zu erneuter Hoffnung auf Fortschritte im Gesamtszenenverständnis realistischer Umgebungen. Diese Arbeit verbessert den Stand der Technik für monokulares Szenenverständnis und ist auf Anwendungsszenarien mit mobilen Plattformen wie zum Beispiel Servicerobotern oder Fahrerassistenzsystemen zur Erhöhung der automobilen Fahrsicherheit ausgerichtet. Sie entwickelt und verbessert Ansätze zur Objektklassendetektion und zur semantischen Szenensegmentierung und integriert diese in Modelle zum Gesamtszenenverständnis, die Kontext unterschiedlicher Art ausnutzen. Zunächst führen wir zu einem besseren Verständnis der Objektklassenerkennung eine sorgfältige Leistungsanalyse unterschiedlicher Ansätze durch, die das Sliding-Window-Paradigma für die Erkennung von Menschen und Fußgängern verwenden. Insbesondere behandeln wir Fußgängererkennungsalgorithmen, die mit bewegten Kameras verwendet werden können und stellen für diese Aufgabe neue Vergleichsdatensätze zur freien Verfügung. Da häufig verwendete Einzelfenstermetriken bei der Bestimmung der Leistungsfähigkeit scheitern können, plädieren wir in dieser Arbeit für die Verwendung anwendungsorientierter Gesamtbildmetriken, die eine bessere Beurteilung erlauben. Darüber hinaus schlagen wir die Verwendung und Kombination von Aussehens- und Bewegungsmerkmalen vor und analysieren diese systematisch für verschiedene Klassifikator/Merkmalskombinationen. Dies erweist sich als wichtig, um die besten Ergebnisse zu erzielen. Unsere Ergebnisse zeigen, dass die Kombination komplementärer Merkmale zu einer verbesserten Erkennungsleistung führen kann. Trotz Kameraeigenbewegung erreichen wir unter Miteinbeziehung von Bewegungsmerkmalen bei der Detektion von Fußgängern signifikant bessere Ergebnisse. Reale Anwendungen mit mobilen Plattformen benötigen häufig eine Echtzeitverarbeitungsgeschwindigkeit von 10 Bilder pro Sekunde und mehr. In dieser Arbeit schlagen wir vor, mögliche Parallelität von Verarbeitungsschritten auszunutzen, um diese Geschwindigkeit für das Sliding-Window-Verfahren zu erreichen. In einer Fallstudie verwenden wir Endbenutzergrafikhardware, um das verbreitete Histograms of oriented Gradients (HOG) Erkennungsverfahren zu implementieren und erreichen damit eine signifikante Beschleunigung gegenüber einer CPU-basierten Referenzimplementierung. Des Weiteren schlagen wir ein integriertes dynamisches Conditional Random Field Modell vor, das die gleichzeitige Inferenz von semantischer Szenensegmentierung und die Erkennung von Objekten in hochdynamischen Szenen erlaubt. Unser Modell verbessert die Modellierung semantischen Kontextes und verbindet low-level Filterbankantworten mit Objekthypothesen. Dabei wird die Erkennungsleistung sowohl für Objekt- als auch für Hintergrundszenenklassen verbessert. Die zeit-dynamische Erweiterung des Modells beachtet die höchst unterschiedliche Bewegungsdynamik von Objekten und Hintergrundszene und kann dadurch noch robustere Ergebnisse erzielen. Schließlich schlagen wir ein probabilistisches 3D Gesamtszenenmodell vor, das Mehrklassenobjektdetektion, Objektverfolgung, semantische Szenensegmentierung und die Modellierung von 3D Beziehungen vereint. Dieses integrierte 3D Modell ist in der Lage komplexe Wechselwirkungen wie Verdeckung unter Objekten, physikalischen Ausschluss von Objekten, sowie geometrischen Kontext zu modellieren. Dieses Modell erlaubt es, lediglich unter Verwendung einer monokularen Kamera, 3D Szenenkontext zu erschließen und mehrere Objekte unterschiedlicher Kategorien zu verfolgen. Unsere experimentellen Ergebnisse belegen, dass dieses integrierte Szenen-Tracklet-Modell, das Bildinformation mehrerer aufeinander folgender Eingabebilder benutzt, bedeutend bessere Ergebnisse erzielt. Alle Experimente im Verlauf dieser Arbeit wurden mit anspruchsvollen, reellen Daten durchgeführt, die von fahrenden Autos in ländlichen und innerstädtischen Umgebungen aufgenommen wurden und zur freien Verfügung gestellt werden. Unsere Experimente belegen, dass die gleichzeitige Modellierung von semantischer Szenensegmentierung, Objekterkennung und -verfolgung gut dazu geeignet ist, die Leistungsfähigkeit der individuellen Komponenten weiter zu verbessern.

Deutsch
Freie Schlagworte: Pedestrian Detection, Object Detection, Object Recognition, Scene Understanding, Segmentation, Computer Vision, Probabilistic Modeling, Conditional Random Fields, CRFs, MCMC, PRORETA2
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften und Maschinenbau
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Multimodale Interaktive Systeme
Hinterlegungsdatum: 21 Jul 2010 12:58
Letzte Änderung: 17 Jan 2020 11:22
PPN:
Referenten: Schiele, Prof. Dr. Bernt ; Van Gool, Prof. Dr. Luc
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 30 Juni 2010
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen