TU Darmstadt / ULB / TUbiblio

Multi-Cue People Detection from Video

Walk, Stefan (2013)
Multi-Cue People Detection from Video.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

This thesis aims to advance the state of the art in pedestrian detection. Since there are many applications for pedestrian detection, for example automotive safety or aiding robot-human interaction in robotics, there is a strong desire for improvement. In this thesis, the benefits of combining multiple features that gather information from different cues (for example image color, motion and depth) are studied. Training techniques and evaluation procedures are also investigated, improving performance and the reliability of results, especially when different methods are compared.

While motion features were previously used, they either were conceptually restricted to a setting with a fixed camera (e.g. surveillance) or were not resulting in an improvement for the full-image detection task. In this thesis, the necessary modifications to the approach of Dalal et al. (which is based on optical flow) to make it work in the full-image detection setting are presented. In addition to this, substantial improvements using motion features are shown even when the camera is moving significantly, which has not been tested before. A variant of the motion feature that performs equally well with a significantly lower feature dimension is also introduced.

Another cue that is used in the present work is color information. Usually, when incorporating color information into computer vision algorithms, one has to deal with the color constancy problem. In this thesis, a new feature called color self-similarity (CSS) is introduced. It encodes long-range (between positions within the detector window) similarities of color distributions. By only comparing colors inside the detector window, the color constancy problem can be circumvented - effects of lighting and camera properties are less likely to vary significantly within the detector window than they are over the whole dataset. Additionally, it is shown that even raw color information can be useful if the training set covers enough variability.

Depth is also a useful cue. An existing stereo feature - stereo-based HOG by Rohrbach et al. - is adopted and a new feature that exploits a useful relation between stereo disparity and the height of an object in an image is introduced. This feature is computationally cheap and able to encode local scene information, like object height and the presence of a ground plane, in a completely data-driven way (all parameters are learned during training). It helps both by reducing false positives (eliminating those that have the wrong size) and false negatives (those that were missed because the detector estimated the size wrongly).

For the classifier part of the pipeline, it is shown that AdaBoost with decision stumps is not able to handle the multi-cue, multi-view detection setting that we are examining well. A recently proposed boosting classifier, MPLBoost, turned out to be superior, resulting in classification performance that is comparable to support vector machines. It is also demonstrated that error rates can be reduced by using support vector machines and boosting classifiers in combination. Another contribution of this thesis is a procedure to combine training datasets with different sets of cues during training, e.g. a monochrome dataset with a colored dataset, or a dataset with no motion information with a dataset from video. This greatly increases the amount of available training data when multiple cues are used.

A collection of pitfalls during evaluation is also highlighted. It is demonstrated that the PASCAL overlap criterion encourages overestimating the bounding box size. Care also has to be taken when evaluating on subsets of annotations, e.g. only on occluded pedestrians or pedestrians of certain sizes. When trying to determine the strengths of different approaches, naive approaches can easily lead to wrong conclusions. In this thesis, better methods to compare different approaches are proposed.

An application of the detector in a 3D scene reasoning framework is also presented. Multiple detectors trained on partial (e.g. only upper body) views are combined. 3D reasoning is used to infer which parts of the pedestrian should be visible and the framework uses this information to determine the strengths of the contributions of the partial detectors. This allows the detection system to find pedestrians even when they are occluded for extended periods of time.

Typ des Eintrags: Dissertation
Erschienen: 2013
Autor(en): Walk, Stefan
Art des Eintrags: Erstveröffentlichung
Titel: Multi-Cue People Detection from Video
Sprache: Englisch
Referenten: Roth, Prof. Ph.D Stefan ; Schiele, Prof. Dr. Bernt ; Schindler, Prof. Dr. Konrad
Publikationsjahr: 2 Juli 2013
Ort: Darmstadt
Datum der mündlichen Prüfung: 26 September 2012
URL / URN: http://tuprints.ulb.tu-darmstadt.de/3500
Kurzbeschreibung (Abstract):

This thesis aims to advance the state of the art in pedestrian detection. Since there are many applications for pedestrian detection, for example automotive safety or aiding robot-human interaction in robotics, there is a strong desire for improvement. In this thesis, the benefits of combining multiple features that gather information from different cues (for example image color, motion and depth) are studied. Training techniques and evaluation procedures are also investigated, improving performance and the reliability of results, especially when different methods are compared.

While motion features were previously used, they either were conceptually restricted to a setting with a fixed camera (e.g. surveillance) or were not resulting in an improvement for the full-image detection task. In this thesis, the necessary modifications to the approach of Dalal et al. (which is based on optical flow) to make it work in the full-image detection setting are presented. In addition to this, substantial improvements using motion features are shown even when the camera is moving significantly, which has not been tested before. A variant of the motion feature that performs equally well with a significantly lower feature dimension is also introduced.

Another cue that is used in the present work is color information. Usually, when incorporating color information into computer vision algorithms, one has to deal with the color constancy problem. In this thesis, a new feature called color self-similarity (CSS) is introduced. It encodes long-range (between positions within the detector window) similarities of color distributions. By only comparing colors inside the detector window, the color constancy problem can be circumvented - effects of lighting and camera properties are less likely to vary significantly within the detector window than they are over the whole dataset. Additionally, it is shown that even raw color information can be useful if the training set covers enough variability.

Depth is also a useful cue. An existing stereo feature - stereo-based HOG by Rohrbach et al. - is adopted and a new feature that exploits a useful relation between stereo disparity and the height of an object in an image is introduced. This feature is computationally cheap and able to encode local scene information, like object height and the presence of a ground plane, in a completely data-driven way (all parameters are learned during training). It helps both by reducing false positives (eliminating those that have the wrong size) and false negatives (those that were missed because the detector estimated the size wrongly).

For the classifier part of the pipeline, it is shown that AdaBoost with decision stumps is not able to handle the multi-cue, multi-view detection setting that we are examining well. A recently proposed boosting classifier, MPLBoost, turned out to be superior, resulting in classification performance that is comparable to support vector machines. It is also demonstrated that error rates can be reduced by using support vector machines and boosting classifiers in combination. Another contribution of this thesis is a procedure to combine training datasets with different sets of cues during training, e.g. a monochrome dataset with a colored dataset, or a dataset with no motion information with a dataset from video. This greatly increases the amount of available training data when multiple cues are used.

A collection of pitfalls during evaluation is also highlighted. It is demonstrated that the PASCAL overlap criterion encourages overestimating the bounding box size. Care also has to be taken when evaluating on subsets of annotations, e.g. only on occluded pedestrians or pedestrians of certain sizes. When trying to determine the strengths of different approaches, naive approaches can easily lead to wrong conclusions. In this thesis, better methods to compare different approaches are proposed.

An application of the detector in a 3D scene reasoning framework is also presented. Multiple detectors trained on partial (e.g. only upper body) views are combined. 3D reasoning is used to infer which parts of the pedestrian should be visible and the framework uses this information to determine the strengths of the contributions of the partial detectors. This allows the detection system to find pedestrians even when they are occluded for extended periods of time.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Die automatische Detektion von Fußgängern ist ein Forschungsgebiet, das viele Anwendungen hat. Fußgänger-Detektions-Algorithmen liefern zum Beispiel Fahr- assistenzsystemen die nötigen Informationen um zu verhindern, dass Fußgänger von einem Auto überfahren werden, und können in der Robotik verwendet werden um die Roboter-Mensch-Interaktion zu verbessern. Ziel dieser Arbeit ist, den Stand der Technik in der Fußgängerdetektion zu verbessern. Dazu wird untersucht, in- wieweit die Kombination von mehreren Informationsquellen (z.B. Farbe, Bewegung im Bild und Entfernung) hilfreich ist und wie diese Kombination am besten durchge- führt werden kann. Zusätzlich dazu werden Prozeduren zum Training und zur Evaluierung von Algorithmen untersucht, um die Genauigkeit der Erkennung und die Verlässlichkeit der Ergebnisse, insbesondere wenn mehrere Ansätze verglichen werden, zu erhöhen. Es gab bereits Ansätze, Bewegungsinformation für die Fußgängererkennung zu nutzen. Diese waren jedoch konzeptbedingt lediglich für Situationen geeignet, in denen man eine feste Kamera hat (wie z.B. in Überwachungsszenarien) oder erreichten keine Verbesserung, wenn sie zur Fußgängerdetektion in ganzen Bildern eingesetzt wurden. In dieser Arbeit werden die nötigen Veränderungen zum Ansatz von Dalal et al. (der auf optischem Fluß basiert) dargelegt, um ihn zur Fußgängerdetektion in ganzen Bildern verwenden zu können. Zusätzlich dazu wird gezeigt, dass die Einbindung von Bewegungsinformation in den Detektor zu deutlichen Verbesserungen führt, auch wenn die Kamera sich stark bewegt (wie es in einem Auto der Fall ist). Farbe ist ebenfalls eine nützliche Informationsquelle, die in dieser Arbeit genutzt wird. Bei der Benutzung von Farbinformation stößt man typischerweise auf das Problem, dass die Farbe, die von der Kamera wahrgenommen wird, außer von der Objektfarbe (die man nutzen möchte) noch von Kameraeigenschaften und vom Licht beeinflusst wird. Das menschliche Gehirn versucht Lichteinflüsse zu ignorieren (Far- bkonstanz), und obwohl es Ansätze gibt eine ähnliche Funktionalität für Computer zu ermöglichen ist eine gleichwertige Lösung dieses Problems noch nicht bekannt. In dieser Arbeit wird ein Merkmal namens „Color Self-Similarity“ vorgestellt, das Ähn- lichkeiten von Farbverteilungen innerhalb des Detektorfensters kodiert. Dadurch, dass Farben lediglich innerhalb des Detektorfensters verglichen werden (und nicht zwischen verschiedenen Bildern von Fußgängern) kann das Problem, dass Farben von Licht- und Kameraeinflüssen abhängen, umgangen werden (da diese sich inner- halb eines Bildausschnittes das einen Fußgänger enthält in der Regel nicht signifikant ändern). Es wird aber auch gezeigt, dass selbst „rohe“ Farbinformation helfen kann, wenn der Trainingsdatensatz genug Variabilität aufweist. Eine weitere hilfreiche Informationsquelle ist die Entfernung. Ein neues Merkmal, das eine feste Beziehung zwischen der Größe eines Objektes im Bild und der Stereo- Disparität ausnutzt, wird in dieser Arbeit vorgestellt. Dieses Merkmal ist schnell zu berechnen und kann lokale Information über den Fußgänger (z.B. seine Größe) und seine Umgebung (z.B. dass Fußgänger üblicherweise auf dem Boden stehen) kodieren. Diese Eigenschaften werden vollständig aus den Trainingsdaten gelernt, so dass das Merkmal ohne Modifikation auch für andere Objektklassen benutzt werden könnte. In Bezug auf die Klassifizierungsalgorithmen, die für die Fußgängerdetektion genutzt werden, wird gezeigt, dass das populäre AdaBoost mit Entscheidungs- bäumen der Tiefe 1 nicht für das Szenario geeignet ist, das wir betrachten (Fußgänger- detektion aus vielen verschiedenen Blickwinkeln mit der Verwendung von mehreren Informationsquellen). Ein anderer Klassifizierungsalgorithmus, MPLBoost, führte zu deutlich verbesserten Erkennungsraten. Es wird gezeigt, dass Support Vector Machines und MPLBoost kombiniert werden können, um Fehler zu reduzieren. Ein weiterer Beitrag dieser Arbeit ist eine Prozedur, um Trainingsdatensätze zu kombinieren, die verschiedene Informationsquellen enthalten (wie z.B. ein farbiger Datensatz und ein Datensatz mit Graustufen oder ein Datensatz aus Videos mit einem Datensatz aus Einzelbildern ohne Bewegungsinformation). Dies führt zu einer deutlich höheren Gesamtdatenmenge, die für das Training genutzt werden kann. Außerdem werden in dieser Arbeit eine Reihe von Problemen aufgezeigt, die bei der Evaluierung von Algorithmen auftauchen können. Zum Beispiel wird gezeigt, dass das Pascal-Kriterium (welches angibt, wann eine Detektion einer Annotation zugeordnet werden darf) Methoden bevorzugt, die die Größe des Objekts bzw. des Fußgängers überschätzen. Vorsicht ist auch geboten, wenn es darum geht nur auf einem Teil der Annotationen zu evaluieren (z.B. nur auf teilweise verdeckten Fußgängern). Wenn verschiedene Algorithmen verglichen werden, können naive Arten des Vergleichens leicht zu falschen Schlüssen führen. In dieser Arbeit werden bessere Methoden vorgestellt. Des Weiteren wird die Verwendung des Detektors in einem 3D-Szenenmodell gezeigt. Mehrere Detektoren, die auf Teile des Fußgängers (z.B. nur den Oberkörper) trainiert worden sind, werden kombiniert. Durch die Benutzung des Szenenmodells können Schlüsse gezogen werden, welche Teile der Fußgänger gerade sichtbar sein sollten und die Gewichtung der einzelnen Detektoren kann angepasst wer- den. Dadurch kann das System Fußgänger erkennen, auch wenn sie über längere Zeiträume teilweise verdeckt sind, was eine Schwäche von vielen Algorithmen zur Fußgängerdetektion behebt.

Deutsch
URN: urn:nbn:de:tuda-tuprints-35002
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Graphisch-Interaktive Systeme
20 Fachbereich Informatik > Multimodale Interaktive Systeme
Hinterlegungsdatum: 14 Jul 2013 19:55
Letzte Änderung: 14 Jul 2013 19:55
PPN:
Referenten: Roth, Prof. Ph.D Stefan ; Schiele, Prof. Dr. Bernt ; Schindler, Prof. Dr. Konrad
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 26 September 2012
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen