Tausch, Reimar (2010)
Visual Human Traits Recognition.
Technische Universität Darmstadt
Masterarbeit, Bibliographie
Kurzbeschreibung (Abstract)
In this thesis state-of-the-art machine vision and learning technologies are applied to train a computer to perform human-like recognition from experience and classify pedestrians from image and video data with respect to directional orientation, gender, age group, and body physique. In order to perform the classification task, distinctive visual traits are extracted and learned from the full human body. Compared to the many successful studies, which exclusively focus on faces, full body based classification has been rarely addressed before, partly because much harder challenges have to be dealt with, such as the high variety of body postures, clothing styles and irritating background. Nevertheless, if no faces are exposed, it is often the only option. To the best of the author's knowledge, this study is the first to address the problem of gender and age recognition from low resolution full body images of persons in arbitrary upright postures, without being constrained to only frontal views. In the process numerous configurations of image descriptors and classifiers are investigated, with regard to their suitability for visual person profiling. Features include histograms of oriented gradients (HOG) as shape descriptors and local RGB histograms as color descriptors. These image representations are learned and combined by multiple support vector machines (SVM) in a hierarchical classifier structure. Thus, the most discriminating visual traits could be identified and their effect evaluated, whereby the fusion of multiple cues representing shape and color resulted in an improvement of the classification performance. Best and robust results, 86 gender recognition accuracy, were achieved by the additional introduction of temporal integration strategies when classifying tracked people from video. Moreover, the evaluated practical approach is economically motivated and integrated into a software application that serves as prototype of a novel automated audience measurement system for adaptive digital signage, whose major design and use case is demonstrated and discussed. As an additional contribution, the large, manually performed annotations (utilized for the classifier training and testing), which refer to a compilation of online available image and video datasets (most originally designed for people detection and tracking tasks), are planned to be published. In dieser Arbeit werden moderne, anerkannte Methoden aus den Bereichen maschinelles Sehen und Lernen angewendet, um einen Computer zur menschlichen Wahrnehmung zu befähigen und ihm so das Klassifizieren von Fußgängern nach Laufrichtung, Geschlecht, Altersgruppe und Körperstatur zu ermöglichen. Zur Durchführung dieser Aufgabe werden charakteristische visuelle Merkmale vom gesamten menschlichen Körper extrahiert. Im Vergleich zu den zahlreichen wissenschaftlichen Studien, die sich ausschließlich auf Gesichter spezialisieren, wurde Ganzkörperklassifikation bisher relativ selten behandelt, weil es zusätzliche Herausforderungen mit sich bringt, z.B. durch die mögliche Vielfalt an Körperhaltungen, Kleidungsstilen und irritierendem Hintergrund. Nach bestem Wissen ist diese Studie die erste, die sich mit Geschlechts- und Altersklassifizierung befasst anhand von niedrigauflösenden Ganzkörperbildern von Personen in beliebiger, aufrechter Körperhaltung, ohne sich dabei nur auf Frontalansichten zu beschränken. Hierfür wurden zahlreiche Konfigurationen von Bilddeskriptoren und Klassifikatoren untersucht, wie z.B. Histogramme orientierter Gradienten um Formen zu beschreiben und RGB Histogramme um Farbe zu erfassen und das in Kombination mit hierarchisch angeordneten Support Vector Machines. So konnten aussagekräftige visuelle Merkmale identifiziert und deren Wirkung bewertet werden. Es zeigte sich, dass eine Verschmelzung von Form- und Farbmerkmalen sich positiv auf die Qualität der Klassifikation auswirkt. Beste Ergebnisse, 86 Genauigkeit der Geschlechterklassifikation, wurden erzielt durch den zusätzlichen Einsatz von zeitlicher Integration über den Beobachtungszeitraum von Personen in Videodaten. Der evaluierte Ansatz wird wirtschaftlich motiviert und in eine Software-Anwendung integriert, die als Prototyp eines neuartigen, automatisierten Zuschauermessungssystems dient. Aufbau und Wirkungsweise der Applikation werden demonstriert und diskutiert. Als zusätzlichen Beitrag, ist geplant die manuell erstellte und verwendete Datensatzannotation zu veröffentlichen.
Typ des Eintrags: | Masterarbeit |
---|---|
Erschienen: | 2010 |
Autor(en): | Tausch, Reimar |
Art des Eintrags: | Bibliographie |
Titel: | Visual Human Traits Recognition |
Sprache: | Englisch |
Publikationsjahr: | 2010 |
Ort: | Darmstadt |
Kollation: | 102 p. |
Kurzbeschreibung (Abstract): | In this thesis state-of-the-art machine vision and learning technologies are applied to train a computer to perform human-like recognition from experience and classify pedestrians from image and video data with respect to directional orientation, gender, age group, and body physique. In order to perform the classification task, distinctive visual traits are extracted and learned from the full human body. Compared to the many successful studies, which exclusively focus on faces, full body based classification has been rarely addressed before, partly because much harder challenges have to be dealt with, such as the high variety of body postures, clothing styles and irritating background. Nevertheless, if no faces are exposed, it is often the only option. To the best of the author's knowledge, this study is the first to address the problem of gender and age recognition from low resolution full body images of persons in arbitrary upright postures, without being constrained to only frontal views. In the process numerous configurations of image descriptors and classifiers are investigated, with regard to their suitability for visual person profiling. Features include histograms of oriented gradients (HOG) as shape descriptors and local RGB histograms as color descriptors. These image representations are learned and combined by multiple support vector machines (SVM) in a hierarchical classifier structure. Thus, the most discriminating visual traits could be identified and their effect evaluated, whereby the fusion of multiple cues representing shape and color resulted in an improvement of the classification performance. Best and robust results, 86 gender recognition accuracy, were achieved by the additional introduction of temporal integration strategies when classifying tracked people from video. Moreover, the evaluated practical approach is economically motivated and integrated into a software application that serves as prototype of a novel automated audience measurement system for adaptive digital signage, whose major design and use case is demonstrated and discussed. As an additional contribution, the large, manually performed annotations (utilized for the classifier training and testing), which refer to a compilation of online available image and video datasets (most originally designed for people detection and tracking tasks), are planned to be published. In dieser Arbeit werden moderne, anerkannte Methoden aus den Bereichen maschinelles Sehen und Lernen angewendet, um einen Computer zur menschlichen Wahrnehmung zu befähigen und ihm so das Klassifizieren von Fußgängern nach Laufrichtung, Geschlecht, Altersgruppe und Körperstatur zu ermöglichen. Zur Durchführung dieser Aufgabe werden charakteristische visuelle Merkmale vom gesamten menschlichen Körper extrahiert. Im Vergleich zu den zahlreichen wissenschaftlichen Studien, die sich ausschließlich auf Gesichter spezialisieren, wurde Ganzkörperklassifikation bisher relativ selten behandelt, weil es zusätzliche Herausforderungen mit sich bringt, z.B. durch die mögliche Vielfalt an Körperhaltungen, Kleidungsstilen und irritierendem Hintergrund. Nach bestem Wissen ist diese Studie die erste, die sich mit Geschlechts- und Altersklassifizierung befasst anhand von niedrigauflösenden Ganzkörperbildern von Personen in beliebiger, aufrechter Körperhaltung, ohne sich dabei nur auf Frontalansichten zu beschränken. Hierfür wurden zahlreiche Konfigurationen von Bilddeskriptoren und Klassifikatoren untersucht, wie z.B. Histogramme orientierter Gradienten um Formen zu beschreiben und RGB Histogramme um Farbe zu erfassen und das in Kombination mit hierarchisch angeordneten Support Vector Machines. So konnten aussagekräftige visuelle Merkmale identifiziert und deren Wirkung bewertet werden. Es zeigte sich, dass eine Verschmelzung von Form- und Farbmerkmalen sich positiv auf die Qualität der Klassifikation auswirkt. Beste Ergebnisse, 86 Genauigkeit der Geschlechterklassifikation, wurden erzielt durch den zusätzlichen Einsatz von zeitlicher Integration über den Beobachtungszeitraum von Personen in Videodaten. Der evaluierte Ansatz wird wirtschaftlich motiviert und in eine Software-Anwendung integriert, die als Prototyp eines neuartigen, automatisierten Zuschauermessungssystems dient. Aufbau und Wirkungsweise der Applikation werden demonstriert und diskutiert. Als zusätzlichen Beitrag, ist geplant die manuell erstellte und verwendete Datensatzannotation zu veröffentlichen. |
Freie Schlagworte: | Computer vision, Machine learning, Classification schemes, Feature recognition, Feature classifications |
Fachbereich(e)/-gebiet(e): | 20 Fachbereich Informatik 20 Fachbereich Informatik > Graphisch-Interaktive Systeme |
Hinterlegungsdatum: | 12 Nov 2018 11:16 |
Letzte Änderung: | 10 Dez 2021 07:48 |
PPN: | |
Export: | |
Suche nach Titel in: | TUfind oder in Google |
Frage zum Eintrag |
Optionen (nur für Redakteure)
Redaktionelle Details anzeigen |