TU Darmstadt / ULB / TUbiblio

Understanding Cityscapes: Efficient Urban Semantic Scene Understanding

Cordts, Marius (2017)
Understanding Cityscapes: Efficient Urban Semantic Scene Understanding.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Semantic scene understanding plays a prominent role in the environment perception of autonomous vehicles. The car needs to be aware of the semantics of its surroundings. In particular it needs to sense other vehicles, bicycles, or pedestrians in order to predict their behavior. Knowledge of the drivable space is required for safe navigation and landmarks, such as poles, or static infrastructure such as buildings, form the basis for precise localization. In this work, we focus on visual scene understanding since cameras offer great potential for perceiving semantics while being comparably cheap; we also focus on urban scenarios as fully autonomous vehicles are expected to appear first in inner-city traffic. However, this task also comes with significant challenges. While images are rich in information, the semantics are not readily available and need to be extracted by means of computer vision, typically via machine learning methods. Furthermore, modern cameras have high resolution sensors as needed for high sensing ranges. As a consequence, large amounts of data need to be processed, while the processing simultaneously requires real-time speeds with low latency. In addition, the resulting semantic environment representation needs to be compressed to allow for fast transmission and down-stream processing. Additional challenges for the perception system arise from the scene type as urban scenes are typically highly cluttered, containing many objects at various scales that are often significantly occluded.

In this dissertation, we address efficient urban semantic scene understanding for autonomous driving under three major perspectives. First, we start with an analysis of the potential of exploiting multiple input modalities, such as depth, motion, or object detectors, for semantic labeling as these cues are typically available in autonomous vehicles. Our goal is to integrate such data holistically throughout all processing stages and we show that our system outperforms comparable baseline methods, which confirms the value of multiple input modalities. Second, we aim to leverage modern deep learning methods requiring large amounts of supervised training data for street scene understanding. Therefore, we introduce Cityscapes, the first large-scale dataset and benchmark for urban scene understanding in terms of pixel- and instance-level semantic labeling. Based on this work, we compare various deep learning methods in terms of their performance on inner-city scenarios facing the challenges introduced above. Leveraging these insights, we combine suitable methods to obtain a real-time capable neural network for pixel-level semantic labeling with high classification accuracy. Third, we combine our previous results and aim for an integration of depth data from stereo vision and semantic information from deep learning methods by means of the Stixel World (Pfeiffer and Franke, 2011). To this end, we reformulate the Stixel World as a graphical model that provides a clear formalism, based on which we extend the formulation to multiple input modalities. We obtain a compact representation of the environment at real-time speeds that carries semantic as well as 3D information.

Typ des Eintrags: Dissertation
Erschienen: 2017
Autor(en): Cordts, Marius
Art des Eintrags: Erstveröffentlichung
Titel: Understanding Cityscapes: Efficient Urban Semantic Scene Understanding
Sprache: Englisch
Referenten: Roth, Prof. Dr. Stefan ; Schiele, Prof. Dr. Bernt
Publikationsjahr: 4 September 2017
Ort: Darmstadt
Datum der mündlichen Prüfung: 17 Oktober 2017
URL / URN: http://tuprints.ulb.tu-darmstadt.de/6893
Kurzbeschreibung (Abstract):

Semantic scene understanding plays a prominent role in the environment perception of autonomous vehicles. The car needs to be aware of the semantics of its surroundings. In particular it needs to sense other vehicles, bicycles, or pedestrians in order to predict their behavior. Knowledge of the drivable space is required for safe navigation and landmarks, such as poles, or static infrastructure such as buildings, form the basis for precise localization. In this work, we focus on visual scene understanding since cameras offer great potential for perceiving semantics while being comparably cheap; we also focus on urban scenarios as fully autonomous vehicles are expected to appear first in inner-city traffic. However, this task also comes with significant challenges. While images are rich in information, the semantics are not readily available and need to be extracted by means of computer vision, typically via machine learning methods. Furthermore, modern cameras have high resolution sensors as needed for high sensing ranges. As a consequence, large amounts of data need to be processed, while the processing simultaneously requires real-time speeds with low latency. In addition, the resulting semantic environment representation needs to be compressed to allow for fast transmission and down-stream processing. Additional challenges for the perception system arise from the scene type as urban scenes are typically highly cluttered, containing many objects at various scales that are often significantly occluded.

In this dissertation, we address efficient urban semantic scene understanding for autonomous driving under three major perspectives. First, we start with an analysis of the potential of exploiting multiple input modalities, such as depth, motion, or object detectors, for semantic labeling as these cues are typically available in autonomous vehicles. Our goal is to integrate such data holistically throughout all processing stages and we show that our system outperforms comparable baseline methods, which confirms the value of multiple input modalities. Second, we aim to leverage modern deep learning methods requiring large amounts of supervised training data for street scene understanding. Therefore, we introduce Cityscapes, the first large-scale dataset and benchmark for urban scene understanding in terms of pixel- and instance-level semantic labeling. Based on this work, we compare various deep learning methods in terms of their performance on inner-city scenarios facing the challenges introduced above. Leveraging these insights, we combine suitable methods to obtain a real-time capable neural network for pixel-level semantic labeling with high classification accuracy. Third, we combine our previous results and aim for an integration of depth data from stereo vision and semantic information from deep learning methods by means of the Stixel World (Pfeiffer and Franke, 2011). To this end, we reformulate the Stixel World as a graphical model that provides a clear formalism, based on which we extend the formulation to multiple input modalities. We obtain a compact representation of the environment at real-time speeds that carries semantic as well as 3D information.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Für die Umgebungserfassung autonomer Fahrzeuge ist das semantische Szenenverständnis von großer Bedeutung. Das autonome Fahrzeug muss seine Umgebung wahrnehmen und verstehen können. Insbesondere müssen andere Fahrzeuge, Fahrräder oder Fußgänger erkannt werden, um ihr Verhalten zu prädizieren. Die Basis für sichere Navigation ist ein exaktes Wissen über die befahrbare Umgebung, während eine präzise Lokalisierung mittels Landmarken (z.B. Pfeiler) oder statischer Infrastruktur (z.B. Gebäude) ermöglicht wird. Da Kameras ein großes Potenzial für die Wahrnehmung von Semantik bieten und zudem vergleichsweise günstig sind, liegt der Fokus dieser Arbeit auf dem visuellen Verstehen von Szenen. Ein weiterer Fokus liegt auf dem urbanen Umfeld, da vollautonome Fahrzeuge zuerst im innenstädtischen Verkehr erwartet werden. Nichtsdestotrotz birgt diese Aufgabe auch signifikante Herausforderungen. Obwohl Bilder informationsreich sind, ist die Semantik nicht unmittelbar verfügbar und muss zunächst durch Methoden der Bildverarbeitung, typischerweise mittels Verfahren des maschinellen Lernens, extrahiert werden. Des Weiteren haben moderne Kameras hochauflösende Sensoren, um hohe Erkennungsreichweiten zu erreichen. Als Konsequenz daraus müssen große Datenmengen verarbeitet werden, was in Echtzeit bei niedriger Latenz geschehen muss. Zusätzlich muss die resultierende semantische Umgebungsrepräsentation komprimiert werden, um eine schnelle Übertragung und Weiterverarbeitung zu ermöglichen. Weitere Herausforderungen für das System zur Umgebungserfassung ergeben sich durch den Szenentyp, da urbane Szenen typischerweise unübersichtlich sind und viele Objekte in verschiedenster Größe und mit signifikanten Verdeckungen beinhalten.

In dieser Dissertation wird effizientes urbanes semantisches Szenenverstehen für autonomes Fahren unter drei Hauptgesichtspunkten adressiert. Erstens werden die Möglichkeiten hinter der Benutzung von mehreren Eingangsmodalitäten, wie zum Beispiel Tiefe, Bewegung oder Objektdetektion, für semantisches Labeln analysiert, da diese Informationen typischerweise in autonomen Fahrzeugen verfügbar sind. Hierbei ist das Ziel, diese Daten vollständig und durchgängig in alle Verarbeitungsschritte zu integrieren, mit dem Ergebnis, dass das System die Performance von Vergleichsmethoden übertrifft, was den Wert von mehreren Inputmodalitäten bestätigt. Zweitens wird darauf abgezielt moderne Methoden aus dem Bereich Deep Learning, die große annotierte Trainingsdatenmengen benötigen, für das Verstehen von Straßenszenen einzusetzen. Dazu wird Cityscapes eingeführt, der erste großangelegte Datensatz und Benchmark für urbanes Szenenverstehen mittels semantischem Labeln auf Pixel- und Instanzebene. Basierend auf dieser Arbeit werden verschiedene Methoden des Deep Learnings hinsichtlich ihrer Performance auf Innenstadtszenarien bezüglich obiger Herausforderungen verglichen. Auf Basis dieser Erkenntnisse werden geeignete Methoden kombiniert, um ein echtzeitfähiges neuronales Netz für semantisches Labeln auf Pixel-Ebene mit hoher Klassifikationsgenauigkeit zu erhalten. Drittens werden die vorigen Ergebnisse mit dem Ziel kombiniert, Tiefendaten aus Stereobildverarbeitung und semantische Informationen von Deep Learning-Methoden mit Hilfe der Stixel Welt (Pfeiffer and Franke, 2011) zu integrieren. Zu diesem Zweck wird die Stixel Welt als graphisches Modell umformuliert, so dass ein klarer Formalismus existiert, auf Basis dessen das Modell auf mehrere Eingangsmodalitäten erweitert wird. Resultierend ergibt sich eine kompakte Repräsentation der Umgebung, die in Echtzeit berechnet werden kann und semantische sowie 3D Informationen beinhaltet.

Deutsch
URN: urn:nbn:de:tuda-tuprints-68935
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik > Visuelle Inferenz
20 Fachbereich Informatik
Hinterlegungsdatum: 12 Nov 2017 20:55
Letzte Änderung: 25 Jan 2018 07:41
PPN:
Referenten: Roth, Prof. Dr. Stefan ; Schiele, Prof. Dr. Bernt
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 17 Oktober 2017
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen