TU Darmstadt / ULB / TUbiblio

Pose Estimation and Loop Closing from Video Data

Konrad, Stepan :
Pose Estimation and Loop Closing from Video Data.
[Online-Edition: http://tuprints.ulb.tu-darmstadt.de/id/eprint/5394]
Technische Universität Darmstadt , Darmstadt
[Bachelorarbeit], (2014)

Offizielle URL: http://tuprints.ulb.tu-darmstadt.de/id/eprint/5394

Kurzbeschreibung (Abstract)

In robotics the simultaneous localisation and mapping (SLAM) algorithms are a well studied approach to estimate the position of a robot vehicle while creating a map of the surrounding. The majority of these algorithms use odometry or GPS sensors to cope with large outdoor trajectories. From a similar point of view the computer vision community uses structure from motion (SfM) algorithms to estimate accurate camera poses of an unconstrained image data set. In the past few years the video resolution of consumer cameras has reached a level where it becomes attractive for research purposes as input to these algorithms.

The goal of this thesis is to adapt an SfM approach to use this video data. However there are two main problems: The approach has to handle a large number of input frames efficiently while still detecting similar previously seen locations (loops) of the input data without performing an exhaustive matching of all image pairs. This thesis presents an approach using a vocabulary tree guided matching scheme which solves this problem. Performance is compared to exhaustive matching on different input scenes.

However, this is still not sufficient to reconstruct large datasets that contain loop closures in the camera path. Due to the incremental manner of the majority of SfM algorithms, drifts occur during the estimation of camera poses. In this thesis different solutions to this problems are discussed. One specific solution using a global bundle adjustment with additional loop closing constraints is demonstrated on a large outdoor scene containing multiple loops.

Typ des Eintrags: Bachelorarbeit
Erschienen: 2014
Autor(en): Konrad, Stepan
Titel: Pose Estimation and Loop Closing from Video Data
Sprache: Englisch
Kurzbeschreibung (Abstract):

In robotics the simultaneous localisation and mapping (SLAM) algorithms are a well studied approach to estimate the position of a robot vehicle while creating a map of the surrounding. The majority of these algorithms use odometry or GPS sensors to cope with large outdoor trajectories. From a similar point of view the computer vision community uses structure from motion (SfM) algorithms to estimate accurate camera poses of an unconstrained image data set. In the past few years the video resolution of consumer cameras has reached a level where it becomes attractive for research purposes as input to these algorithms.

The goal of this thesis is to adapt an SfM approach to use this video data. However there are two main problems: The approach has to handle a large number of input frames efficiently while still detecting similar previously seen locations (loops) of the input data without performing an exhaustive matching of all image pairs. This thesis presents an approach using a vocabulary tree guided matching scheme which solves this problem. Performance is compared to exhaustive matching on different input scenes.

However, this is still not sufficient to reconstruct large datasets that contain loop closures in the camera path. Due to the incremental manner of the majority of SfM algorithms, drifts occur during the estimation of camera poses. In this thesis different solutions to this problems are discussed. One specific solution using a global bundle adjustment with additional loop closing constraints is demonstrated on a large outdoor scene containing multiple loops.

Ort: Darmstadt
Freie Schlagworte: Pose estimation, Structure from Motion, SfM, 3D Scene reconstruction, Optimization, Loop Closing
Fachbereich(e)/-gebiet(e): Fachbereich Informatik > Graphics, Capture and Massively Parallel Computing
Fachbereich Informatik > Graphics, Capture and Massively Parallel Computing
Hinterlegungsdatum: 12 Jun 2016 19:55
Offizielle URL: http://tuprints.ulb.tu-darmstadt.de/id/eprint/5394
URN: urn:nbn:de:tuda-tuprints-53940
Gutachter / Prüfer: Goesele, Prof. Michael ; Fuhrmann, Dr.-Ing. Simon
Datum der Begutachtung bzw. der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 23 Januar 2015
Alternatives oder übersetztes Abstract:
AbstractSprache
Simultaneous Localisation and Mapping (SLAM) ist ein gründlich untersuchtes Forschungsfeld der Robotik um gleichzeitig die Position eines Roboters zu bestimmen und die Umgebung zu kartographieren. Die Mehrheit dieser Algorithmen nutzt zusätzlich GPS oder Odometriedaten um längere Außenaufnahmen verarbeiten zu können. Von einem ähnlichen Standpunkt aus wird in der Computer Vision Gemeinschaft ein Algorithmus namens Structure from Motion (SfM) benutzt, um akkurate Kamerapositionen von einem beliebigen Bilddatensatz zu estimieren. In den letzten Jahren wurde die Videoauflösung von handelsüblichen Kameras so gut, dass diese Videodaten als Eingabe für diese Algorithmen genutzt werden konnten. Das Ziel dieser Arbeit ist es, ein SfM Verfahren so anzupassen, dass es diese Videodaten verarbeiten kann. Dabei entstehen zwei Probleme: Der Ansatz muss eine große Anzahl von Eingabebildern effizient verarbeiten können und trotzdem ähnliche, bereits gesehene Orte in den Eingabedaten erkennen können. Dies muss möglich sein, ohne ein vollständiges Vergleichen (Exhaustive Matching) aller Bildpaare durchzuführen. Diese Arbeit prästentiert einen Ansatz, der das Matching mit einem sog. Vocabulary Tree beschleunigt. Die Geschwindigkeitsvorteil gegenüber dem Exhaustive Matching wird an verschiedenen Szenen präsentiert. Dies allein reicht jedoch nicht aus, um große Datensätze, die Schleifen in dem Kamerapfad enthalten, rekonstruieren zu können. Da die Mehrheit der SfM Algorithmen inkrementell arbeitet, treten Drifts während der Rekonstruktion der Kamerapositionen auf. In dieser Arbeit werden verschiedene Lösungsansätze vorgestellt. Eine Lösung, die eine Bündelblockausgleichung mit zusätzlichen Nebenbedingungen zum Schließen von Schleifen nutzt, wird an einem großen außen aufgenommenen Datensatz mit mehreren Schleifen demonstriert.Deutsch
Export:

Optionen (nur für Redakteure)

Eintrag anzeigen Eintrag anzeigen