TU Darmstadt / ULB / TUbiblio

Optimal Spatial Registration of SLAM for Augmented Reality

Wientapper, Folker (2019):
Optimal Spatial Registration of SLAM for Augmented Reality.
Darmstadt, Technische Universität, [Online-Edition: https://tuprints.ulb.tu-darmstadt.de/8565],
[Ph.D. Thesis]

Abstract

Augmented reality (AR) is a paradigm that aims at fusing the perceived real environment of a human with digital information located in 3D space. Typically, virtual 3D graphics are overlayed into the captured images of a moving camera or directly into the user's field-of-view by means of optical see-through displays (OST). For a correct perspective and view-dependent alignment of the visualization, it is required to solve various static and dynamic geometric registration problems in order to create the impression that the virtual and the real world are seamlessly interconnected.

The advances during the last decade in the field of simultaneous localization and mapping (SLAM) represent an important contribution to this general problem. It is now possible to reconstruct the real environment and to simultaneously capture the dynamic movements of a camera from the images without having to instrument the environment in advance. However, SLAM in general can only partly solve the entire registration problem, because the retrieved 3D scene geometry and the calculated motion path are spatially related only with regard to an arbitrarily selected coordinate system. Without a proper reconciliation of coordinate systems (spatial registration), the real world of the human observer still remains decoupled from the virtual world. Existing approaches for solving this problem either require the availability of a virtual 3D model that represents a real object with sufficient accuracy (model-based tracking), or they rely on use-case specific assumptions and additional sensor data (such as GPS signals or the Manhattan-world assumption). Therefore, these approaches are bound to these additional prerequisites, which limit the general applicability. The circumstance that automated registration is desirable but not always possible, creates the need for techniques that allow a user to specify connections between the real and the virtual world when setting up AR applications, so that it becomes possible to support and control the process of registration. These techniques must be complemented with numerical algorithms that optimally exploit the provided information to obtain precise registration results.

Within this context, the present thesis provides the following contributions.

* We propose a novel, closed-form (non-iterative) algorithm for calculating a Euclidean or a similarity transformation. The presented algorithm is a generalization of recent state-of-the-art solvers for computing the camera pose based on 2D measurement points in the image (perspective-n-point problem) - a fundamental problem in computer vision that has attracted research for many decades. The generalization consists in extending and unifying these algorithms, so that they can handle other types of input correspondences than originally designed for. With this algorithm, it becomes possible to perform a rigid registration of SLAM systems to a target coordinate system based on heterogeneous and partially indeterminate input data.

* We address the global refinement of structure and motion parameters by means of iterative sparse minimization (bundle adjustment or BA), which has become a standard technique inside SLAM systems. We propose a variant of BA in which information about the virtual domain is integrated as constraints by means of an optimization-on-manifold approach. This serves for compensating low-frequency deformations (non-rigid registration) of the estimated camera path and the reconstructed scene geometry caused by measurement error accumulation and the ill-conditionedness of the BA problem.

* We present two approaches in which a user can contribute with his knowledge for registering a SLAM system. In a first variant, the user can place markers in the real environment with predefined connections to the virtual coordinate system. Precise positioning of the markers is not required, rather they can be placed arbitrarily on surfaces or along edges, which notably facilitates the preparative effort. During run-time, the dispersed information is collected and registration is accomplished automatically. In a second variant, the user is given the possibility to mark salient points in an image sequence during a preparative preprocessing step and to assign corresponding points in the virtual 3D space via a simple point-and-click metaphor. The result of this preparative phase is a precisely registered and ready-to-use reference model for camera tracking at run-time.

* Finally, we propose an approach for geometric calibration of optical see-trough displays. We present a parametric model, which allows to dynamically adapt the rendering of virtual 3D content to the current viewpoint of the human observer, including a pre-correction of image aberrations caused by the optics or irregularly curved combiners. In order to retrieve its parameters, we propose a camera-based approach, in which elements of the real and the virtual domain are simultaneously observed. The calibration procedure was developed for a head-up display in a vehicle. A prototypical extension to head-mounted displays is also presented.

Item Type: Ph.D. Thesis
Erschienen: 2019
Creators: Wientapper, Folker
Title: Optimal Spatial Registration of SLAM for Augmented Reality
Language: English
Abstract:

Augmented reality (AR) is a paradigm that aims at fusing the perceived real environment of a human with digital information located in 3D space. Typically, virtual 3D graphics are overlayed into the captured images of a moving camera or directly into the user's field-of-view by means of optical see-through displays (OST). For a correct perspective and view-dependent alignment of the visualization, it is required to solve various static and dynamic geometric registration problems in order to create the impression that the virtual and the real world are seamlessly interconnected.

The advances during the last decade in the field of simultaneous localization and mapping (SLAM) represent an important contribution to this general problem. It is now possible to reconstruct the real environment and to simultaneously capture the dynamic movements of a camera from the images without having to instrument the environment in advance. However, SLAM in general can only partly solve the entire registration problem, because the retrieved 3D scene geometry and the calculated motion path are spatially related only with regard to an arbitrarily selected coordinate system. Without a proper reconciliation of coordinate systems (spatial registration), the real world of the human observer still remains decoupled from the virtual world. Existing approaches for solving this problem either require the availability of a virtual 3D model that represents a real object with sufficient accuracy (model-based tracking), or they rely on use-case specific assumptions and additional sensor data (such as GPS signals or the Manhattan-world assumption). Therefore, these approaches are bound to these additional prerequisites, which limit the general applicability. The circumstance that automated registration is desirable but not always possible, creates the need for techniques that allow a user to specify connections between the real and the virtual world when setting up AR applications, so that it becomes possible to support and control the process of registration. These techniques must be complemented with numerical algorithms that optimally exploit the provided information to obtain precise registration results.

Within this context, the present thesis provides the following contributions.

* We propose a novel, closed-form (non-iterative) algorithm for calculating a Euclidean or a similarity transformation. The presented algorithm is a generalization of recent state-of-the-art solvers for computing the camera pose based on 2D measurement points in the image (perspective-n-point problem) - a fundamental problem in computer vision that has attracted research for many decades. The generalization consists in extending and unifying these algorithms, so that they can handle other types of input correspondences than originally designed for. With this algorithm, it becomes possible to perform a rigid registration of SLAM systems to a target coordinate system based on heterogeneous and partially indeterminate input data.

* We address the global refinement of structure and motion parameters by means of iterative sparse minimization (bundle adjustment or BA), which has become a standard technique inside SLAM systems. We propose a variant of BA in which information about the virtual domain is integrated as constraints by means of an optimization-on-manifold approach. This serves for compensating low-frequency deformations (non-rigid registration) of the estimated camera path and the reconstructed scene geometry caused by measurement error accumulation and the ill-conditionedness of the BA problem.

* We present two approaches in which a user can contribute with his knowledge for registering a SLAM system. In a first variant, the user can place markers in the real environment with predefined connections to the virtual coordinate system. Precise positioning of the markers is not required, rather they can be placed arbitrarily on surfaces or along edges, which notably facilitates the preparative effort. During run-time, the dispersed information is collected and registration is accomplished automatically. In a second variant, the user is given the possibility to mark salient points in an image sequence during a preparative preprocessing step and to assign corresponding points in the virtual 3D space via a simple point-and-click metaphor. The result of this preparative phase is a precisely registered and ready-to-use reference model for camera tracking at run-time.

* Finally, we propose an approach for geometric calibration of optical see-trough displays. We present a parametric model, which allows to dynamically adapt the rendering of virtual 3D content to the current viewpoint of the human observer, including a pre-correction of image aberrations caused by the optics or irregularly curved combiners. In order to retrieve its parameters, we propose a camera-based approach, in which elements of the real and the virtual domain are simultaneously observed. The calibration procedure was developed for a head-up display in a vehicle. A prototypical extension to head-mounted displays is also presented.

Place of Publication: Darmstadt
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Fraunhofer IGD
20 Department of Computer Science > Mathematical and Applied Visual Computing
Date Deposited: 31 Mar 2019 19:55
Official URL: https://tuprints.ulb.tu-darmstadt.de/8565
URN: urn:nbn:de:tuda-tuprints-85655
Referees: Kuijper, Prof. Dr. Arjan and Fellner, Prof. Dr. Dieter W. and Stricker, Prof. Dr. Didier
Refereed / Verteidigung / mdl. Prüfung: 15 March 2019
Alternative Abstract:
Alternative abstract Language
Erweiterte Realität (AR) bezeichnet ein Paradigma, welches darauf abzielt, die wahrgenommene, reale Umgebung eines Menschen mit im 3D-Raum verorteten, digitalen Informationen zu verschmelzen. Typischerweise werden dabei in Echtzeit virtuelle 3D Grafiken in die aufgenommenen Bilder einer sich bewegenden Kamera oder direkt in das Sichtfeld des Nutzers über optische Durchsichtanzeigen eingebettet. Die perspektivisch korrekte und lagerichtige Darstellung erfordert hierzu die Lösung verschiedener statischer und dynamischer Registrierungsprobleme, um den Eindruck zu erzeugen, dass die virtuelle und die reale Welt nahtlos miteinander verbunden sind. Die im letzten Jahrzehnt erreichten Fortschritte im Bereich simultaner Lokalisierung und Kartierung (SLAM) liefern hierzu einen wichtigen Beitrag. Hiermit ist es möglich, die reale Umgebung zu rekonstruieren und dabei gleichzeitig die dynamische Eigenbewegung einer Kamera aus den Bildern zu erfassen, ohne dass die Umgebung hierzu präpariert werden muss. Dennoch löst SLAM damit nur einen Teil des gesamten Registrierungsproblems, da die erstellte 3D Szenengeometrie und der berechnete Bewegungspfad räumlich nur in Bezug zu einem frei gewählten Koordinatensystem gesetzt wird. Ohne einen entsprechenden Abgleich der Koordinatensysteme bleibt die reale Welt des menschlichen Beobachters stets von der virtuellen Welt entkoppelt. Bestehende Ansätze zur Lösung dieses Problems erfordern entweder die Verfügbarkeit eines virtuellen 3D-Modells, welches einem realen Objekt mit ausreichender Genauigkeit entsprechen muss (modellbasiertes Tracking), oder sie stützen sich auf anwendungsfallspezifische Annahmen und zusätzliche Sensordaten (wie GPS-Signale oder der "Manhattan Welt"-Annahme), welches die allgemeine Anwendbarkeit dieser Verfahren einschränkt. Der Umstand, dass eine automatisierte Registrierung wünschenswert jedoch nicht immer möglich ist, schafft den Bedarf an Techniken, mit denen ein Benutzer beim Einrichten von AR-Anwendungen Verbindungen zwischen der realen und der virtuellen Welt spezifizieren und somit die Registrierung begleiten und kontrollieren kann. Diese Techniken benötigen die Unterstützung durch numerische Algorithmen, welche die Informationen optimal ausnutzen, um somit genaue Registrierungsergebnisse zu erreichen. In diesem Zusammenhang liefert die vorliegende Arbeit die folgenden Beiträge. * Es wird ein neuartiger, nicht-iterativer Algorithmus zur Berechnung einer euklidischen Transformation oder einer Ähnlichkeitstransformation präsentiert. Der vorgestellte Algorithmus stellt eine Verallgemeinerung neuester Ansätze zur Berechnung der Kameraposition und -Orientierung anhand von 2D-Messpunkten im Bild dar (räumlicher Rückwärtsschnitt) - ein grundlegendes Problem im Bereich des maschinellen Sehens mit einer langen Forschungshistorie. Die Verallgemeinerung besteht darin, diese Algorithmen so zu erweitern und zu vereinheitlichen, dass sie mit anderen Arten von Eingangskorrespondenzen als ursprünglich vorgesehen umgehen können. Der Algorithmus ermöglicht es, eine rigide Registrierung von SLAM-Systemen zu einem Zielkoordinatensystem auf der Grundlage heterogener und partiell unbestimmter Eingangsdaten durchzuführen. * Zudem wird die globale Minimierung von Struktur- und Bewegungsparametern durch den Bündelblockausgleich (BA) addressiert, welcher sich als Standardtechnik innerhalb von SLAM-Systemen etabliert hat. In dieser Arbeit wird hierzu eine Variante des BA vorgeschlagen, bei der Informationen über die virtuelle Domäne als Gleichheitsnebenbedingungen integriert werden, wobei hierfür als Technik eine Parameteroptimierung entlang ihrer zugehörigen Mannigfaltigkeiten gewählt wird. Die Integration der Nebenbedigungen erfolgt mit dem Ziel, niederfrequente Deformationen (nicht-rigide Registrierung) des geschätzten Kamerapfades und der rekonstruierten Szenengeometrie zu kompensieren, welche durch die Messfehlerakkumulation und die schlechte Konditioniertheit des BA-Minmierungsproblems verursacht werden. * Weiterhin werden zwei Ansätze vorgestellt, bei denen ein Benutzer mit seinem Wissen zur Registrierung eines SLAM-Systems beitragen kann. In einer ersten Variante kann der Benutzer in der realen Umgebung Marker mit vordefinierten Verbindungen zum virtuellen Koordinatensystem platzieren. Eine genaue Positionierung der Marker ist nicht erforderlich, vielmehr können sie beliebig auf Oberflächen oder entlang von Kanten platziert werden, was den präparativen Aufwand erheblich reduziert. Zur Laufzeit werden dann die verteilten Informationen erfasst und die Registrierung des SLAM erfolgt automatisch. In einer zweiten Variante hat der Benutzer im Rahmen eines Vorverarbeitungsschrittes die Möglichkeit, markante Punkte in einer bereits aufgenommenen Bildsequenz zu selektieren und entsprechenden Punkten im virtuellen 3D-Raum über eine einfache Nutzerschnittstelle zuzuordnen. Das Ergebnis dieser Vorbereitung ist ein präzise registriertes Referenzmodel, welches zur Laufzeit unmittelbar zur Kameraverortung eingesetzt werden kann. * Schließlich wird ein Ansatz zur geometrischen Kalibrierung optischer Durchsichtanzeigen vorgeschlagen. Es wird ein parametrisches Modell vorgestellt, mit dem das Rendern von virtuellem 3D-Inhalt an den aktuellen Blickpunkt des menschlichen Beobachters dynamisch angepasst werden kann, einschließlich einer Vorkorrektur der durch die Optik oder unregelmäßig gekrümmter Kombinatoren verursachten Bildverzerrungen. Um die Modellparameter zu ermitteln, wird ein kamerabasierter Ansatz vorgeschlagen, bei dem Elemente der realen und der virtuellen Domäne gleichzeitig erfasst werden. Das Kalibrierungsverfahren wurde examplarisch für ein Head-up-Display in einem Fahrzeug entwickelt. Eine prototypische Erweiterung für Head-Mounted-Displays wird ebenfalls vorgestellt.German
Export:
Suche nach Titel in: TUfind oder in Google

Optionen (nur für Redakteure)

View Item View Item