Latent State-Space Models for Control

Becker-Ehmck, Philip (2022)
Latent State-Space Models for Control.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00022489
Learning to control robots without human supervision and prolonged engineering effort has been a long-term dream in the intersection of machine learning and robotics. If successful, it would enable many novel applications from soft robotics over human-robot interaction to quick adaptation to unseen tasks or robotic setups. A key driving force behind this dream are inherit limitations of classical control algorithms that restrict applicability to low-dimensional and engineered state-spaces, prohibiting the use of high-dimensional sensors such cameras or touchpads. As an alternative to classical control methods, reinforcement learning presumes no prior knowledge of a robot's dynamics and paired with deep learning opens the door to use high-dimensional sensory information of any kind. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand for real-world interactions (among other reasons). Model-based approaches promise to be much more data efficient, but present the challenge of engineering accurate simulators. As building a simulator comes with many of the same challenges as designing a controller, using engineered simulators is not a satisfactory solution for the generic goal of learning to control; most of the engineering work would still have to be done to build the simulator. Instead, learning such a model, in particular a latent state-space model (LSSM), promises to resolve us from engineering a simulator while still reaping the benefits of having one. A learned latent space can compactly represent high-dimensional sensor information and store all relevant information for prediction and control. In this thesis, we show how to perform system identification of complex and nonlinear systems based on high-dimensional observations purely from raw sensory data. Despite their complexity, such systems can often be approximated well by a set of linear dynamical systems if broken into appropriate subsequences. This mechanism not only helps us find good approximations of dynamics, but also gives us deeper insight into the underlying system. Combining Bayesian inference, Variational Autoencoders and Concrete relaxations, we show how to learn a richer and more meaningful state-space, for example by encoding joint constraints or collisions with walls in a maze, from partial and high-dimensional observations. In a setting with time-varying dynamics, we show how our inference method for continuous switching variables can infer changing but unobserved physical properties that govern the dynamics of a system, such as masses or link lengths in robotic simulations. This inference happens online in our learned filter without retraining or fine-tuning of model parameters. Quantitatively, we find that such representations translate into a gain of accuracy of learned dynamics showcased on various simulated tasks and that they promise to be helpful for policy optimization. Building on this work, we show how this LSSM can be used to learn a probabilistic model of real-world robot dynamics, such as from a self-built drone and a 7 degrees of freedom robot arm. No prior knowledge of the flight dynamics or kinematics is assumed. On top, we propose a novel model-based reinforcement learning method where both a parameterized policy and value function are optimized entirely by propagating stochastic analytic gradients through generated latent trajectories. Our learned thrust-attitude controller can fly a drone to a randomly placed marker in an enclosed environment, and steer a joint velocity controlled robot arm to random end effector positions in Cartesian space. This can be achieved with less than an hour of interactions on the real system. The control policy is learned entirely in the learned simulator and can be applied without modification or fine-tuning to the real system. Last, we propose a novel exploration criterion for the development of autonomous agents: Empowerment Gain. Different to other exploration criteria, this approach ties together an agent's entire perception-control loop and its current capabilities to act. Perspectively, this method will help us learn models of the world that are actually relevant to realizing an agent's influence in the world. As a key insight, our learned models do not actually have to be perfect simulators of the entire world and all of its processes, rather they need to convey the information necessary to enable an agent to interact with the world around him. We show how this criterion compares to, and in some ways incorporates, other intrinsic motivations such as novelty seeking, surprise minimization and learning progress. While our method still ensures exploration of the entire space, it prefers regions with greater potential for realizing an agent's influence in the world. In conclusion, we give answers to three major questions: (1) how do we learn a LSSM from raw sensory data, (2) how do we use it for control and (3) what parts of the world do we need to explore and model in the first place. While the last part remains in a theoretical and conceptual stage, we demonstrate the first two on two different real-world robotic platforms. We focused on proposing general purpose methods that are as broadly applicable as they can be, but are still successful in a real-world setting.

Typ des Eintrags: Dissertation
Erschienen: 2022
Autor(en): Becker-Ehmck, Philip
Art des Eintrags: Erstveröffentlichung
Titel: Latent State-Space Models for Control
Sprache: Englisch
Referenten: Peters, Prof. Dr. Jan ; Hutter, Prof. Dr. Marco
Publikationsjahr: 2022
Ort: Darmstadt
Kollation: xiii, 129 Seiten
Datum der mündlichen Prüfung: 26 September 2022
DOI: 10.26083/tuprints-00022489
URL / URN: https://tuprints.ulb.tu-darmstadt.de/22489
Das Lernen der Regelung von Robotern ohne menschliche Betreuung und zeitraubende spezifische Entwicklungsarbeit ist ein langwährender Traum in der Schnittstelle von Machine Learning und Robotik. Falls von Erfolg gekrönt, würde dies viele neue Anwendungsfälle eröffnen, wie zum Beispiel Soft Robotics, Mensch-Maschine-Interaktionen oder die schnelle Anpassung an neuartige Aufgaben oder neue robotische Systeme. Getrieben ist dieser Traum von unüberwindbaren Limitierungen klassischer Regelungsverfahren, wie der Beschränkung auf niedrigdimensionale Zustandsräume. Als Alternative zu klassischen Regelungsverfahren benötigt Reinforcement Learning kein Vorwissen über etwaige Roboterdynamiken und zusammen mit Deep Learning Methoden öffnet es die Tür zur Verwendung hochdimensionaler Sensorinformation wie Kameras oder Behrüngssensoren. Trotz dieser Versprechungen hat Reinforcement Learning (RL) bisher nur begrenzten Erfolg in der Regelung von echten Robotern aufgrund seiner Datenineffizienz (unter anderem). Modellbasierte Methoden versprechen hier Abhilfe zu schaffen, setzen aber die Erstellungen eines präzisen Simulators voraus. Eben diese kommt allerdings bereits mit vielen der Herausforderungen, die auch klassische Regelungsverfahren unterlegen sind, und daher sind sie keine ideale Option, wenn man tatsächlich universelle Methoden zur Regelung entwickeln möchte. Stattdessen erscheint das Lernen eines Solchen die eigentliche Lösung. Ein gelernter Zustandsraum kann hochdimensionale Sensoren kompakt darstellen, während er immernoch alle Informationen beinhaltet, die für die Vorhersage und Regelung von Bedeutung sind. In dieser Arbeit zeigen wir, wie man Systemidentifikation von komplexen und nicht-linearen Systemen basierend auf hochdimensionalen Sensordaten durch allgemeine Lernverfahren bewerkstelligen kann. Trotz ihrer Komplexität sind solche Systeme oft durch eine Anzahl an linearen Systemen gut zu approximieren - falls man den Zustandsraum entsprechend aufteilen kann. Dieser Mechanismus erlaubt uns nicht nur eine gute Approximation der Dynamik zu finden, er gibt uns auch Einsicht in das zugrundeliegende System. Mittels Variational Inference, Deep Learning und einer kontinuierlichen Approximation diskreter Zufallsvariablen, zeigen wir, wie man eine interpretierbare Zustandsraumdarstellung lernt, die Konzepte wie Geschwindigkeit und Beschränkungen durch Wände aus hochdimensionalen und unvollständigen Beobachtungen explizit extrahiert. In Szenarien mit zeitvarianten Systemdynamiken zeigen wir, wie unsere Methode die der Veränderung zugrundeliegenden, aber unbeobachteten, Systemvariablen, wie zum Beispiel Massen oder Längen in Robotiksimulationen, automatisch inferieren kann. Diese Inferenz geschieht dabei als Teil unseres gelernten Filters und ohne erneutes Anpassen der Modellparameter. Diese gelernte Zustandsraumdarstellung führt nicht nur zu einer verbesserten Vorhersagefähigkeit, sondern stellt sich auch als gute Informationsquelle für eine gelernte Policy heraus. Aufbauend auf dieser Arbeit zeigen wir, wie man diese Methode verwenden kann, um echte Roboterdynamiken zu approximeren - wie die einer selbst gebauten Drohne und die eines Roboterarms. Kein Vorwissen über die Flugdynamik oder die Kinematik wird vorausgesetzt. Darauf aufgesetzt zeigen wir, wie man eine parametrisierte Policy und Value Function damit optimieren kann; ganz allein basierend auf simulierten Erfahrungen und deren Gradienten. Solch eine gelernte Policy kann eine Drohne zu einem bestimmten Ort fliegen oder den Endeffektor eines Roboterarms an einen zufälligen kartesischen Ort durch direkte Kontrolle der Gelenke fahren. Das Ganze wird erreicht mit unter einer Stunde an Erfahrungen in der echten Welt. Die gelernte Policy ist ausschließlich im gelernten Simulator optimiert und kann auf die echte Welt ohne weitere Veränderungen erfolgreich übertragen werden. Anschließend schlagen wir ein neuartiges Kriterium zur Exploration für autonome Agenten vor: Empowerment Gain. Anders als andere Explorationskriterien umfasst diese Methode die komplette Wahrnehmungs-Handlungs-Schleife, sowie die aktuellen Handlungsfähigkeiten eines Agenten. Perspektivisch wird diese Methode uns helfen Zustandsraumdarstellungen zu lernen, die tatsächlich relevant für die Regelung von Systemen sind. Eine Schlüsselbeobachtung dieser Arbeit ist, dass wir kein Modell der Welt in ihrer Gesamtheit lernen müssen, wir benötigen lediglich ein Modell, dass uns erfolgreiche Interaktion mit der Umwelt erlaubt. Wir vergleichen dieses Kriterium zu bekannten Kriterien wie Novelty Seeking, Surprise Maximization oder Learning Progress und zeigen auf, wie es jene, in einer gewissen Weise, beinhaltet. Während unsere Methode weiterhin garantiert den gesamten Beobachtungsraum zu erforschen, bevorzugt sie jene Bereiche, in der ein Agent mehr potenziellen Einfluss auf die Welt entwickeln kann. Schlussendlich geben wir in dieser Arbeit eine Antwort zu drei großen Fragen: (1) wie lerne ich Zustandsraumdarstellungen basierend auf beliebigen Sensordaten, (2) wie verwende ich diese Darstellung zur Regelung und (3) welche Teile der Welt muss ich eigentlich explorieren und modellieren. Während der letzte Teil in der konzeptuellen und theoretischen Phase verweilt, demonstrieren wir die ersten beiden Antworten in der echten Welt auf zwei ganz unterschiedlichen Systemen. Obwohl wir eine erfolgreiche Anwendung auf zwei konkreten Systemen beleuchten, sind die entwickelten Methoden sehr allgemein gehalten und deutlich genereller anwendbar.

Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-224895
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
600 Technik, Medizin, angewandte Wissenschaften > 600 Technik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften und Maschinenbau
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme
Hinterlegungsdatum: 25 Nov 2022 12:34
Letzte Änderung: 28 Nov 2022 09:06
Referenten: Peters, Prof. Dr. Jan ; Hutter, Prof. Dr. Marco
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 26 September 2022
