TU Darmstadt / ULB / TUbiblio

Parsing Motion and Composing Behavior for Semi-Autonomous Manipulation

Lioutikov, Rudolf (2018)
Parsing Motion and Composing Behavior for Semi-Autonomous Manipulation.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Robots are becoming an ever bigger part of our day to day life. They take up simple tasks in households, like vacuum cleaning and lawn mowing. They ensure a steady and reliable process at many work places in large scale manufacturing, like the automotive and electronics industry. Furthermore, robots are becoming more and more socially accepted, for instance as autonomous drivers. They even start to engage in special and elderly care, aiming to fill a void created by a rapidly aging population. Additionally, the increasing complexity and capability of robotic systems allows to solve ever more complicated tasks in increasingly difficult scenarios and environments. Soon, encountering and interacting with robots will be considered as natural as interacting with other humans.

However, when it comes to defining and understanding the behavior of robots, experts are still necessary. Robots usually follow predefined routines which are programmed and tuned by people with years of experience. Unintended behavior is traced back to a certain part of the source code which can be modified using a specific programming language. Most of the people that will interact with robotic servants or coworkers in the future, will not have the necessary skill set to instruct robots in such detail. This need for an expert represents a significant bottleneck to the deployment of robots as our everyday companion in households and at work. This thesis presents several novel approaches aiming at facilitating the interaction between non-expert humans and robots in terms of intuitive instruction and simple understanding of the robot capabilities with respect to a given task.

Chapter 3 introduces a novel method that segments unlabeled demonstrations into sequence of movement primitives while simultaneously learning a movement primitive library. This method allows the non-expert to teach an entire task rather than every single primitive. Movement primitives represent a simple, atomic and commonly parameterized motion. The presented method segments each demonstration by identifying similar patterns across all demonstrations and treating them as samples drawn from a learned probabilistic representation of a movement primitive. The method is formulated as an expectation-maximization approach and was evaluated in several tasks,including a chair assembly and segmenting table tennis demonstrations.

In Chapter 4 the previously segmented demonstrations and the learned primitive library are used to induce a formal grammar for movements. Formal grammars are a well established concept in formal language theory and have been applied in several fields, reaching from linguistics, over compiler architecture to robotics. The simplest class of grammars, regular grammars, correspond in their probabilistic form to Hidden Markov Models. However, the intuitive, hierarchical representation of transitions as a set of rules makes it easier for non-experts to comprehend the possible behaviors the grammar implies. A sequence of movements can now be considered a sentence produced by the learned grammar. The production of each sentence can be illustrated by a tree structure, allowing an easy understanding of the involved rules. Probabilistic context-free grammars are a superset of regular grammars and, hence, are more expressive and exceed the capabilities of Hidden Markov Models. While the induction of probabilistic context-free grammars is considered a difficult, unsolved problem for natural languages, the observed sequences of movement primitives show much simpler structures, making the induction more feasible. The method was successfully evaluated on several tasks, such as a pick-and-place task in a tic-tac-toe setting or a handover task in a collaborative tool box assembly.

Chapter 5 introduces the concept of reinforcement learning into the domain of formal grammars. Given an objective, we apply a natural policy gradient approach in order to learn the grammar parameters that produces sequences of primitives that solve that objective. This allows the autonomous improvement of robot behavior. For instance, a cleaning up task can be optimized for efficiency while avoiding self collisions. The parameters of the grammar are the probabilities of each production. Therefore, probability constraints have to be maintained while learning the parameters. The applied natural policy gradient method ensures reasonably small parameter updates, such that the grammar probabilities change gradually. We derive the natural policy gradient method for formal grammars and evaluate the method on several tasks.

Together, the individual contributions presented in this thesis form an imitation learning pipeline that facilitates the instruction, interaction and collaboration with robots. Starting from unlabeled demonstrations, an underlying movement primitive library is learned while simultaneously segmenting the given demonstrations into sequences of primitives. These sequences are than used to induce a formal grammar. The structure of the grammar and the produced parse trees form a comprehensible representation of the robot capabilities with respect to the demonstrated task. Finally, a reinforcement learning approach allows the autonomous optimization of the grammar given an objective.

Typ des Eintrags: Dissertation
Erschienen: 2018
Autor(en): Lioutikov, Rudolf
Art des Eintrags: Erstveröffentlichung
Titel: Parsing Motion and Composing Behavior for Semi-Autonomous Manipulation
Sprache: Englisch
Referenten: Peters, Prof. Dr. Jan R. ; Goldberg, Prof. PhD Ken
Publikationsjahr: 31 Juli 2018
Ort: Darmstadt
Datum der mündlichen Prüfung: 1 Oktober 2018
URL / URN: https://tuprints.ulb.tu-darmstadt.de/9114
Kurzbeschreibung (Abstract):

Robots are becoming an ever bigger part of our day to day life. They take up simple tasks in households, like vacuum cleaning and lawn mowing. They ensure a steady and reliable process at many work places in large scale manufacturing, like the automotive and electronics industry. Furthermore, robots are becoming more and more socially accepted, for instance as autonomous drivers. They even start to engage in special and elderly care, aiming to fill a void created by a rapidly aging population. Additionally, the increasing complexity and capability of robotic systems allows to solve ever more complicated tasks in increasingly difficult scenarios and environments. Soon, encountering and interacting with robots will be considered as natural as interacting with other humans.

However, when it comes to defining and understanding the behavior of robots, experts are still necessary. Robots usually follow predefined routines which are programmed and tuned by people with years of experience. Unintended behavior is traced back to a certain part of the source code which can be modified using a specific programming language. Most of the people that will interact with robotic servants or coworkers in the future, will not have the necessary skill set to instruct robots in such detail. This need for an expert represents a significant bottleneck to the deployment of robots as our everyday companion in households and at work. This thesis presents several novel approaches aiming at facilitating the interaction between non-expert humans and robots in terms of intuitive instruction and simple understanding of the robot capabilities with respect to a given task.

Chapter 3 introduces a novel method that segments unlabeled demonstrations into sequence of movement primitives while simultaneously learning a movement primitive library. This method allows the non-expert to teach an entire task rather than every single primitive. Movement primitives represent a simple, atomic and commonly parameterized motion. The presented method segments each demonstration by identifying similar patterns across all demonstrations and treating them as samples drawn from a learned probabilistic representation of a movement primitive. The method is formulated as an expectation-maximization approach and was evaluated in several tasks,including a chair assembly and segmenting table tennis demonstrations.

In Chapter 4 the previously segmented demonstrations and the learned primitive library are used to induce a formal grammar for movements. Formal grammars are a well established concept in formal language theory and have been applied in several fields, reaching from linguistics, over compiler architecture to robotics. The simplest class of grammars, regular grammars, correspond in their probabilistic form to Hidden Markov Models. However, the intuitive, hierarchical representation of transitions as a set of rules makes it easier for non-experts to comprehend the possible behaviors the grammar implies. A sequence of movements can now be considered a sentence produced by the learned grammar. The production of each sentence can be illustrated by a tree structure, allowing an easy understanding of the involved rules. Probabilistic context-free grammars are a superset of regular grammars and, hence, are more expressive and exceed the capabilities of Hidden Markov Models. While the induction of probabilistic context-free grammars is considered a difficult, unsolved problem for natural languages, the observed sequences of movement primitives show much simpler structures, making the induction more feasible. The method was successfully evaluated on several tasks, such as a pick-and-place task in a tic-tac-toe setting or a handover task in a collaborative tool box assembly.

Chapter 5 introduces the concept of reinforcement learning into the domain of formal grammars. Given an objective, we apply a natural policy gradient approach in order to learn the grammar parameters that produces sequences of primitives that solve that objective. This allows the autonomous improvement of robot behavior. For instance, a cleaning up task can be optimized for efficiency while avoiding self collisions. The parameters of the grammar are the probabilities of each production. Therefore, probability constraints have to be maintained while learning the parameters. The applied natural policy gradient method ensures reasonably small parameter updates, such that the grammar probabilities change gradually. We derive the natural policy gradient method for formal grammars and evaluate the method on several tasks.

Together, the individual contributions presented in this thesis form an imitation learning pipeline that facilitates the instruction, interaction and collaboration with robots. Starting from unlabeled demonstrations, an underlying movement primitive library is learned while simultaneously segmenting the given demonstrations into sequences of primitives. These sequences are than used to induce a formal grammar. The structure of the grammar and the produced parse trees form a comprehensible representation of the robot capabilities with respect to the demonstrated task. Finally, a reinforcement learning approach allows the autonomous optimization of the grammar given an objective.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Roboter sind ein immer größer werdender Teil unseres täglichen Lebens. Sie übernehmen einfache Aufgaben im Haushalt, wie Staubsaugen und Rasenmähen. Sie ermöglichen einen stabilen und zuverlässigen Ablauf an vielen Arbeitsplätzen in Großbetrieben, wie in der Automobil und Elektronik Branche. Darüber hinaus werden Roboter in der Gesellschaft immer mehr akzeptiert, wie zum Beispiel Systeme für das autonome Fahren. Roboter fangen sogar an in die Betreuung von Senioren und Bedürftigen vorzudringen, um eine Lücke zu schließen die durch eine schnell alternde Gesellschaft geschaffen wird. Zusätzlich erlauben die steigende Komplexität und Leistungsfähigkeit moderner Robotersysteme immer schwerere Aufgaben in immer komplizierter werdenden Szenarien und Umgebungen zu lösen. Bald wird das Antreffen und Interagieren mit Robotern als so natürlich angesehen wie das interagieren mit Menschen.

Wenn es hingegen darum geht das Verhalten von Robotern zu definieren und zu verstehen, werden immer noch experten benötigt. Roboter folgen üblicherweise vordefinierten Routinen, die von Menschen mit jahrelanger Erfahrung programmiert und abgestimmt wurden. Unbeabsichtigtes Verhalten wird zu einer bestimmten stelle im Quellcode zurückverfolgt und kann durch kann durch das anwenden einer bestimmten Programmiersprache angepasst werden. Die meisten Menschen, die in der Zukunft mit Roboter-Haushältern und -Mitarbeitern werden interagieren werden, werden jedoch nicht über die benötigten Fähigkeiten verfügen um Roboter in solchem Detail zu instruieren. Diese Abhängigkeit von Experten stellt eine wesentliche Hürde für den Einsatz von Robotern als unsere täglichen Begleiter im Haushalt und auf der Arbeit da. Diese Dissertation präsentiert mehrer neue Ansätze, die das Ziel verfolgen die Interaktion zwischen Nicht-Experten und Robotern. Im Fokus stehen hier die Instruktion und das Verstehen der Roboter Fähigkeiten bezüglich gegebener Aufgaben.

Kapitel 3 stellt eine neue Methode vor, die ungelabelte Demonstrationen in Sequenzen von Bewegungsprimitiven segmentiert und gleichzeitig eine Bibliothek von Primitiven lernt. Diese Methode erlaubt es einem Nicht-Experten eine gesamt Aufgabe zu demonstrieren anstelle jedes einzelnen primitives. Bewegungsprimitive repräsentieren eine einfache, atomare und üblicherweise parametrisierte Bewegung. Die präsentierte Methode segmentiert jede Demonstration, indem sie ähnliche, wieder auftretende Muster über alle Demonstrationen hinweg identifiziert und diese als Zufallsvariable einer stochastischen Repräsentation eines Bewegungsprimitivs behandelt. Die Methode ist als ein Expectation-Maximization Ansatz formuliert und wurde in mehreren Aufgaben evaluiert, inklusive dem Zusammenbau eines einfachen Stuhls und das segmentieren von Tischtennis Demonstrationen.

In Kapitel 4 werden die zuvor segmentierten Demonstrationen und die gelernten Primitive dazu genutzt, formale Grammatiken für Bewegungsprimitive zu lernen. Formale Grammatiken sind ein etabliertes Konzept zur Analyse formaler Sprachen und wurden in diversen Gebieten angewendet, beginnend in der Linguistik, über Compiler Architektur bis hin zur Robotik. Die einfachste Klasse der Grammatiken, reguläre Grammatiken, stimmen in ihrer stochastischen form mit Hidden Markov Modellen überein. Die intuitive, hierarchische Repräsentation der Transitionen als Regeln hingegen, vereinfacht es Nicht-Epxperten das von der Grammatik beschrieben Verhalten zu verstehen. Eine Sequenz von Bewegungen kann nun als ein von einer Grammatik produzierter Satz betrachtet werden. Die Produktion jedes Satzes kann durch eine Baumstruktur, Parse Tree, dargestellt werden, was ein einfaches Verstehen der beteiligten Regeln erlaubt. stochastische kontextfreie Grammatiken sind eine Übermenge der regulären Grammatiken und sind daher ebenfalls ausdrucksstärker als Hidden Markov Modelle. Das Lernen von stochastische kontextfreie Grammatiken für natürliche Sprachen gilt als schweres, ungelöstes Problem. Allerdings, zeigen Sequenzen von Bewegungsprimitiven wesentlich simplere Strukturen auf, die das Lernen von Grammatiken erleichtern. Die präsentierte Methode wurde erfolgreich auf verschiedenen Aufgaben evaluiert, wie zum Beispiel das Platzieren von Spielsteinen in einem Tic-Tac-Toe Szenario oder das Übergeben von Teilen beim Zusammenbauen einer Holzkiste.

Kapitel 5 führt das Konzept des Reinforcement Learning in das Gebiet der formalen Grammatiken ein. Wir wenden den Natural Policy Gradient Ansatz an um die Grammatik Parameter zu lernen die Sequenzen produzieren die wiederum eine gegeben Ausgabe lösen. Dies erlaubt das selbständige verbessern des Roboter-Verhaltens. Zum Beispiel, eine Aufräum-Aufgabe kann auf Effizienz optimiert werden, während Selbstkollisionen des Roboters vermieden werden. Die Grammatik Parameter entsprechen den Wahrscheinlichkeiten der Produktionen einer jeden Regel. Daher muss sicher gestellt werden dass die Wahrscheinlichkeits Bedingungen eingehalten werden, während die Parameter gelernt werden. Die angewendete Natural Policy Gradient Methode garantiert genügend kleine Parameter Anpassungen, dass die Parameter graduell angepasst werden. Wir leiten die Natural Policy Gradient Methode für Formale Grammatiken her und evaluieren sie auf mehreren Aufgaben.

Zusammen bilden die in dieser Dissertation vorgestellten Ansätze eine Imitation Learning Pipeline die das Instruieren, Interagieren und Kollaborieren mit Robotern vereinfacht. Ausgehend von ungelabelten Demonstration wird eine Bibliothek von Bewegungsprimitiven gelernt, während die Demonstrationen zeitgleich in Sequenzen von Primitiven segmentiert werden. Diese Sequenzen werden dann genutzt um eine Formale Grammatik für Bewegungsprimitive zu lernen. Die Struktur der Grammatik und die entsprechenden Parse Trees formen eine verständliche Repräsentation der Roboter-Fähigkeiten bezüglich einer gegebenen Aufgabe. Abschließend ermöglicht ein Reinforcement Learning Ansatz die selbstständige Optimierung der Grammatik hinsichtlich einer gegebenen Zielfunktion.

Deutsch
URN: urn:nbn:de:tuda-tuprints-91148
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
500 Naturwissenschaften und Mathematik > 510 Mathematik
600 Technik, Medizin, angewandte Wissenschaften > 600 Technik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme
Hinterlegungsdatum: 29 Sep 2019 19:56
Letzte Änderung: 29 Sep 2019 19:56
PPN:
Referenten: Peters, Prof. Dr. Jan R. ; Goldberg, Prof. PhD Ken
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 1 Oktober 2018
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen