Latent Space Reinforcement Learning

Luck, Kevin Sebastian (2014)
Latent Space Reinforcement Learning.
Technische Universität Darmstadt
Bachelorarbeit, Erstveröffentlichung

URL / URN: http://tuprints.ulb.tu-darmstadt.de/3832

Kurzbeschreibung (Abstract)

Often we have to handle high dimensional spaces if we want to learn motor skills for robots. In policy search tasks we have to find several parameters to learn a desired movement. This high dimensionality in parameters can be challenging for reinforcement algorithms, since more samples for finding an optimal solution are needed with every additional dimension. On the other hand, if the robot has a high number of actuators, an inherent correlation between these can be found for a specific motor task, which we can exploit for a faster convergence. One possibility is to use techniques to reduce the dimensionality of the space, which is used as a pre-processing step or as an independent process in most applications. In this thesis we present a novel algorithm which combines the theory of policy search and probabilistic dimensionality reduction to uncover the hidden structure of high dimensional action spaces. Evaluations on an inverse kinematics task indicate that the presented algorithm is able to outperform the reference algorithms PoWER and CMA-ES, especially in high dimensional spaces. Furthermore we evaluate our algorithm on a real-world task. In this task, a NAO robot learns to lift his leg while keeping balance. The issue of collecting samples for learning on a real robot in such a task, which is often very time and cost consuming, is considered in here by using a small number of samples in each iteration.

Typ des Eintrags:

Bachelorarbeit

Erschienen:

2014

Autor(en):

Luck, Kevin Sebastian

Art des Eintrags:

Erstveröffentlichung

Titel:

Latent Space Reinforcement Learning

Sprache:

Englisch

Referenten:

Peters, Prof. Dr. Jan ; Ben Amor, Dr. Heni ; Neumann, Dr. Gerhard

Publikationsjahr:

6 Mai 2014

Ort:

Darmstadt

URL / URN:

http://tuprints.ulb.tu-darmstadt.de/3832

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Versucht man für Roboter Bewegungsabläufe mithilfe von Verstärkendem Lernen, dem sogenannten Reinforcement Learning, zu lernen, muss man sich häufig mit hochdimensionalen Räumen auseinandersetzen. So hat beispielsweise bereits der NAO Roboter 26 Freiheitsgrade, hier Gelenkwinkel, mithilfer derer eine Bewegung umgesetzt werden kann. Zusätzlich kommen bei Policy Search Problemen noch Parameter für sog. Features hinzu, welche beispielsweise Gauss-Kurven sein können, die abhängig von der Zeit sind. Versuchen wir nun einen Bewegungsablauf zu erlernen, erreichen wir mit steigender Zahl der einzelnen Bewegungen relativ schnell eine sehr hohe Anzahl an Parametern aus der die Bewegungen abgeleitet werden. Diese Parameter müssen für einen optimalen Bewegungsablauf geschätzt werden und spannen einen hochdimensionalen Raum auf. In hochdimensionalen Räumen, in denen die einzelnen (Gelenk-) Konfigurationen als Punkte liegen, kann man jedoch oft Unterräume finden, die eine stark reduzierte Anzahl an Dimensionen aufweisen. Die Dimensionsachsen dieser niedrig dimensionalen Räume kodieren hier Korrelationen zwischen den verschiedenen Parametern, wobei wir unser Augenmerk auf Korrelationen zwischen den Aktoren, z.B. Gelenke, legen werden. Ein intuitives Beispiel für solche Korrelationen sind z.B. Bewegungen einer (menschlichen) Hand, bei der die Gelenke der Finger oftmals in Abhängigkeit zueinander stehen. In dieser Abschlussarbeit wird ein neuartiger Policy Search Algorithmus vorgestellt, der die versteckte latente Struktur in einem solchen hochdimensionalen Parameterraum ausnutzt und damit Reinforcement Learning und Dimensionsreduktion in einer Theorie vereint. Im Gegensatz zu früheren Ansätzen wird hierbei die Dimensionsreduktion nicht als ein Vorverarbeitungsschritt oder als ein unabhängiger Prozess eingesetzt, sondern direkt im Lernalgorithmus durchgeführt. Wie die durchgeführten Evaluationen mit einer Aufgabe der inversen Kinematik zeigen, kann insbesondere bei einer hohen Anzahl an Gelenkwinkel der vorgestellte Algorithmus eine deutlich bessere Konvergenz in Richtung eines optimalen Ergebnisses vorweisen als die zur Referenz verwendeten Algorithmen PoWER und CMA-ES. Weiterhin wird die Möglichkeit der Anwendung in realen Lern-Szenarien anhand eines Experiments mit einem NAO Roboter aufgezeigt, bei dem der Roboter die Fähigkeit erwerben soll, auf einem Bein zu stehen. In beiden Evaluationen wurde der normalerweise begrenzten Möglichkeit zur Erzeugung von Testläufen auf Robotern Rechnung getragen, indem eine möglichst kleine Anzahl an Testläufen pro Iteration gewählt wurde.

Deutsch

Freie Schlagworte:

Reinforcement Learning, Policy Search, Dimensionality Reduktion

URN:

urn:nbn:de:tuda-tuprints-38321

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme

Hinterlegungsdatum:

18 Mai 2014 19:55

Letzte Änderung:

18 Mai 2014 19:55

PPN: