Generalization and Transferability in Reinforcement Learning

Klink, Pascal (2023)
Generalization and Transferability in Reinforcement Learning.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024717
Masterarbeit, Erstveröffentlichung, Verlagsversion

URL / URN: https://tuprints.ulb.tu-darmstadt.de/24717

Kurzbeschreibung (Abstract)

Reinforcement learning has proven capable of extending the applicability of machine learning to domains in which knowledge cannot be acquired from labeled examples but only via trial-and-error. Being able to solve problems with such characteristics is a crucial requirement for autonomous agents that can accomplish tasks without human intervention. However, most reinforcement learning algorithms are designed to solve exactly one task, not offering means to systematically reuse previous knowledge acquired in other problems. Motivated by insights from homotopic continuation methods, in this work we investigate approaches based on optimization- and concurrent systems theory to gain an understanding of conceptual and technical challenges of knowledge transfer in reinforcement learning domains. Building upon these findings, we present an algorithm based on contextual relative entropy policy search that allows an agent to generate a structured sequence of learning tasks that guide its learning towards a target distribution of tasks by giving it control over an otherwise hidden context distribution. The presented algorithm is evaluated on a number of robotic tasks, in which a desired system state needs to be reached, demonstrating that the proposed learning scheme helps to increase and stabilize learning performance.

Typ des Eintrags:

Masterarbeit

Erschienen:

2023

Autor(en):

Klink, Pascal

Art des Eintrags:

Erstveröffentlichung

Titel:

Generalization and Transferability in Reinforcement Learning

Sprache:

Englisch

Publikationsjahr:

17 Oktober 2023

Ort:

Darmstadt

Kollation:

iii, 54 Seiten

DOI:

10.26083/tuprints-00024717

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/24717

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Reinforcement Learning hat sich als Schlüsseltechnik erwiesen, die Anwendbarkeit des maschinellen Lernens auf Bereiche zu erweitern, in denen Wissen nicht anhand von Beispielen, sondern nur durch eigenständige Exploration erworben werden kann. Die Fähigkeit solche Probleme lösen zu können, ist eine entscheidende Eigenschaft autonomer Agenten, die Aufgaben ohne menschliches Zutun erfüllen. Die meisten Reinforcement Learning Algorithmen sind jedoch für das Lösen genau einer Aufgabe konzipiert und bieten deshalb keine Möglichkeit zur systematischen Wiederverwendung bereits erlernten Wissens. In dieser Arbeit untersuchen wir - motiviert durch Erkenntnisse aus homotopischen Continuation Methoden - Ansätze der Optimierungs- und nebenläufigen Systemtheorie, um ein Verständnis für die konzeptionellen und technischen Herausforderungen des Wissenstransfers im Reinforcement Learning zu erlangen. Aufbauend auf diesen Erkenntnissen präsentieren wir einen Algorithmus basierend auf Contextual Relative Entropy Policy Search, der einem Agenten die Generierung einer strukturierten Sequenz von Lernaufgaben, die sein Lernen auf eine Zielverteilung von Aufgaben lenkt, ermöglicht, indem er ihm die Kontrolle über eine ansonsten stationäre Kontextverteilung gibt. Der vorgestellte Algorithmus wird anhand verschiedener Robotikaufgaben evaluiert, in denen ein vorgegebener Systemzustand erreicht werden muss. Die Ergebnisse zeigen, dass das vorgeschlagene Lernschema hilft, die Lernleistung zu erhöhen und zu stabilisieren.

Deutsch

Status:

Verlagsversion

URN:

urn:nbn:de:tuda-tuprints-247171

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme

TU-Projekte:

EC/H2020|640554|SKILLS4ROBOTS

Hinterlegungsdatum: