Minimax and entropic proximal policy optimization

Song, Yunlong (2023)
Minimax and entropic proximal policy optimization.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024754
Masterarbeit, Erstveröffentlichung, Verlagsversion

URL / URN: https://tuprints.ulb.tu-darmstadt.de/24754

Kurzbeschreibung (Abstract)

First-order gradient descent is to date the most commonly used optimization method for training deep neural networks, especially for networks with shared parameters, or recurrent neural networks (RNNs). Policy gradient methods provide several advantages over other reinforcement learning algorithms; for example, they can naturally handle continuous state and action spaces. In this thesis, we contribute two different policy gradient algorithms that are straightforward to implement and effective for solving challenging environments, both methods being compatible with large nonlinear function approximations and optimized using stochastic gradient descent. First, we propose a new family of policy gradient algorithms, which we call minimax entropic policy optimization (MMPO). The new method combines the trust region policy optimization and the idea of minimax training, in which stable policy improvement is achieved by formulating the KL-divergence constraint in the trust region policy optimization (TRPO) as a loss function with a ramp function transformation, and then, carrying out a minimax optimization between two stochastic gradient optimizers, one optimizing the "surrogate" objective and another maximizing the ramp-transformed KL-divergence loss function. Our experiments on several challenging continuous control tasks demonstrate that MMPO method achieves comparable performance as TRPO and proximal policy optimization (PPO), however, is much easier to implement compared to TRPO and guarantees that the KL-divergence bound to be satisfied. Second, we investigate the use of the f-divergence as a regularization to the policy improvement, where the f-divergence is a general class of functional measuring the divergence between two probability distributions with the KL-divergence being a special case. The f-divergence can be either treated as a hard constraint or added as a soft constraint to the objective. We propose to treat the f-divergence as a soft constraint by penalizing the policy update step via a penalty term on the f-divergence between successive policy distributions. We term such an unconstrained policy optimization method as f-divergence penalized policy optimization (f-PPO). We focus on a one-parameter family of α-divergences, a special case of f-divergences, and study influences of the choice of divergence functions on policy optimization. The empirical results on a series of MuJoCo environments show that f-PPO with a proper choice of α-divergence is effective for solving challenging continuous control tasks, where α-divergences act differently on the policy entropy, and hence, on the policy improvement.

Typ des Eintrags:

Masterarbeit

Erschienen:

2023

Autor(en):

Song, Yunlong

Art des Eintrags:

Erstveröffentlichung

Titel:

Minimax and entropic proximal policy optimization

Sprache:

Englisch

Publikationsjahr:

26 Oktober 2023

Ort:

Darmstadt

Kollation:

vi, 42 Seiten

DOI:

10.26083/tuprints-00024754

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/24754

Herkunft:

Zweitveröffentlichungsservice

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Gradientenabstieg erster Ordnung ist heutzutage die am meisten genutzte Methode, um Neuronale Netze mit mehreren Schichten trainieren. Vor allem Netze, die ihre Parameter teilen, oder Rekurrente Neuronale Netze (RNNs), werden mit dem Gradientenabstieg erster Ordnung trainiert. Policy-Gradient-Methoden haben im Vergleich zu anderen Reinforcement Learning Algorithmen viele Vorteile. Sie können z.B. mit kontinuierlichen Zustands- und Aktionsräumen umgehen. In dieser Thesis stellen wir zwei verschiedene Policy-Gradienten-Methoden vor, die unkompliziert zu implementieren sind und, die anspruchsvolle Probleme effektiv lösen. Beide Methoden sind mit nichtlinearen Funktionsapproximationen kompatibel und sie werden mit der Methode des stochastischen Gradientenabstiegs optimiert. Als Erstes stellen wir eine neue Famile der Policy-Gradient-Methoden vor, welche als minimax entropisch Policy- Optimierung (MMPO) Methode genannt wird. Die neue Methode kombiniert die Vertrauensbereich-Policy-Optimierung und die Idee des minimax Trainings. Beim minimax Training wird eine stabile Policy-Verbesserung durch das Formulieren der KL-Divergenz Nebenbedingung in TRPO als eine Kostenfunktion mit einer Rampenfunktion erreicht, was dann als eine minimax Optimierung zwischen zwei stochastischen Gradientenabstieg-Optimierern optimiert wird. Einer der Optimierer maximiert das Kostenfunktionssurrogat, während der andere Optimierer die Rampentransformierte KL-Divergenz Kostenfunktion minimiert. Unsere anspruchsvollen Experimente mit mehreren kontinuierlichen Regelproblemen zeigen, dass die MMPO Methode vergleichbare Performanz wie das TRPO und das PPO erreicht. Dennoch ist es im Vergleich zu TRPO viel einfacher zu implementieren und garantiert das Einhalten der KL-Divergenz Beschränkung. Als Zweites, untersuchen wir die f-Divergenz als eine Regularisierung für die Policy Verbesserung, wobei die f-Divergenz eine allgemeine Klasse zur Divergenzuntersuchung zwischen zwei Wahrscheinlichkeitsdichtefunktionen ist. Die KLDivergenz ist ein Sonderfall der f-Divergenz. Die f-Divergenz kann sowohl als harte Nebenbedingung, als auch eine weiche Nebenbedingung behandelt werden. Wir beabsichtigen, sie als eine weiche Nebenbedingung zu nutzen, in dem wir den Policy Update zwischen Policy Distributionen mit einem Bestrafungsterm der f-Divergenz sukzessive bestrafen. Wir nennen solch eine Policy-Optimierung ohne Nebenbedingungen als die f-Divergenz bestrafte Policy-Optimierung (f- PPO) Methode. Wir fokussieren uns hierbei auf eine Famile mit einem Parameter der α-Divergenzen, einem Sonderfall der f-Divergenzen und untersuchen den Einfluss der Wahl der Divergenzfunktionen auf die Policy-Optimierung. Die empirischen Ergebnisse auf eine Reihe von MuJoCo Umgebungen zeigen, dass die f-PPO mit einer passenden Wahl der α-Divergenz, anspruchsvolle kontinuierliche Regelungsaufgaben effektive löst, wobei die α-Divergenz unterschiedlich auf die Policy Entropie und somit auf die Policy-Verbesserung wirkt.

Deutsch

Status:

Verlagsversion

URN:

urn:nbn:de:tuda-tuprints-247547

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme

TU-Projekte:

EC/H2020|640554|SKILLS4ROBOTS

Hinterlegungsdatum: