Kuß, Malte (2006)
Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung
Kurzbeschreibung (Abstract)
Gaussian process models constitute a class of probabilistic statistical models in which a Gaussian process (GP) is used to describe the Bayesian a priori uncertainty about a latent function. After a brief introduction of Bayesian analysis, Chapter 3 describes the general construction of GP models with the conjugate model for regression as a special case (OHagan 1978). Furthermore, it will be discussed how GP can be interpreted as priors over functions and what beliefs are implicitly represented by this. The conceptual clearness of the Bayesian approach is often in contrast with the practical difficulties that result from its analytically intractable computations. Therefore approximation techniques are of central importance for applied Bayesian analysis. Chapter 4 describes Laplace's method, the Expectation Propagation approximation, and Markov chain Monte Carlo sampling for approximate inference in GP models. The most common and successful application of GP models is in regression problems where the noise is assumed to be homoscedastic and distributed according to a normal distribution. In practical data analysis this assumption is often inappropriate and inference is sensitive to the occurrence of more extreme errors (so called outliers). Chapter 5 proposes several variants of GP models for robust regression and describes how Bayesian inference can be approximated in each. Experiments on several data sets are presented in which the proposed models are compared with respect to their predictive performance and practical applicability. Gaussian process priors can also be used to define flexible, probabilistic classification models. Again, exact Bayesian inference is analytically intractable and various approximation techniques have been proposed, but no clear picture has yet emerged, as to when and why which algorithm should be preferred. Chapter 6 presents a detailed examination of the model, focusing on the question which approximation technique is most appropriate by investigating the structure of the posterior distribution. An experimental study is presented which corroborates the theoretical insights. Reinforcement learning deals with the problem of how an agent can optimise its behaviour in a sequential decision process such that its utility over time is maximised. Chapter 7 addresses applications of GPs for model-based reinforcement learning in continuous domains. If the environment's response to the agent's actions can be predicted using GP regression models, probabilistic planning and an approximate policy iteration algorithm can be implemented. A core concept in reinforcement learning is the value function, which describes the long-term strategic value of a state. Using GP models we are able to solve an approximate continuous equivalent of the Bellman equations, and it will be shown how this can be used to estimate value functions.
Typ des Eintrags: |
Dissertation
|
Erschienen: |
2006 |
Autor(en): |
Kuß, Malte |
Art des Eintrags: |
Erstveröffentlichung |
Titel: |
Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning |
Sprache: |
Englisch |
Referenten: |
Rasmussen, PhD Carl Edward ; Schiele, Prof. Dr. Bernt |
Berater: |
Hofmann, Prof. Dr. Thomas |
Publikationsjahr: |
7 April 2006 |
Ort: |
Darmstadt |
Verlag: |
Technische Universität |
Datum der mündlichen Prüfung: |
21 März 2006 |
URL / URN: |
urn:nbn:de:tuda-tuprints-6747 |
Kurzbeschreibung (Abstract): |
Gaussian process models constitute a class of probabilistic statistical models in which a Gaussian process (GP) is used to describe the Bayesian a priori uncertainty about a latent function. After a brief introduction of Bayesian analysis, Chapter 3 describes the general construction of GP models with the conjugate model for regression as a special case (OHagan 1978). Furthermore, it will be discussed how GP can be interpreted as priors over functions and what beliefs are implicitly represented by this. The conceptual clearness of the Bayesian approach is often in contrast with the practical difficulties that result from its analytically intractable computations. Therefore approximation techniques are of central importance for applied Bayesian analysis. Chapter 4 describes Laplace's method, the Expectation Propagation approximation, and Markov chain Monte Carlo sampling for approximate inference in GP models. The most common and successful application of GP models is in regression problems where the noise is assumed to be homoscedastic and distributed according to a normal distribution. In practical data analysis this assumption is often inappropriate and inference is sensitive to the occurrence of more extreme errors (so called outliers). Chapter 5 proposes several variants of GP models for robust regression and describes how Bayesian inference can be approximated in each. Experiments on several data sets are presented in which the proposed models are compared with respect to their predictive performance and practical applicability. Gaussian process priors can also be used to define flexible, probabilistic classification models. Again, exact Bayesian inference is analytically intractable and various approximation techniques have been proposed, but no clear picture has yet emerged, as to when and why which algorithm should be preferred. Chapter 6 presents a detailed examination of the model, focusing on the question which approximation technique is most appropriate by investigating the structure of the posterior distribution. An experimental study is presented which corroborates the theoretical insights. Reinforcement learning deals with the problem of how an agent can optimise its behaviour in a sequential decision process such that its utility over time is maximised. Chapter 7 addresses applications of GPs for model-based reinforcement learning in continuous domains. If the environment's response to the agent's actions can be predicted using GP regression models, probabilistic planning and an approximate policy iteration algorithm can be implemented. A core concept in reinforcement learning is the value function, which describes the long-term strategic value of a state. Using GP models we are able to solve an approximate continuous equivalent of the Bellman equations, and it will be shown how this can be used to estimate value functions. |
Alternatives oder übersetztes Abstract: |
Alternatives Abstract | Sprache |
---|
Die vorliegende Arbeit beschäftigt sich mit Erweiterungen und Anwendungen einer Klasse von statistischen Modellen, den so genannten Gauß-Prozess Modellen. Methoden des überwachten Lernens, wie sie z.B. in der Regressions- und Diskriminanzanalyse verwendet werden, zielen darauf ab, Abhängigkeiten zwischen Variablen zu identifizieren und das so gewonnene Verständnis über den datengenerierenden Prozess zur Vorhersage zu nutzen. Die in dieser Arbeit untersuchten Modelle beruhen auf der Annahme, dass diese Abhängigkeiten in einen systematischen Zusammenhang und eine zufällige Komponente zerlegt werden können, wobei die systematische Zusammenhang mittels einer latenten Funktion beschrieben werden kann. Als Gauß-Prozess Modelle bezeichnet man statistische Modelle, in denen ein Gauß-Prozess verwendet wird, um die Bayesianische a priori Unsicherheit über diese latente Funktion zu beschreiben. Nach einer kurzen Einführung in die Bayesianische Statistik in Kapitel 2 wird in Kapitel 3 die Klasse der Gauß-Process Modelle detailliert beschrieben. Darüber hinaus wird darauf eingegangen, wie der Gauß-Prozess zur Beschreibung der a priori Unsicherheit verstanden werden kann. Der konzeptionellen Klarheit des Bayesianischen Ansatzes stehen oftmals praktische Schwierigkeiten gegenüber, da die auftretenden Integrale nicht analytisch lösbar sind. Approximationstechniken sind daher von zentraler Bedeutung für die Anwendung Bayesianischer Methoden in der praktischen Datenanalyse. In Kapitel 4 werden Laplaces Methode, Expectation Propagation und Markov chain Monte Carlo Verfahren beschrieben sowie deren Anwendung in Gauß-Prozess Modellen. Unter den Gauß-Prozess Modellen sticht das Regressionmodell mit normalverteilter Störgröße heraus, da unter diesen Annahmen Bayesianische Inferenz analytisch handhabbar ist und die a posteriori Unsicherheit über die latente Funktion ebenfalls durch einen Gauß-Process beschrieben werden kann. Allerdings macht die Annahme der Normalverteilung das Modell sensitiv gegenüber Ausreissern, d.h. Beobachtungen die stark von der systematischen Struktur abweichen. Kapitel 5 beschreibt verschiedene Gauß-Prozess Modelle für nichtlineare robuste Regressionsanalyse. In diesen robusten Regressionsmodellen wird die Verteilung der Störgröße durch eine leptokurtotische (heavy-tailed) Verteilungen beschrieben. Kapitel 6 beschäftigt sich mit dem Gauß-Prozess Modell zur binären Klassifikationsanalyse. In der Literatur finden sich verschiedene Ansätze, wie man Bayesianische Inferenz in diesem Modell approximieren kann. Allerdings bestand bisher Unklarheit darüber wie akkurat diese Näherungsverfahren sind und welches in der Praxis zu bevorzugen ist. Dieses Fragen werden sowohl theoretisch durch eine Betrachtung der Struktur der a posteriori Verteilung als auch experimentell durch einen Vergleich mit aufwendigen Markov chain Monte Carlo Simulationen beantwortet. Als Reinforcement Lernen bezeichnet man die das adaptive Lernen in sequentiellen Entscheidungsproblemen. Kapitel 7 beschreibt Anwendungen von Gauß-Prozess Regressionsmodellen für Reinforcement Lernen in Problem mit kontinuierlichen Zustandsräumen. Dabei werden verschiedene Möglichkeiten vorgestellt wie man Gauss-Prozesse nutzen kann, um die Effekte der Entscheidungen vorherzusagen und um die so genannte Value Funktion zu repräsentieren. | Deutsch |
|
Sachgruppe der Dewey Dezimalklassifikatin (DDC): |
300 Sozialwissenschaften > 310 Allgemeine Statistiken |
Fachbereich(e)/-gebiet(e): |
20 Fachbereich Informatik |
Hinterlegungsdatum: |
17 Okt 2008 09:22 |
Letzte Änderung: |
26 Aug 2018 21:25 |
PPN: |
|
Referenten: |
Rasmussen, PhD Carl Edward ; Schiele, Prof. Dr. Bernt |
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: |
21 März 2006 |
Export: |
|
Suche nach Titel in: |
TUfind oder in Google |
|
Frage zum Eintrag |
Optionen (nur für Redakteure)
|
Redaktionelle Details anzeigen |