TU Darmstadt / ULB / TUbiblio

On Optimal Behavior Under Uncertainty in Humans and Robots

Belousov, Boris (2022)
On Optimal Behavior Under Uncertainty in Humans and Robots.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00022561
Dissertation, Erstveröffentlichung, Verlagsversion

Kurzbeschreibung (Abstract)

Despite significant progress in robotics and automation in the recent decades, there still remains a noticeable gap in performance compared to humans. Although the computation capabilities are growing every year, and are even projected to exceed the capacities of biological systems, the behaviors generated using current computational paradigms are arguably not catching up with the available resources. Why is that? It appears that we are still lacking some fundamental understanding of how living organisms are making decisions, and therefore we are unable to replicate intelligent behavior in artificial systems.

Therefore, in this thesis, we attempted to develop a framework for modeling human and robot behavior based on statistical decision theory. Different features of this approach, such as risk-sensitivity, exploration, learning, control, were investigated in a number of publications.

First, we considered the problem of learning new skills and developed a framework of entropic regularization of Markov decision processes (MDP). Utilizing a generalized concept of entropy, we were able to realize the trade-off between exploration and exploitation via a choice of a single scalar parameter determining the divergence function.

Second, building on the theory of partially observable Markov decision process (POMDP), we proposed and validated a model of human ball catching behavior. Crucially, information seeking behavior was identified as a key feature enabling the modeling of observed human catches. Thus, entropy reduction was seen to play an important role in skillful human behavior.

Third, having extracted the modeling principles from human behavior and having developed an information-theoretic framework for reinforcement learning, we studied the real-robot applications of the learning-based controllers in tactile-rich manipulation tasks. We investigated vision-based tactile sensors and the capability of learning algorithms to autonomously extract task-relevant features for manipulation tasks. The specific feature of tactile-based control that perception and action are tightly connected at the point of contact, enabled us to gather insights into the strengths and limitations of the statistical learning approach to real-time robotic manipulation.

In conclusion, this thesis presents a series of investigations into the applicability of the statistical decision theory paradigm to modeling the behavior of humans and for synthesizing the behavior of robots. We conclude that a number of important features related to information processing can be represented and utilized in artificial systems for generating more intelligent behaviors. Nevertheless, these are only the first steps and we acknowledge that the road towards artificial general intelligence and skillful robotic applications will require more innovations and potentially transcendence of the probabilistic modeling paradigm.

Typ des Eintrags: Dissertation
Erschienen: 2022
Autor(en): Belousov, Boris
Art des Eintrags: Erstveröffentlichung
Titel: On Optimal Behavior Under Uncertainty in Humans and Robots
Sprache: Englisch
Referenten: Peters, Prof. Dr. Jan ; Toussaint, Prof. Dr. Marc
Publikationsjahr: 2022
Ort: Darmstadt
Kollation: xiii, 108 Seiten
Datum der mündlichen Prüfung: 18 Juli 2022
DOI: 10.26083/tuprints-00022561
URL / URN: https://tuprints.ulb.tu-darmstadt.de/22561
Kurzbeschreibung (Abstract):

Despite significant progress in robotics and automation in the recent decades, there still remains a noticeable gap in performance compared to humans. Although the computation capabilities are growing every year, and are even projected to exceed the capacities of biological systems, the behaviors generated using current computational paradigms are arguably not catching up with the available resources. Why is that? It appears that we are still lacking some fundamental understanding of how living organisms are making decisions, and therefore we are unable to replicate intelligent behavior in artificial systems.

Therefore, in this thesis, we attempted to develop a framework for modeling human and robot behavior based on statistical decision theory. Different features of this approach, such as risk-sensitivity, exploration, learning, control, were investigated in a number of publications.

First, we considered the problem of learning new skills and developed a framework of entropic regularization of Markov decision processes (MDP). Utilizing a generalized concept of entropy, we were able to realize the trade-off between exploration and exploitation via a choice of a single scalar parameter determining the divergence function.

Second, building on the theory of partially observable Markov decision process (POMDP), we proposed and validated a model of human ball catching behavior. Crucially, information seeking behavior was identified as a key feature enabling the modeling of observed human catches. Thus, entropy reduction was seen to play an important role in skillful human behavior.

Third, having extracted the modeling principles from human behavior and having developed an information-theoretic framework for reinforcement learning, we studied the real-robot applications of the learning-based controllers in tactile-rich manipulation tasks. We investigated vision-based tactile sensors and the capability of learning algorithms to autonomously extract task-relevant features for manipulation tasks. The specific feature of tactile-based control that perception and action are tightly connected at the point of contact, enabled us to gather insights into the strengths and limitations of the statistical learning approach to real-time robotic manipulation.

In conclusion, this thesis presents a series of investigations into the applicability of the statistical decision theory paradigm to modeling the behavior of humans and for synthesizing the behavior of robots. We conclude that a number of important features related to information processing can be represented and utilized in artificial systems for generating more intelligent behaviors. Nevertheless, these are only the first steps and we acknowledge that the road towards artificial general intelligence and skillful robotic applications will require more innovations and potentially transcendence of the probabilistic modeling paradigm.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Trotz erheblicher Fortschritte in der Robotik und Automatisierung in den letzten Jahrzehnten besteht nach wie vor ein deutlicher Leistungsunterschied zum Menschen. Obwohl die Rechenkapazitäten von Jahr zu Jahr zunehmen und sogar die Kapazitäten biologischer Systeme übersteigen dürften, kann das mit den derzeitigen Rechenparadigmen erzeugte Verhalten wohl nicht mit den verfügbaren Ressourcen mithalten. Woran liegt das? Offenbar fehlt uns noch immer ein grundlegendes Verständnis dafür, wie lebende Organismen Entscheidungen treffen, und deshalb sind wir nicht in der Lage, intelligentes Verhalten in künstlichen Systemen nachzubilden.

Deshalb haben wir in dieser Arbeit versucht, einen Rahmen für die Modellierung des Verhaltens von Menschen und Robotern auf der Grundlage der statistischen Entscheidungstheorie zu entwickeln. Verschiedene Merkmale dieses Ansatzes, wie z. B. Risikosensitivität, Exploration, Lernen und Kontrolle, wurden in einer Reihe von Veröffentlichungen untersucht.

Zunächst haben wir das Problem des Erlernens neuer Fähigkeiten betrachtet und einen Rahmen für die entropische Regularisierung von Markov-Entscheidungsprozessen (MDP) entwickelt. Unter Verwendung eines verallgemeinerten Konzepts der Entropie konnten wir den Kompromiss zwischen Exploration und Ausnutzung durch die Wahl eines einzigen skalaren Parameters realisieren, der die Divergenzfunktion bestimmt.

Zweitens haben wir, aufbauend auf der Theorie der teilweise beobachtbaren Markov-Entscheidungsprozesse (POMDP), ein Modell des menschlichen Ballfangverhaltens vorgeschlagen und validiert. Entscheidend ist, dass das Verhalten der Informationssuche als Schlüsselmerkmal identifiziert wurde, das die Modellierung des beobachteten menschlichen Fangverhaltens ermöglicht. Es zeigte sich, dass die Entropiereduktion eine wichtige Rolle für das geschickte menschliche Verhalten spielt.

Drittens, nachdem wir die Modellierungsprinzipien aus dem menschlichen Verhalten extrahiert und einen informationstheoretischen Rahmen für das Verstärkungslernen entwickelt hatten, untersuchten wir die realen Roboteranwendungen der lernbasierten Steuerungen in taktil reichhaltigen Manipulationsaufgaben. Wir untersuchten bildverarbeitungsbasierte taktile Sensoren und die Fähigkeit von Lernalgorithmen, autonom aufgabenrelevante Merkmale für Manipulationsaufgaben zu extrahieren. Die Besonderheit der taktilen Steuerung, dass Wahrnehmung und Handlung am Kontaktpunkt eng miteinander verbunden sind, ermöglichte es uns, Einblicke in die Stärken und Grenzen des statistischen Lernansatzes für die Echtzeit-Robotermanipulation zu gewinnen.

Zusammenfassend lässt sich sagen, dass in dieser Arbeit eine Reihe von Untersuchungen zur Anwendbarkeit des Paradigmas der statistischen Entscheidungstheorie bei der Modellierung des menschlichen Verhaltens und bei der Synthese des Roboterverhaltens durchgeführt wurden. Wir kommen zu dem Schluss, dass eine Reihe wichtiger Merkmale im Zusammenhang mit der Informationsverarbeitung dargestellt und in künstlichen Systemen genutzt werden können, um intelligenteres Verhalten zu erzeugen. Dennoch sind dies nur die ersten Schritte, und wir erkennen an, dass der Weg zu künstlicher allgemeiner Intelligenz und geschickten Roboteranwendungen weitere Innovationen und möglicherweise eine Übersteigung des probabilistischen Modellierungsparadigmas erfordern wird.

Deutsch
Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-225612
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
100 Philosophie und Psychologie > 150 Psychologie
600 Technik, Medizin, angewandte Wissenschaften > 600 Technik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Intelligente Autonome Systeme
Hinterlegungsdatum: 31 Okt 2022 13:24
Letzte Änderung: 01 Nov 2022 09:22
PPN:
Referenten: Peters, Prof. Dr. Jan ; Toussaint, Prof. Dr. Marc
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 18 Juli 2022
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen