Inhaltszusammenfassung:
In den letzten Jahrzehnten haben Systeme mit tiefem Verstärkungslernen bemerkenswerte Fortschritte erzielt und erreichen nach ausgiebigem Training teilweise übermenschliche Leistun- gen. Allerdings hat noch kein künstliches System die Flexibilität und Effizienz erreicht, mit der intelligente Tiere lernen neue Probleme zu lösen. Ziel dieser Arbeit ist es, diese Lücke ein Stück weit zu schließen, indem Inspirationen von der biologischer Kognition genommen werden, um das zielgerichtete Verhalten von künstlichen Agenten zu erweitern, insbesondere um die Fähigkeit, sensorimotorische Erfahrungen hierarchisch in Ereignisse zu zerlegen.
Die zentrale Hypothese dieser Arbeit lautet, dass modellbasierte zeitliche Abstraktionen von Ereignissen nicht nur eine entscheidende Rolle im menschlichen Verhalten spielen, sondern dass künstliche Agenten durch das Erlernen solcher Strukturen auch adaptiveres und weitreichenderes zielgerichtetes Verhalten erlangen können. Um das zu untersuchen, wird ein formeller Rahmen für das ereignisbasierte Lernen hierarchischer Modelle mit verschachtelten Zeitskalen vorgestellt, der sich sowohl für die kognitive Modellierung als auch für die Verbesserung der sequenziellen Entscheidungsfindung eignet.
Zunächst wird die kognitive Plausibilität des Ansatzes durch die Modellierung von menschlich- em antizipativem Verhalten untersucht. Für die Modellierungsexperiment wird ein Agent mit einem vorstrukturierten Modell erreignisbasierter Abstraktionen ausgestattet. Wenn der Agent seinen Blick ausrichtet, um Unsicherheit über die hierarchischen Vorhersagen des Modells zu mi- nimieren, entsteht zielantizipatives Blickverhalten ähnlich der Augenfixationen bei Säuglingen.
Das Erlernen von hierarchischen Vorhersagen setzt einen Mechanismus voraus, der Aktivität in Ereignisse einteilt. Für diesen Zweck, wird als Nächstes ein rekurrentes neuronales Netzwerk vorgestellt, das selbstständig lernt Dynamiken in latente Zustände zu komprimieren, die zeitlich selten aktualisiert werden. Die Integration dieses Mechanismus in verschiedene Vorhersage- und Planungssysteme verbessert deren Generalisierungsfähigkeit, Lerneffizienz und Erklärbarkeit.
Schließlich werden Komponenten aus den vorherigen Methoden kombiniert, um eine Hierar- chie von Weltmodellen von Grund auf zu lernen. Das übergeordnete Modell in der Hierarchie wird nur aufgrund von punktuellen latenten Zustandsänderungen eines untergeordneten Dy- namikmodells trainiert. Wenn das System seinen Blickfokus anhand der hierarchischen Vorher- sagen auswählt, entsteht zielantizipatorisches Blickverhalten, ähnlich wie es sich bei Säuglingen im ersten Lebensjahr entwickelt. Darüber hinaus können die erlernten hierarchischen Vorher- sagen nahtlos in modellbasierte Verstärkungslern- und Planungsagenten integriert werden, um deren Verhalten bei anspruchsvollen Problemen mit langen Aufgabenhorizonten zu verbessern.
Zusammengefasst bietet diese Arbeit nicht nur praktische Methoden für das Erlernen ereignis- basierter zeitlicher Abstraktionen, sondern zeigt auch, wie solche Strukturen menschliches Ver- halten erklären und die Entscheidungsfindung künstlicher Agenten verbessern können.
Abstract:
Over the last decade, deep reinforcement learning systems have made remarkable progress in various domains, partially reaching superhuman performance when trained extensively. How- ever, no artificial system has yet reached the flexibility and efficiency with which intelligent animals learn to solve novel problems. The goal of this thesis is to close this gap to some extent by taking inspiration from biological cognition to enhance the goal-directed behavior of artificial agents, in particular through the ability to hierarchically decompose sensorimotor experience into events.
The central hypothesis of this work is that model-based temporal abstractions of events not only play a crucial role in human behavior but by learning such structures artificial agents can also acquire more adaptive, far-reaching, goal-directed behavior. To investigate this, a formal framework for the event-based learning of hierarchical models with nested time scales is introduced that is suitable for both computational cognitive modeling and sequential decision making.
First, the cognitive plausibility of the approach is investigated by modeling human anticipa- tory behavior. In these modeling experiments, an agent is equipped with a pre-structured model of event-based abstractions. When the agent selects its gaze to minimize uncertainty across the hierarchical predictions of its model, goal-anticipatory gaze behavior develops similarly to the eye fixation behavior in infants.
Learning hierarchical predictions requires a mechanism that suitably decomposes activity into events. For this purpose, a recurrent neural network is introduced next, which learns in a self- supervised way to compress dynamics into latent states that are sparsely updated over time. Including this mechanism in different prediction and planning systems improves their general- ization abilities, their sample efficiency, and the explainability of the learned representations.
Finally, components of the previous methods are combined to learn a hierarchy of world models from scratch. The high-level model in the hierarchy is only trained based on sparse latent state changes of a low-level dynamics model. When the system selects its gaze focus based on the hierarchical predictions, goal-anticipatory gaze behavior emerges similarly to how it develops in infants during their first year of life. Furthermore, the learned hierarchical predictions can be seamlessly integrated into model-based reinforcement learning and planning agents to improve their performance in challenging problems with long task horizons.
Taken together, this thesis not only provides practical methods for learning event-based tem- poral abstractions, but also demonstrates how such structures can explain human behavior and enhance sequential decision making in artificial agents.