Inhaltszusammenfassung:
Damit Roboter uns Menschen in unserem ta ̈glichen Leben unterstu ̈tzen ko ̈nnen, mu ̈ssen sie von unserer Welt lernen und sich ihr anpassen. Die Anwendung des ma- schinellen Lernens auf reale Probleme stellt immer noch eine große Herausforderung dar. Die reale Welt ist voller Ungewissheiten und vera ̈ndert sich sta ̈ndig, wodurch sich die Verteilung der Beobachtungen sta ̈ndig verschiebt. Dies bedeutet, dass ein statischer Datensatz die reale Welt nicht lange darstellt. Außerdem ist die Daten- erfassung schwieriger und meistens kann immer nur eine kleine Menge an Daten fu ̈r eine Aufgabe gesammelt werden. Aus diesem Grund lassen sich Algorithmen, die fu ̈r einen statischen Problembereich und mithilfe große Datensa ̈tze entwickelt wurden, nicht gut auf diese Probleme u ̈bertragen, auch wenn sie an den ju ̈ngsten Erfolgsgeschichten des maschinellen Lernens beteiligt waren.
Diese Arbeit befasst sich mit einer speziellen Art von Anwendung des maschinel- len Lernens in der realen Welt und zwar Roboter mit der Fa ̈higkeit auszustatten, in der realen Welt zu lernen. Dazu muss der Roboter durch Interaktionen mit der Umgebung die zum Lernen notwendigen Daten sammeln. Diese Arbeit befasst sich mit der Frage, wie Repra ̈sentationen erlernt werden ko ̈nnen, die eine schnelle Gene- ralisierung und Anpassung an neue Aufgaben ermo ̈glichen. Wie kann der Roboter auf bereits Erlerntes aufbauen, um wa ̈hrend seiner gesamten Lebenszeit weiter aus Erfahrungen zu lernen? Dies wu ̈rde dem Roboter eine Fa ̈higkeit verleihen, die auch wir Menschen haben: schnell zuvor erlernte Fa ̈higkeiten an neue Aufgaben anzu- passen. Ich mo ̈chte verstehen, wie lebenslanges Lernen in diesem Rahmen mo ̈glich ist: Der Roboter muss entscheiden, was er wann und wie lernen will.Insbesondere bescha ̈ftigt sich die Arbeit mit der Frage, wie man Repra ̈sentationen lernt, die zu schneller Generalisierung fu ̈hren und dadurch ein schnelles Erlernen neuer Auf- gaben ermo ̈glichen. Ich stu ̈tze meine Forschung auf Erkenntnisse aus den Neuro- und Kognitionswissenschaften sowie der Entwicklungspsychologie und basiere mei- ne Ansa ̈tze auf diesen Erkenntnissen, um Lernalgorithmen fu ̈r Roboter zu entwi- ckeln.
Der Inhalt dieser Arbeit na ̈hert sich dieser Frage aus zwei verschiedenen, aber miteinander verbundenen Richtungen:
1. Modellbasiertes Lernen in der realen Welt: Eine Repra ̈sentation der Um- gebung wird iterativ aus den durch den Roboter gesammelten Daten erlernt.
Das menschliche Gehirn kann nicht jede Aufgabe von Grund auf neu zu er- lernen, deshalb baut es Kognitive Modelle der Umgebung (Lake et al., 2017).
ix
Kurzfassung
Modelle versprechen eine flexible Anpassung an neue Aufgaben, ohne dass je- des Mal alles neu erlernt werden muss. Allerdings ko ̈nnen die erlernten Model- le verzerrt, falsch oder alt sein. In Kapitel 2 (Bechtle et al., 2020a) zeigen wir, wie die Einbeziehung der Unsicherheit von Vorhersagen der gelernter dynami- schen Modelle wa ̈hrend der Optimierung von Regelungsstrategien die Erkun- dung der Umgebung erleichtert und dadurch relevante Daten erfasst werden ko ̈nnen. Das Ziel ist nun, nicht nur eine bestimmte Aufgabe zu erfu ̈llen, aber auch die Unsicherheit in den Modellen aufzulo ̈sen. Dadurch verbessert sich nicht nur das Modell, welches dann fu ̈r andere Aufgaben genutzt werden kann, sondern auch die Leistung der Regelungsstrategie. Kapitel 3 (Bechtle et al., 2020c) stellt eine Verlustfunktion fu ̈r das Lernen von Regelungsstrategien vor, die auch die Qualita ̈t des Modells beru ̈cksichtigt. In diesem Fall ist nicht nur von Bedeutung wie gut die gegebene Aufgabe erfu ̈llt wurde, sondern auch wie genau das Modell Vorhersagen getro↵en hat. Wir analysieren, wie diese Ver- lustfunktion die Datenerfassung erleichtert, um ein besseres Modell zu lernen und infolgedessen das Aufgabenlernen verbessert. Kapitel 4 (Bechtle et al., 2020b) betrachtet das Problem voreingenommener Modelle von einer anderen Perspektive: Durch die Nutzung von analytischem Vorwissen und die Kombi- nation mit einem datengesteuerten Ansatz wird ein visuelles Dynamikmodell erlernt, das bei Manipulationsaufgaben gute Ergebnisse erzielt, auch fu ̈r neue Aufgaben.
2. Lernen wie man lernt in der realen Welt. Der Roboter lernt, wie er eine Aufgabe und damit eine Darstellung des Lernproblems erlernen kann.
Menschen haben die bemerkenswerte Fa ̈higkeit, kontinuierlich zu lernen und sich an neue Aufgaben anzupassen. Wir sind in der Lage zu lernen, wie man lernt. Davon inspiriert schlagen wir in Kapitel 5 ein vollsta ̈ndig di↵erenzier- bares Lernsystem vor, das Robotern ermo ̈glicht, zu lernen, wie man lernt. In der Lernphase wird eine Verlustfunktion fu ̈r eine Aufgabe aus Erfahrungen erlernt. Spa ̈ter, nachdem der Roboter gelernt hat, wie man lernt, kann diese Funktion direkt auf neue Aufgaben angewendet werden. In (Das et al., 2020a) zeigen wir, wie dieses Lernprinzip auch bei einer Objektmanipulationsaufgabe angewendet werden kann, bei der der Roboter von menschlichen Demonstra- tionen gelernt hat. Lernen zu lernen ist ein grundlegender Bestandteil der menschlichen Intelligenz. Roboter mit dieser Fa ̈higkeit auszustatten ist eine grundlegende Forschungsfrage.
Diese beiden Richtungen befassen sich im Wesentlichen mit dem Erlernen von Re- pra ̈sentationen, die sich schnell fu ̈r neue Aufgaben und Szenarien benutzen lassen. Diese Form von Generalisierung ist eine Schlu ̈sselfa ̈higkeit, die es uns Menschen ermo ̈glicht, kontinuierlich zu lernen.