Inhaltszusammenfassung:
Die bemerkenswerte Fähigkeit des menschlichen Gehirns, sich nahtlos an neue Situationen anzupassen, indem es auf vorhandenes Wissen zurückgreift und gelernte Konzepte in einer Vielzahl von Kontexten anwendet, demonstriert seine außergewöhnliche Stärke in der Fähigkeit zum Wissenstransfer. Diese Eigenschaft der menschlichen Intelligenz hat die Entwicklung künstlicher neuronaler Netzwerke inspiriert, die versuchen, menschenähnliche Lern- und Wissenstransferfähigkeiten zu emulieren. Obwohl tiefe neuronale Netzwerke (DNNs) beeindruckende Leistungen bei verschiedenen Aufgaben gezeigt haben, kämpfen sie oft damit, Wissen über verschiedene Datendistributionen hinweg zu generalisieren und zu übertragen. Induktive Verzerrungen, inspiriert von kognitiven Mechanismen und der zugrundeliegenden Struktur innerhalb der Daten, gelten als entscheidend für die Verbesserung solcher Generalisierungsfähigkeiten. Diese Dissertation untersucht die Rolle von drei spezifischen induktiven Verzerrungen - Entflechtung, Modularität und Meta-Lernen - bei der Erleichterung von Wissenstransfer und Generalisierung in DNNs.
Zuerst untersuchen wir die Entflechtung, indem wir erforschen, wie das Lernen strukturierter Datenrepräsentationen durch Isolierung der zugrundeliegenden Variationsfaktoren verbesserte Generalisierung und effizientes Transferlernen ermöglicht. Wir untersuchen das Lernen entflechteter Repräsentationen für sequenzielle Daten und Bilder. Für sequenzielle Daten führen wir eine neue Klasse von Zustandsraummodellen ein, die Entflechteten Zustandsraummodelle (DSSMs), die explizit domänenunabhängige Zustandsdynamiken von domänenspezifischen Informationen trennen. Mit simulierten Daten untersuchen wir, wie entflechtete Repräsentationen von Sequenzen den Wissenstransfer, die Sequenzmanipulation und die Domänencharakterisierung verbessern. Für bildbasierte Aufgaben führen wir den ersten realweltlichen Entflechtungsdatensatz, MPI3D, ein, der in einer kontrollierten Umgebung mit bekannten Grundwahrheitsfaktoren aufgenommen wurde. Wir stellen außerdem zwei weitere Datensätze vor, die das experimentelle Setup simulieren. Anschließend bewerten wir die Leistung von Algorithmen zum unüberwachten Entflechten anhand der neuen Datensätze und untersuchen systematisch, wie simulierte Datensätze genutzt werden können, um bessere Repräsentationen der realen Welt zu erstellen.
Als Nächstes befassen wir uns mit der Modularität, die die Entwicklung wiederverwendbarer, unabhängiger Komponenten neuronaler Netzwerke umfasst, inspiriert von unabhängigen kausalen Mechanismen. Wir stellen Neural Interpreters (NI) vor, eine neuartige aufmerksamkeitsbasierte Architektur, die für kompositionelles Denken und Wiederverwendung von Wissen konzipiert ist. Wir demonstrieren ihre Wirksamkeit in Aufgaben der Bildklassifikation und abstrakten Denkaufgaben und zeigen verbessertes transfer-effizientes Lernen und systematische Generalisierungsfähigkeiten. Zuletzt erkunden wir die induktive Verzerrung des Meta-Lernens und des kontrastiven Lernens mit dem Ziel, übertragbare Meta-Repräsentationen von datengenerierenden Funktionen zu lernen. Wir schlagen das Function Contrastive Representation Learning (FCRL) vor, eine Methode, die kontrastives Lernen nutzt, um unabhängig von nachgelagerten Vorhersageaufgaben Funktionenrepräsentationen durch Meta-Lernen zu erlernen. Die gelernten Repräsentationen werden dann verwendet, um eine Vielzahl von nachgelagerten Aufgaben zu lösen, die auf einer gegebenen Funktion basieren.
Im Verlauf der Arbeit führen wir umfassende experimentelle Bewertungen an simulierten und realweltlichen Datensätzen durch, die die Wirksamkeit der vorgeschlagenen induktiven Verzerrungen bei der Förderung des Wissenstransfers und der Generalisierung in DNNs demonstrieren. Wir diskutieren auch die
Herausforderungen und Grenzen der Einbeziehung induktiver Verzerrungen und schlagen zukünftige Forschungsrichtungen vor, um die Fähigkeiten von Deep-Learning-Modellen für einen besseren Wissenstransfer und Generalisierung außerhalb der Verteilung weiterzuentwickeln.
Abstract:
The remarkable capacity of human brains to seamlessly adapt to new situations by using prior knowledge, and applying learned concepts across a diverse range of contexts demonstrates its exceptional prowess in knowledge transfer capabilities. This hallmark of human intelligence has inspired the development of artificial neural networks that seek to emulate human-like learning and knowledge transfer capabilities. Although deep neural networks (DNNs) have achieved remarkable performance across a wide range of tasks, they often struggle to generalize and transfer knowledge across diverse data distributions and tasks. Inductive biases, inspired by cognitive mechanisms and underlying structure within data are believed to be crucial for enhancing such generalization capabilities. This dissertation investigates the role of three specific inductive biases - disentanglement, modularity, and meta-learning in facilitating knowledge transfer in DNNs. First, we examine disentanglement, exploring how learning structured representations of data by isolating the underlying factors of variation enable improved generalization and sample efficient transfer learning. We investigate disentangled representation learning for sequential data and images. For sequential data, we introduce a new type of state space model, Disentangled State Space Models (DSSM), which explicitly separates domain-invariant state dynamics from domain-specific information. Using simulated data, we investigate how disentangled representations of sequences improve knowledge transfer, sequence manipulation, and domain characterization. For image-based tasks, we introduce the first real-world disentanglement dataset, MPI3D, captured in a controlled setting with known ground-truth factors. We also provide two more datasets simulating the experimental setup. We subsequently, benchmark the performance of unsupervised disentanglement algorithms on the new datasets and systematically investigate how simulated datasets can be used to construct improved representations of real-world data. Next, we delve into modularity, which entails developing reusable, independent neural network components inspired by independent causal mechanisms. We introduce Neural Interpreters (NI), a novel attention-based architecture designed for compositional reasoning and knowledge reuse. We demonstrate its effectiveness in image classification and abstract reasoning tasks, showcasing improved sample-efficient transfer learning and systematic generalization capabilities. Lastly, we explore the inductive bias of meta-learning and contrastive learning, aiming to learn transferable meta-representations of data-generating functions. We propose Function Contrastive Representation Learning (FCRL), a method that leverages contrastive learning to meta-learn function representation independently from downstream prediction tasks. The learned representations are then used to solve a range of downstream tasks defined for a given function. Throughout the thesis, we conduct comprehensive experimental evaluations on simulated and real-world datasets, demonstrating the effectiveness of the proposed inductive biases in promoting knowledge transfer and generalization in DNNs. We also discuss the challenges and limitations of incorporating inductive biases and suggest future research directions to further advance the capabilities of deep learning models for better knowledge transfer and out-of-distribution generalization.