Toward fast and scalable Bayesian Machine Learning

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/164572
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1645721
http://dx.doi.org/10.15496/publikation-105901
Dokumentart: Dissertation
Erscheinungsdatum: 2025-04-23
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Hennig, Philipp (Prof. Dr.)
Tag der mündl. Prüfung: 2025-01-13
DDC-Klassifikation: 004 - Informatik
Schlagworte: Künstliche Intelligenz
Freie Schlagwörter:
Bayesian
Machine Learning
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Maschinelles Lernen (ML) beinhaltet das Training eines Modells auf einem Datensatz und die anschließende Verwendung dieses Modells, um Vorhersagen für bisher unbekannte Daten zu treffen. Während die Vorhersageakkuratheit ein entscheidender Aspekt von ML ist, wollen wir auch, dass ML-Methoden in der Lage sind, Unsicherheiten zu quantifizieren und Vorwissen zu integrieren. Ansätze des Bayesianischen Maschinellen Lernens adressieren diese Desiderata, indem sie explizit oder implizit das Theorem von Bayes nutzen. Bayesianische Methoden erzeugen eine posteriore Verteilung über die Modellparameter, was eine prinzipielle Quantifizierung der Unsicherheit ermöglicht. Darüber hinaus erlaubt Bayesianisches ML die Einbeziehung von Expertenwissen und zusätzlichen Informationen durch die Spezifikation von A-priori-Verteilungen. Die Familie der Bayesianischen ML-Techniken umfasst eine Vielzahl von Methoden, z.B. Monte-Carlo-Sampling und Variational Inference. Während Bayesianische Ansätze Vorteile bieten, können sie rechenintensiv sein. Das primäre Ziel dieser Arbeit ist die Entwicklung schneller und effizienter Bayesianischer ML-Methoden, die die Vorteile des Bayesianischen ML beibehalten und gleichzeitig den Rechenaufwand reduzieren. Wir erreichen eine schnelle Inferenz durch die Kombination von Laplace-Approximationen, Variablentransformation, Exponentialfamilien und automatischer Differentiation. Laplace-Approximationen können analytisch berechnet oder effizient approximiert werden, während die Eigenschaften der Exponentialfamilie und der Variablentransformation analytische Transformationen zwischen Verteilungen ermöglichen und so aufwändige iterative Schemata vermeiden. Zunächst führen wir das Laplace Matching ein, das eine nicht-Gaußsche Exponentialfamilienverteilung nimmt, eine Variablentransformation anwendet, so dass der Träger mit einer Gaußverteilung übereinstimmt, und dann eine Laplace-Approximation auf die transformierte Variable anwendet. Das Ergebnis ist eine analytische Abbildung zwischen den Parametern der Exponentialfamilie und einer Gaußverteilung. Die Variablentransformation wird so gewählt, dass die kanonische Statistik der Exponentialfamilie mit der kanonische Statistik der Gaußverteilung übereinstimmt, was zu einer wesentlich besseren Approximation als auf der ursprünglichen Basis führt. Laplace Matching kann verwendet werden, um die Vorteile der Gaußschen Inferenz für nicht-Gaußsche Exponentialfamilien zu nutzen. Dies ermöglicht beispielsweise die unkomplizierte Anwendung von Gauß-Prozessen auf verschiedene Datenformate. Wir demonstrieren das, indem wir die deutsche Wahllandschaft und die Entwicklung von Währungskovarianzmatrizen im Laufe der Zeit modellieren. Zweitens führen wir die Laplace-Bridge for Bayesian Neuronal Networks ein, die eine Anwendung des Laplace Matching ist. Bayesianische Neuronale Netze haben typischerweise eine Gaußsche Verteilung über die Logits, dann werden aus dieser Verteilung Stichproben gezogen und diese Stichproben mit der Softmax-Funktion transformiert. Die Laplace-Bridge ermöglicht es, die Gaußsche Verteilung analytisch in eine Dirichlet-Verteilung über die Ausgabewerte zu transformieren. Die Eigenschaften der Dirichlet-Verteilung können genutzt werden, um neue Anwendungen zu ermöglichen. Zum Beispiel sind Marginalverteilungen von Dirichlet-Verteilungen wieder Dirichlet-Verteilungen (oder Beta-Verteilungen im eindimensionalen Fall). Wir nutzen diese Tatsache, um "unsicherheitsbewusste Top-k" zu erstellen, eine Technik, die die marginalen Beta-Verteilungen der Modellvorhersagen verwendet, um individuell zu bestimmen, zwischen wie vielen Klassen das Modell unsicher ist. Wir demonstrieren diesen Ansatz auf den 1000 Klassen von ImageNet. Drittens entwickeln wir PIHAM, ein generatives Modell, das explizit für die probabilistische Inferenz in gerichteten und ungerichteten heterogenen und attributierten Multilayer-Netzwerken entwickelt wurde. PIHAM erweitert das Laplace Matching von einzelnen Variablen auf Kombinationen von Variablen, einschließlich Multiplikation und Addition. Es transformiert alle latenten Variablen in Gaußsche Variablen, verwendet dann automatische Differentiation, um eine Laplace-Approximation zu erhalten, und verwendet dann Laplace Matching, um sie in ihre beabsichtigte Basis zu transformieren. Wir zeigen die Durchführbarkeit am konkreten Anwendungsfall der Netzwerkinferenz, bei der wir das soziale Unterstützungsnetzwerk eines ländlichen indischen Dorfes analysieren. Die Flexibilität von PIHAM ermöglicht es uns, verschiedene Arten von Informationen, einschließlich kategorischer Daten und Interaktionen zwischen Individuen, zu berücksichtigen. In dieser Arbeit stellen wir die ersten Schritte zu einem breiteren Paradigma von Bayesianischen approximativen Inferenzmethoden vor, die in erster Linie schnell sind. Wir skizzieren Erweiterungen, um schnelle Bayesianische Inferenz auf neuronalen Netzen und beliebigen probabilistischen Netzen durchzuführen.

Das Dokument erscheint in: