Inhaltszusammenfassung:
Optimierung ist ein grundlegendes Prinzip in denWissenschaften, und Algorithmen zu deren Lösung
von großer praktischer Bedeutung. Empirische Risikominimierung ist ein gängiges Modell, vor allem in
Anwendungen des Maschinellen Lernens, in denen eine Eingabe-Ausgabe Relation überwacht gelernt
wird. Empirische Risiken mit hoch-dimensionalen Eingaben werden meist durch gierige, gradientenbasierte,
und möglicherweise stochastische Routinen optimiert, so wie beispielsweise der stochastische
Gradientenabstieg.
Obwohl dieses Konzept populär als auch erfolgreich in der Praxis ist, hat es doch beträchtliche
Nachteile, die es entweder aufwendig machen damit zu arbeiten, oder verlangsamen, sodass es den
Engpass in einer größeren Kette von Lernprozessen darstellen kann. Typische Verhalten sind zum
Beispiel:
• Überanpassung eines parametrischen Modells an die Daten. Dies führt oft zu schlechterer Generalisierungsleistung
auf ungesehenen Daten.
• Die manuelle Anpassung von algorithmischen Parametern, wie zum Beispiel Lernraten ist oft mühsam,
ineffizient und kostspielig.
• Stochastische Verluste und Gradienten treten auf, wenn Zufallsstichproben anstelle eines ganzen
großen Datensatzes für deren Berechnung benutzt wird. Erstere stellen nur inkomplette, oder korrupte
Information über das empirische Risiko dar und sind deshalb schwieriger zu handhaben, wenn ein
Algorithmus Entscheidungen treffen soll.
Diese Arbeit enthält vier konzeptionelle Teile.
Im ersten Teil argumentieren wir, dass bedingte Verteilungen von lokalen Voll- und Mini-Batch Verlusten
und deren Gradienten gut mit Gaußverteilungen approximiert werden können, da die Verluste
selbst Summen aus unabhängig und identisch verteilten Zufallsvariablen sind. Wir stellen daraufhin
dar, wie man die suffizienten Statistiken, also Varianzen und Mittelwerte, mit geringem zusätzlichen
Rechenaufwand schätzen kann. Dies führt zu analytischen Likelihood-Funktionen für Verlust und Gradient
an jedem Eingabepunkt, die daraufhin in aktive Entscheidungen des Optimierer zur Laufzeit
einbezogen werden können.
Der zweite Teil konzentriert sich auf die Schätzung der Generalisierungsleistung nicht indem der
Verlust eines Validierungsdatensatzes überwacht wird, sondern indem beurteilt wird, ob stochastische
Gradienten vollständig durch Rauschen aufgrund der Endlichkeit des Trainingsdatensatzes und nicht
durch eine informative Gradientenrichtung des erwarteten Verlusts (des Risikos), erklärt werden können.
Daraus wird ein Early-Stopping Kriterium abgeleitet, das keinen Validierungsdatensatz benötigt,
sodass der komplette Datensatz für das Training verwendet werden kann.
Der dritte Teil betrifft die vollständige Automatisierung der Adaptierung von Lernraten für den stochastischen
Gradientenabstieg (SGD). Globale Lernraten sind wohl die prominentesten Parameter von
stochastischen Optimierungsroutinen, die manuell angepasst werden müssenWir stellen eine günstige
und eigenständige Subroutine vor, genannt ’Probabilistic Line Search’, die automatisch die Lernrate
in jedem Schritt, basierend auf einer lokalen Abstiegswahrscheinlichkeit, anpasst. Das Ergebnis ist ein
vollständig parameterfreier stochastischer Optimierer, der vergleichbare oder bessere Generalisierungsleistung
wie SGD mit sorgfältig von Hand eingestellten Lernraten erbringt.
Der letzte Teil beschäftigt sich mit Suchrichtungen, die robust gegenüber Rauschen sind. Inspiriert von
klassischen Optimierern erster und zweiter Ordnung, modellieren wir die Dynamik der Gradienten oder
Hesse-Funktion auf dem Optimierungspfad. Dieser Ansatz ist stark verwandt mit klassischen
Filter-Modellen, die aufeinanderfolgende verrauschte Gradienten berücksichtigen können Die Vorteile
sind zweifältig. Zunächst gewinnen wir wertvolle Einsichten in weniger zugängliche oder ad hoc
gewählte Designs klassischer Optimierer als Spezialfälle. Zweitens bereiten wir die Basis für flexible,
eigenständige und nutzerfreundliche stochastische Optimierer mit einem erhöhten Grad an Robustheit
und Automatisierung.
Abstract:
Optimization is a cardinal concept in the sciences, and viable algorithms of utmost importance as tools
for finding the solution to an optimization problem. Empirical risk minimization is a major workhorse,
in particular in machine learning applications, where an input-target relation is learned in a supervised
manner. Empirical risks with high-dimensional inputs are mostly optimized by greedy, gradient-based,
and possibly stochastic optimization routines, such as stochastic gradient descent.
Though popular, and practically successful, this setup has major downsides which often makes it
finicky to work with, or at least the bottleneck in a larger chain of learning procedures. For instance,
typical issues are:
• Overfitting of a parametrized model to the data. This generally leads to poor generalization performance
on unseen data.
• Tuning of algorithmic parameters, such as learning rates, is tedious, inefficient, and costly.
• Stochastic losses and gradients occur due to sub-sampling of a large dataset. They only yield
incomplete, or corrupted information about the empirical risk, and are thus difficult to handle from a
decision making point of view.
This thesis consist of four conceptual parts.
In the first one, we argue that conditional distributions of local full and mini-batch evaluations of
losses and gradients can be well approximated by Gaussian distributions, since the losses themselves
are sums of independently and identically distributed random variables. We then provide a way of
estimating the corresponding sufficient statistics, i. e., variances and means, with low computational
overhead. This yields an analytic likelihood for the loss and gradient at every point of the inputs space,
which subsequently can be incorporated into active decision making at run-time of the optimizer.
The second part focuses on estimating generalization performance, not by monitoring a validation
loss, but by assessing if stochastic gradients can be fully explained by noise that occurs due to the
finiteness of the training dataset, and not due to an informative gradient direction of the expected loss
(risk). This yields a criterion for early-stopping where no validation set is needed, and the full dataset
can be used for training.
The third part is concerned with fully automated learning rate adaption for stochastic gradient descent
(SGD). Global learning rates are arguably the most exposed manual tuning parameters of stochastic
optimization routines. We propose a cheap and self-contained sub-routine, called a ‘probabilistic
line search’ that automatically adapts the learning rate in every step, based on a local probability of
descent. The result is an entirely parameter-free, stochastic optimizer that reaches comparable or better
generalization performances than SGD with a carefully hand-tuned learning rate on the tested problems.
The last part deals with noise-robust search directions. Inspired by classic first- and second-order
methods, we model the unknown dynamics of the gradient or Hessian-function on the optimization
path. The approach has strong connections to classic filtering frameworks and can incorporate noise-corrupted
evaluations of the gradient at successive locations. The benefits are twofold. Firstly, we gain
valuable insight on less accessible or ad-hoc design choices of classic optimizer as special cases. Secondly,
we provide the basis for a flexible, self-contained, and easy-to-use class of stochastic optimizers that
exhibit a higher degree of robustness and automation.