Methods for Generative Modeling and Interpretable Classification with Strong Differential Privacy

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/160103
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1601033
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1601039
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1601037
Dokumentart: Dissertation
Erscheinungsdatum: 2025-01-14
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Park, Mi Jung (Assoc. Prof. Dr.)
Tag der mündl. Prüfung: 2024-02-05
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Lernen , Privatheit
Freie Schlagwörter:
Machine Learning
Differential Privacy
Generative Modeling
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Von Fahrassistenzsystemen bis hin zu ChatGPT hat Machine Learning (ML), und insbesondere die Unterdisziplin des Deep Learning (DL) die Automatisierung von Aufgaben ermöglicht, welche bis vor kurzem noch nur von Menschen ausgeführt werden konnten. Dieser Fortschritt wird vor allem von der Ansamm- lung enormer Datenmengen angetrieben, welche zum Training zunehmend größerer ML Modelle dienen. In vielen Bereichen enthalten diese Daten sensible persönliche Informationen über Individuen, wie zum Beispiel in Patienten- daten, Einkaufshistorien oder Chat-Logs. Da diese Modelle erwiesenermaßen Informationen über ihre Trainingsdaten preisgeben können, entstehen so Kon- flikte zwischen dem Schutz der Privatsphäre sensitiver Daten und dem Bedarf an leistungsfähigen ML Modellen. Differential Privacy (DP) ermöglicht den Schutz sensibler Informationen in den Trainingsdaten, aber erfordert, dass der Traininsprozess durch zufälliges Rauschen erschwert wird, was zu schlechteren Ergebnissen führt. So erfordert das Training einen Abwägungsprozess zwischen Privatheit und Nützlichkeit des Modells. Insbesondere im Deep Learning, wo es sich als schwer herausgestellt hat, gute Kompromisse zu finden, hat sich bisherige Forschung oft auf schwache DP-Garantien konzentriert, welche keinen realen Schutz bieten, weil nur so akzeptable Grade der Nützlichkeit erreichbar waren. Diese Dissertation erforscht DL-Methoden, welche für den Gebrauch mit starken DP-Garantien designt sind. Spezifisch thematisiert sie zwei heraus- fordernde Probleme in diesem Feld: Interpretierbarkeit und Generative Modelle. Die erste Teil der Arbeit zeigt, dass Methoden, welche die Entscheidungen von DL-Modellen erklären sollen, nicht in der Lage sind, nützliche Erklärungen zu liefern, wenn diese Modelle mit DP-Garantien trainiert wurden. Somit er- weitert sich der eben vorgestellte Kompromiss um eine Dimension: Privatheit, Nützlichkeit, und Interpretierbarkeit. Als Alternative zu DL-Modellen stellt die Arbeit das Locally Linear Maps-Modell vor, welches bessere Interpretierbarkeit bei gleicher Privatheit und vergleichbarer Nützlichkeit bietet. Der zweite Teil beschäftigt sich mit der Aufgabe, Datensätze mit DP Garantien zu veröffentlichen, was mithilfe von Generativen DL-Modellen ermöglicht wird. Die vorgestellte Methode DP Mean Embeddings with Random Features verwen- det Approximationen von Kernel Mean Embeddings, um hochdimensionale Zusammenfassungen von Datensätzen zu erstellen, welche effizient mit DP- Garantien versehen werden können und dann zum Training eines Generativen DL-Modells verwendet werden. An die erste Version dieses Ansatzes, welche Random Fourier Features zur Approximation des Kernels verwendet, wird in zwei Arbeiten angeschlossen, welche stattdessen Hermite Polynomial Fea- tures und gelernte Features aus vortrainierten DL-Modellen verwenden. Diese Methode erreichte neue Bestwerte für DP generative Modellierung mit starken DP-Garantien. Beide Forschungsbeiträge bringen das Feld näher an dem Punkt, wo Differen- tial Privacy breit in modernen Machine Learning-Methoden eingesetzt werden kann, da es die verlässlichste Methode darstellt, die Privatsphäre sensitiver Trainingsdaten zu schützen.

Abstract:

From driver assistance in cars to ChatGPT, machine learning, and in particular the sub-field of deep learning, has enabled the automation of tasks which, until recently, could only be performed by humans. These advances are fueled by the collection of vast amounts of data which serve to train increasingly large models. In many domains, this data contains sensitive information about individual people such as patient records, purchasing histories, or logs of online conversations. As these models have been shown to reveal information about the data they have been trained on, this results in a conflict between the need for privacy of sensitive data and the demand for powerful machine learning models. Differential Privacy (DP) provides a way to protect the sensitive information of individuals in the training data but comes at the cost of introducing significant amounts of detrimental noise to the training process and thus induces a trade-off between the levels of privacy and utility that can be achieved in a given model. In deep learning, where finding a good compromise has proven especially difficult, past research has often focused on low levels of DP, which offer no tangible privacy protection, to obtain acceptable levels of utility. This thesis explores methods for DP deep learning which are designed to function at high levels of DP. In particular, it discusses two challenging prob- lems in this field: interpretability and generative modeling. The contribution presented first shows that methods that provide explanations of deep learning classifiers struggle to yield useful results on models trained with differential privacy, establishing a trade-off between interpretability, privacy, and utility. The work proposes Locally Linear Maps as an approach that yields better interpretabil- ity under the same privacy constraints while maintaining similar accuracy. The second topic considers the task of DP data release with the help of deep genera- tive models. The proposed method DP Mean Embeddings with Random Features uses approximations of kernel mean embeddings to create a high-dimensional summary of a dataset which can be efficiently made DP. We then use this DP summary to train a generative model. The initial work using random Fourier features for kernel approximation is extended in two subsequent works using Hermite polynomial features and perceptual features obtained from pre-trained DL classifiers. This method obtained new state-of-the-art DP generative models for high privacy settings. Both contributions move the field towards enabling broad application of differential privacy across modern machine learning methods, where it is the safest method for preserving the privacy of sensitive training data.

Das Dokument erscheint in: