Advances in Reliably Evaluating and Improving Adversarial Robustness

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/121847
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1218477
http://dx.doi.org/10.15496/publikation-63213
Dokumentart: Dissertation
Date: 2021-12-17
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Bethge, Matthias (Prof. Dr.)
Day of Oral Examination: 2021-11-05
DDC Classifikation: 004 - Data processing and computer science
Keywords: Maschinelles Lernen , Deep learning , Neuronales Netz , Künstliche Intelligenz
Other Keywords:
adversarial robustness
adversarial examples
adversarial attacks
deep neural networks
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Machine Learning hat in den letzten fünf bis zehn Jahren enorme Fortschritte gemacht. Heutzutage können wir Computer, Maschinen, dazu bringen, komplexe Wahrnehmungsaufgaben aus Daten zu lernen, anstatt sie explizit zu programmieren. Besonders moderne Sprach- und Bilderkennungssysteme erreichen im Vergleich zu denen von vor einem Jahrzehnt mittlerweile eine beeindruckende Genauigkeit. Weniger beeindruckend ist die Anfälligkeit von Machine-Learning-Systemen für kleine, böswillig herbeigeführte Störungen. Kaum wahrnehmbare Hintergrundgeräusche oder Veränderungen ausgewählter Pixel können sie komplett in die Irre führen. Während Menschen sich oft über diese Dummheit künstlicher Intelligenz amüsieren, machen sich Entwickler Sorgen um die Sicherheit ihrer Machine-Learning-Anwendungen, und Wissenschaftler suchen nach robusteren Machine-Learning-Modellen, deren Wahrnehmung mehr der des Menschen entspricht. Diese Dissertation fasst Fortschritte in drei Bereichen rund um die Robustheit gegen gezielte Störungen zusammen und diskutiert ihre Implikationen. Erstens stellen wir eine neue Art Attacke vor, die Machine-Learning-Anwendungen ganz unmittelbar angreifen kann. Im Gegensatz zu vorangegangenen Attacken erfordert sie weder Insiderwissen noch besonderen Zugang zum Modell. Unsere Ergebnisse zeigen die konkrete Bedrohung, die durch die derzeitig fehlende Robustheit von Machine-Learning-Anwendungen entsteht. Zweitens präsentieren wir mehrere Arbeiten, die sich mit den verschiedenen Herausforderungen bei der Robustheits-Evaluierung befassen. Die grundlegendste Herausforderung dabei ist, dass gängige Testmethoden robuste Modelle nicht von Modellen mit irreführenden Gradienten unterscheiden können. Durch zwei neue Arten von Testmethoden, die immun gegen irreführende Gradienten sind, helfen wir, dieses Problem aufzudecken und zu lösen. Falsche Anreize sind ein weiterer Grund für fehlerhafte Evaluierungen. Um dieses Problem zu lindern, haben wir gemeinsame Richtlinien veröffentlicht und einen interaktiven Wettbewerb organisiert. Schlussendlich haben wir mit Foolbox eine Open-Source-Softwarebibliothek mit Testmethoden veröffentlicht, die unzähligen Forschern hilft, gängige technische Hindernisse beim Evaluieren von Modellen zu überwinden. Da die Evaluierung von Robustheit grundsätzlich nicht standardisiert werden kann, führt der einfache Zugang zu verschiedenen Testmethoden in der Praxis darüberhinaus zu gründlicheren Evaluierungen und verlässlicheren Ergebnissen. Drittens haben wir eine völlig neue neuronale Netzwerk-Architektur entwickelt, die robustes Klassifizieren ermöglichen soll. Sie verwendet einen generativen Analysis-by-Synthesis-Ansatz. Am Beispiel eines Modells zur Ziffernerkennung demonstrieren wir die Robustheit dieser Architektur und zeigen gleichzeitig die Grenzen früherer Arbeiten auf, die Adversarial Training verwenden. Neuere Studien haben außerdem gezeigt, dass unser Modell die menschliche Wahrnehmung sogenannter kontroverser Stimuli besser als andere Modelle vorhersagt und dass unser Ansatz auch auf komplexere Datensätze skaliert.

Abstract:

Machine learning has made enormous progress in the last five to ten years. We can now make a computer, a machine, learn complex perceptual tasks from data rather than explicitly programming it. When we compare modern speech or image recognition systems to those from a decade ago, the advances are awe-inspiring. The susceptibility of machine learning systems to small, maliciously crafted adversarial perturbations is less impressive. Almost imperceptible pixel shifts or background noises can completely derail their performance. While humans are often amused by the stupidity of artificial intelligence, engineers worry about the security and safety of their machine learning applications, and scientists wonder how to make machine learning models more robust and more human-like. This dissertation summarizes and discusses advances in three areas of adversarial robustness. First, we introduce a new type of adversarial attack against machine learning models in real-world black-box scenarios. Unlike previous attacks, it does not require any insider knowledge or special access. Our results demonstrate the concrete threat caused by the current lack of robustness in machine learning applications. Second, we present several contributions to deal with the diverse challenges around evaluating adversarial robustness. The most fundamental challenge is that common attacks cannot distinguish robust models from models with misleading gradients. We help uncover and solve this problem through two new types of attacks immune to gradient masking. Misaligned incentives are another reason for insufficient evaluations. We published joint guidelines and organized an interactive competition to mitigate this problem. Finally, our open-source adversarial attacks library Foolbox empowers countless researchers to overcome common technical obstacles. Since robustness evaluations are inherently unstandardized, straightforward access to various attacks is more than a technical convenience; it promotes thorough evaluations. Third, we showcase a fundamentally new neural network architecture for robust classification. It uses a generative analysis-by-synthesis approach. We demonstrate its robustness using a digit recognition task and simultaneously reveal the limitations of prior work that uses adversarial training. Moreover, further studies have shown that our model best predicts human judgments on so-called controversial stimuli and that our approach scales to more complex datasets.

This item appears in the following Collection(s)