Interpretable Machine Learning Approaches in Computational Biology

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-60970
http://hdl.handle.net/10900/49645
Dokumentart: Dissertation
Erscheinungsdatum: 2012
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Kohlbacher, Oliver (Prof. Dr.)
Tag der mündl. Prüfung: 2012-02-29
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Lernen , Bereichsschätzung , Bioinformatik
Freie Schlagwörter: Interpretierbarkeit , Konfidenzschätzung
Interpretable , Machine learning , Confidence estimation , Computational biology
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Maschinelles Lernen ist zu einem unverzichtbaren Werkzeug für die Analyse, Vorhersage und für das Verständnis biologischer Merkmale und Prozesse geworden. Als Alternative zu Experimenten im Labor, die oft teuer und zeitintensiv sind, können maschinelle Lernmodelle die Arbeit von Biologen erheblich erleichtern. So können beispielsweise neue Merkmale biologischer Systeme sowie Ansatzpunkte für Experimente gefunden werden. Maschinelles Lernen wurde erfolgreich für verschiedene Aufgaben, von der Genvorhersage bis hin zur Vorhersage der dreidimensionalen Struktur von Proteinen, eingesetzt. Aufgrund der schlechten Interpretierbarkeit von Vorhersagen computergestützter Lernverfahren, haben Biologen jedoch oft nur wenig Vertrauen in diese. Im Rahmen dieser Dissertation entwickeln wir daher neue Ansätze um die Klassifikation und die Regressionsanalyse für biologische Problemstellungen interpretierbarer und damit nachvollziehbarer zu machen. Im ersten Teil der Dissertation stellen wir YLoc vor, ein neues interpretierbares Klassifikationsverfahren zur Vorhersage der subzellulären Lokalisation von Proteinen. YLoc ist in der Lage Begründungen für eine gemachte Vorhersage zu geben, indem es die biologischen Merkmale mit dem größten Einfluss auf die Vorhersage identifiziert. Interpretierbare Vorhersagen von YLoc können helfen die Lokalisierung von Proteinen besser nachzuvollziehen und ferner Biologen bei der Planung von Experimenten, die Aufschluß über mögliche Änderung der Lokalisation von Proteinen geben sollen, zu unterstützen. Darüber hinaus bewertet YLoc die Zuverlässigkeit einzelner Vorhersagen, wodurch es Biologen möglich ist, das Maß an Vertrauen in Vorhersagen individuell abzuwägen. Im zweiten Teil dieser Arbeit stellen wir CONFINE und CONFIVE vor, zwei neue Verfahren zur Konfidenzschätzung von Vorhersagen, welche die Interpretierbarkeit von MHC-I-Bindungsvorhersagen entscheidend verbessern können. Im Gegensatz zu üblichen Regressionsmodellen, welche lediglich Affinitätswerte vorhersagen, können CONFINE und CONFIVE Affinitätsintervalle schätzen. Diese stellen eine intuitive Interpretation von Verlässlichkeit dar. Während weniger verlässliche Vorhersagen durch breite Affinitätsintervalle auffallen, weisen sichere Vorhersagen einen sehr kleinen Bereich möglicher Affinitäten auf. Wir können weiterhin zeigen, dass die Unterscheidung zwischen verlässlichen und unsicheren Vorhersagen wichtig für das Identifizieren und Verbessern von Epitopen in der Impfstoffgewinnung ist. Die in dieser Arbeit vorgestellten interpretierbaren Vorhersagemethoden stellen einen wichtigen Schritt in der Entwicklung transparenter maschineller Lernmethoden dar und können die Akzeptanz von computergestützte Methoden maßgeblich verbessern.

Abstract:

Machine learning has become an essential tool for analyzing, predicting, and understanding biological properties and processes. Machine learning models can substantially support the work of biologists by reducing the number of expensive and time-consuming experiments. They are able to uncover novel properties of biological systems and can be used to guide experiments. Machine learning models have been successfully applied to various tasks ranging from gene prediction to three-dimensional structure prediction of proteins. However, due to their lack of interpretability, many biologists put only little trust in the predictions made by computational models. In this thesis, we show how to overcome the typical "black box" character of machine learning algorithms by presenting two novel interpretable approaches for classification and regression. In the first part, we introduce YLoc, an interpretable classification approach for predicting the subcellular localization of proteins. YLoc is able to explain why a prediction was made by identifying the biological properties with the strongest influence on the prediction. We show that interpretable predictions made by YLoc help to understand a protein's localization and, moreover, can assist biologists in engineering the location of proteins. Furthermore, YLoc returns confidence scores, making it possible for biologists to define their level of trust in individual predictions. In the second part, we show how our two novel confidence estimators, CONFINE and CONFIVE, can improve the interpretability of MHC-I-peptide binding prediction. In contrast to plain affinity values predicted by usual regression models, CONFINE and CONFIVE estimate affinity intervals, which provide a very natural interpretation of confidence. While low confidence predictions exhibit fairly large intervals, reliable predictions yield a very small range of affinities. We show that distinguishing between reliable and unreliable predictions is important for discovering and engineering reliable epitopes for vaccines. The interpretable approaches presented in this thesis are a significant step forward towards making machine learning methods more transparent to the users and, thus, towards improving the acceptance of computational methods.

Das Dokument erscheint in: