Kernel-based Machine Learning on Sequence Data from Proteomics and Immunomics

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-40979
http://hdl.handle.net/10900/49315
Dokumentart: Dissertation
Date: 2009
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Kohlbacher, Oliver (Prof. Dr.)
Day of Oral Examination: 2009-07-22
DDC Classifikation: 004 - Data processing and computer science
Keywords: Maschinelles Lernen , Kernfunktion , Bioinformatik , MHC Klasse II , Chromatographie
Other Keywords:
Machine learning , Kernel function , Bioinformatics , MHC class II , Chromatography
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Ein großes Anwendungsgebiet für Maschinelle Lernverfahren ist die Biologie. Hierbei reichen die Anwendungen von der Vorhersage von Genen über die Vorhersage der Aktivität von Wirkstoffen bis hin zur Vorhersage der dreidimensionalen Struktur eines Proteins. Im Rahmen dieser Dissertation wurden kernbasierte Lernverfahren entwickelt in den Bereichen der Proteomik und der Immunomik. Alle Anwendungen haben hierbei das Ziel, bestimmte Eigenschaften von Teilen von Proteinen, so genannten Peptiden, vorherzusagen, welche in vielen biologischen Prozessen eine wichtige Rolle spielen. Im ersten Teil der Dissertation stellen wir einen neuen Kern vor, der zusammen mit einer Support-Vektor-Maschine benutzt werden kann, um das chromatographische Verhalten von Peptiden in Umkehrphasen-Flüssigchromatographie und starker Anionenaustauschchromatographie vorherzusagen. Der Prädiktor für die Flüssigchromatographie wird daraufhin verwendet, um einen p-Wert basierten Filter für Peptididentifikationen in der Proteomik zu entwickeln. Der Filter beruht auf der Idee, dass das vorhergesagte Retentionsverhalten ähnlich zum gemessenen Verhalten sein sollte. Ist dies nicht der Fall, so ist das ein Indiz dafür, dass die identifizierte Peptidsequenz falsch ist. Hierdurch können falsch identifizierte Peptide herausgefiltert werden. Dies kann zum einen dazu verwendet werden, um die Qualität der Identifikationen zu verbessern. Zum anderen können mehr Identifikationen erhalten werden, indem auch nicht ganz sichere Identifikationen betrachtet werden, da der Filter viele falsche Identifikationen herausfiltern und somit einen guten Qualitätsgrad garantieren kann. Im darauffolgenden Abschnitt zeigen wir, dass dieses Verfahren auch für zweidimensionale Trennverfahren verallgemeinert werden kann, was zu einem weiteren Anstieg an Peptididentifikationen bei ähnlicher Qualität führt. Außerdem zeigen wir am Beispiel des Organismus Sorangium cellulosum, dass das Verfahren sehr gut für die Verbesserung der Messungen von ganzen Proteomen geeignet ist. Für diese Anwendung können wir zeigen, dass wir bei ähnlicher Präzision ca. 25% mehr Spektren identifizieren können. Der nächste Abschnitt zeigt, dass der neue Kern auch zur Vorhersage proteotypischer Peptide geeignet ist. Dies sind Peptide, die mit massenspektrometriebasierten Verfahren gemessen werden können und Proteine eindeutig identifizieren. Zusätzlich kann die gelernte Diskriminante sehr gut dafür verwendet werden um festzustellen, welche Aminosäuren an welchen Positionen die Wahrscheinlichkeit eines Peptids erhöht proteotypisch zu sein. Die Fähigkeit eines Peptids eine Immunantwort auszulösen hängt von seiner Bindeaffinität zu einem speziellen Rezeptor des Immunsystems ab, welcher MHC Rezeptor genannt wird. Es gibt verschiedene Varianten dieses Rezeptors, die in zwei Klassen eingeteilt werden können. Wir präsentieren einen kernbasierter Ansatz um die Bindeaffinität von Peptiden zu MHC Klasse II Rezeptoren präzise vorherzusagen. Außerdem zeigen wir, wie Prädiktoren für bestimmte Varianten dieses Rezeptors gebaut werden können, obwohl für sie keine experimentellen Daten verfügbar sind. Hierzu werden experimentelle Daten von anderen Varianten des Rezeptors verwendet. Durch dieses Verfahren können wir für gut zwei Drittel aller MHC Klasse II Rezeptoren Prädiktoren erstellen im Gegensatz zu ca. 6%, für die vorher Prädiktoren existierten.

Abstract:

Biology is a large application area for machine learning techniques. Applications range from gene start prediction over prediction of drug activity to the prediction of the three-dimensional structure of proteins. This thesis deals with kernel-based machine learning in proteomics and immunomics applications. In all applications, we are interested in predicting properties of peptides, which are parts of proteins. These peptides play an important role in many biological systems. In the first part, we introduce a new kernel which can be used together with a support vector machine for predicting chromatographic separation of peptides in reversed-phase liquid chromatography and strong anion exchange solid-phase extraction. The predictor for reversed-phase liquid chromatography can be used to build a p-value-based filter for identifications in proteomics. The filter is based on the idea that if the measured and the predicted behavior differ significantly, the identified sequence is probably wrong. In this way, we can filter out false identifications. First, this is useful for increasing the precision of identifications. Second, one can lower mass spectrometric scoring thresholds and filter out false identifications to get a significant increase in the number of correctly identified spectra at comparable precision. We also show in the following section that we can extend our method to predict retention times in two-dimensional chromatographic separations, which leads to a further increase in the number of correctly identified spectra at quality comparable to the unfiltered case. The practical applicability is demonstrated by applying the methods to a whole proteome measurement of Sorangium cellulosum. We can show that we can get about 25% more spectrum identifications at the same level of precision. The next section shows that the new kernel can also be applied to the prediction of proteotypic peptides. These are peptides which can be detected by mass spectrometry-based analysis techniques and which uniquely identify a protein. We furthermore show that the resulting discriminant is very useful for discovering which amino acids influence the likelihood of a peptide to be proteotypic. The ability of a peptide to induce an immune response depends upon its binding affinity to a specialized receptor, called major histocompatibility complex (MHC) molecule. There are different variants of this receptor that can be classified into two classes. We introduce a kernel-based approach for predicting binding affinity of peptides to MHC class II molecules with high accuracy and show how to build predictors for variants of this receptor, for which no experimental data exists, based on data for other variants. This enables us to build predictors for about two thirds of all different MHC class II molecules instead of about 6%, for which predictors had already been available.

This item appears in the following Collection(s)