OpenMS - A framework for computational mass spectrometry

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-51146
http://hdl.handle.net/10900/49453
Dokumentart: Dissertation
Erscheinungsdatum: 2010
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Kohlbacher, Oliver (Prof. Dr.)
Tag der mündl. Prüfung: 2010-07-07
DDC-Klassifikation: 004 - Informatik
Schlagworte: Flugzeitspektrometrie , Software , Algorithmus , Massenspektrometrie
Freie Schlagwörter: Softwarebibliothek , Algorithmen
Mass spectrometry , Software library , Algorithms
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Die Kopplung von Massenspektrometrie (MS) und Flüssigchromatographie (LC)gewinnt immer mehr Bedeutung als analytische Technik in der biomedizinischen Forschung. Vor allem in der Hochdurchsatzproteomik und -metabolomik ist Massenspektrometrie weit verbreitet, weil sie sowohl qualitative als auch quantitative Information über Analyten liefert. Komplexe Stoffmischungen werden normalerweise mit Flüssigchromatographie aufgetrennt bevor sie mittels Massenspektrometrie analysiert werden. Danach werden alle relevanten Informationen mithilfe spezieller Computerprogramme extrahiert, da die produzierten Datenmengen sehr groß sind. Diese Arbeit hat das Ziel die computergestützte Analyse von LC-MS Daten zu verbessern. Wir stellen zwei neue Methoden zur Datenanalyse und eine Softwarebibliothek zur Entwicklung von Analyseprogrammen vor. Der erste Teil dieser Arbeit beschäftigt sich mit einem Algorithmus zur Quantifizierung von Peptidsignalen (sogenannten Peptid-Features) in LC-MS Daten. Die exakte Quantifizierung aller Peptid-Features ist ein wichtiger Verarbeitungsschritt der meisten LCMS Analyse-Pipelines. Unser Algorithmus detektiert und quantifiziert Peptide-Features in Peakdaten durch ein mehrstufiges Verfahren: Zuerst werden potenzielle Signalmittelpunkte gesucht anhand der für Peptidsignale typischen Eigenschaften. In einem zweiten Schritt werden die gefundenen Mittelpunkte zu Signalregionen vergrößert, die im dritten Schritt mit einem theoretischen zweidimensionalen Modell verglichen werden. Signalregionen die eine hohe Übereinstimmung zwischen Messdaten und Modell aufweisen werden dann in eine Kandidatenliste von potenziellen Peptid-Features eingetragen. Im letzten Schritt werden Widersprüche in der Kandidatenliste gesucht und diese behoben. In einer Vergleichsstudie auf komplexen Daten mit vielen überlappenden Signalen konnten wir zeigen, dass unser Algorithmus mehreren modernen Algorithmen überlegen ist. Im zweiten Teil der Arbeit stellen wir einen neues maschinelles Lernverfahren zur Vorhersage von DNA Retentionszeiten in der Umkehrphasen-Chromatographie vor. Die Retentionszeit von DNA ist für viele biologische Anwendungen von Interesse, zum Beispiel für die Qualitätskontrolle der DNA-Synthese und der DNA-Amplifikation. Die meisten existierenden Verfahren benutzen nur die Basenzusammensetzung der DNA um die Retentionszeit zu modellieren. Unser Modell beruht auch auf der Basenzusammensetzung, bezieht aber Sekundärstrukturinformation ein, um die Vorhersageleistung zu verbessern. Ein weiterer Unterschied zu bisherigen Methoden ist die Verwendung von Support Vector Regression anstelle einfacher linearer und logarithmischer Modelle. In einer Vergleichsstudie zeigen wir, dass diese Neuerungen die Vorhersageleistung signifikant erhöhen, vor allem bei Temperaturen unter 60°C. Außerdem erlaubt unsere Methode die Erstellung temperaturunabhängiger Modelle, die Retentionszeiten nicht nur für eine feste Temperatur, sondern für den gesamten von den Trainingsdaten abgedeckt Temperaturbereich vorhersagen können. Schließich stellen wir OpenMS, eine Bibliothek zur Entwicklung von Software für die Massenspektrometrie, vor. OpenMS bietet alle erforderliche Datenstrukturen und viele Algorithmen zur schnellen Entwicklung von Analysesoftware. Die schnelle Entwicklung von Softwareprototypen ist gerade in der Massenspektrometrie besonders wichtig, da sowohl die Instrumente als auch die experimentellen Protokolle sehr schnell weiterentwickelt werden. Daher müssen regelmäßig neue Softwarelösungen zur Analyse der Daten entwickelt werden. OpenMS stellt eine umfangreiche Infrastruktur zur Verfügung und vereinfacht so die Entwicklung dieser Analysesoftware. Die Funktionalität von OpenMS reicht von der Unterstützung für weit verbreitete Dateiformate, über anpassbare Datenstrukturen and Datenvisualisierung, bis hin zu modernen Analysealgorithmen für alle Hauptanalyseschritte. Die Vorteile die sich aus der Benutzung von OpenMS ergeben zeigen wir anhand der Entwicklung von TOPP - The OpenMS Proteomics Pipeline. TOPP ist eine Sammlung von Kommandozeilenprogrammen, die je einen minimalen Analyseschritt ausführen. Diese Schritte entsprechen meistens einem Algorithmus von OpenMS. Die einzelnen TOPP-Anwendungen können als ein Baukastensystem benutzt werden um daraus komplexe Analyse-Pipelines zu entwickeln. Die hieraus resultierende Flexibilität kombiniert mit einer graphischen Oberfläche zur Erstellung individueller Analyse-Pipelines, machen TOPP zu einem vielfältigen Werkzeug zur Analyse von LC-MS Daten.

Abstract:

Mass spectrometry coupled to liquid chromatography (LC-MS) is an analytical technique becoming increasingly popular in biomedical research. Especially in high-throughput proteomics and metabolomics mass spectrometry is widely used because it provides both qualitative and quantitative information about analytes. The standard protocol is that complex analyte mixtures are first separated in liquid chromatography and then analyzed using mass spectrometry. Finally, computational tools extract all relevant information from the large amounts of data produced. This thesis aims at improving computational analysis of LC-MS data|we present two novel computational methods and a software framework for the development of LC-MS data analysis tools. In the first part of this thesis we present a quantitation algorithm for peptide signals in isotope-resolved LC-MS data. Exact quantitation of all peptide signals (so-called peptide features) is an essential step in most LC-MS data analysis pipelines. Our algorithm detects and quantifies peptide features in centroided peak maps using a multi-phase approach: First, putative feature centroid peaks, so-called seeds, are determined based on signal properties that are typical for peptide features. In the second phase, the seeds are extended to feature regions, which are compared to a theoretical feature model in the third phase. Features that show a high correlation between measured data and the theoretical model are added to a feature candidate list. In a last phase, contradicting feature candidates are detected and contradictions are resolved. In a comparative study, we show that our algorithm outperforms several state of-the-art algorithms, especially on complex datasets with many overlapping peaks. The second part of this thesis introduces a novel machine learning approach for modeling chromatographic retention of DNA in ion-pair reverse-phase liquid chromatography. The retention time of DNA is of interest for many biological applications, e.g., for quality control of DNA synthesis and DNA amplification. Most existing models use only the base composition to model chromatographic retention of DNA. Our model complements the base composition with secondary structure information to improve the prediction performance. A second difference to previous models is the use of a support vector regression model instead of simple linear or logarithmic models. In a thorough evaluation, we show that these changes significantly improve the prediction performance, especially at temperatures below 60°C. As a by-product, our approach allows the creation of a temperature-independent model, which can predict DNA retention times not only for a fixed temperature, but for all temperatures within the temperature range of the training data. Finally, we present OpenMS - a framework for computational mass spectrometry. OpenMS provides data structures and algorithms for the rapid development of mass spectrometry data analysis software. Rapid software prototyping is especially important in this area of research because both instrumentation and experimental procedures are quickly evolving. Thus, new analysis tools have to be developed frequently. OpenMS facilitates software development for mass spectrometry by providing a rich functionality ranging from support for many file formats, over customizable data structures and data visualization, to sophisticated algorithms for all major data analysis steps. The peptide feature quantitation algorithm presented in the first part of this thesis is one of many algorithms provided by OpenMS. We demonstrate the benefits of using OpenMS by the development of TOPP - The OpenMS Proteomics Pipeline. TOPP is a collection of command line tools which each perform one atomic data analysis step|typically one of the OpenMS data analysis algorithms. The individual TOPP tools are used as building blocks for customized analysis pipelines. This kind of exibility and a graphical user interface for the visual creation of analysis pipelines make TOPP a versatile instrument for LC-MS data analysis.

Das Dokument erscheint in: