Design and Implementation of Efficient Workflows for Computational Metabolomics

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/63934
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-639346
http://dx.doi.org/10.15496/publikation-5356
Dokumentart: Dissertation
Date: 2015
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Kohlbacher, Oliver (Prof. Dr.)
Day of Oral Examination: 2015-06-15
DDC Classifikation: 004 - Data processing and computer science
570 - Life sciences; biology
Keywords: Massenspektrometrie , Algorithmus , Computational chemistry , Bioinformatik , Massenspektrometrie , Computational chemistry , Bioinformatik ,
Other Keywords: Metaboliten-Identifizierung
Biomarker-Detektion
Metaboliten-Quantifizierung
Metabolomik
metabolomics
computational mass spectrometry
metabolite quantification
metabolite identification
biomarker discovery
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

In jüngster Vergangenheit hat sich die Metabolomik zu einer leistungsfähigen Methode entwickelt, mittels derer sich systematisch Veränderungen des Stoffwechsels erfassen lassen, welche durch Krankheit, Ernährung oder Umwelteinflüsse herbeigeführt werden. Die Massenspektrometrie mit Flüssigkeitschromatographie-Kopplung hat sich dabei als wichtigstes analyti- sches Instrument etabliert, da sie sowohl die hohe Komplexität und chemische Vielfalt eines Metaboloms erfassen kann, als auch die Messung biologischer Proben im Hochdurchsatz erlaubt. Die rasante Entwicklung in der Massenspektrometrie führte jedoch zu enormen Datenmengen und erhöhter Datenkomplexität, sodass die rechnerische Auswertung schnell zu einem Engpass führte. Das Gebiet der "Computational Metabolomics" zielt auf die Entwicklung effizienter Algorithmen und flexibler Workflows ab, um den Anforderungen an die Analyse von im Hochdurchsatz gemessenen Metabolomikdaten gerecht zu werden. Im Rahmen dieser Arbeit haben wir uns mit den drei Kernproblemen dieser Disziplin auseinandergesetzt. Diese umfassen die Quantifizierung von Metaboliten, deren Identifizierung sowie statistische Methoden zur Erkennung charakteristischer Metabolitenmuster und neuer Biomarker. Unser Hauptaugen- merk lag dabei auf dem Design robuster und umfassender Workflows, wobei die genannten Kernfragen nicht isoliert, sondern im Zusammenhang betrachtet wurden. Wir entwickelten einen neuen Algorithmus, welcher eine robuste Detektierung und Quantifizierung von Metabolitensignalen (Features) in LC-MS-Daten ermöglicht. Dieser extrahiert chromatographische Profile mit hoher Sensitivität und sieht eine Auflösung von Isotopenmustern mittels eines neu entwickelten SVM-Modells vor. Unser Algorithmus wurde sowohl auf echten als auch simulierten LC-MS-Benchmarkdatensätzen validiert und zeigte im Vergleich zu bestehenden Lösungen hervorragende Ergebnisse. Zur Identifizierung von unbekannten Features entwarfen wir eine umfassende, integrative Strategie, welche sich möglichst viele Eigenschaften eines Features (z.B. Isotopenmuster, Retentionszeit) zu Nutze macht. Diese wurden dann zu Filterkriterien kombiniert, um eine verlässlichere Identifikation zu erzielen. Zu diesem Zweck entwickelten wir ein Softwaretool, mit dem eine hohe Anzahl an Features mittels ihrer Masse effizient gegen eine Metabolitendatenbank abfragt werden kann. Standardmäßig deckt es eine breite Palette an potentiellen Addukten ab, kann aber auch frei konfiguriert wer- den. Wir erweiterten unser Suchwerkzeug um einen Isotopen- und Retentionszeitfilter, mit dem Ziel, die Zahl der falsch positiven Treffer beträchtlich zu reduzieren. Der Nutzen von Modellen zur Vorhersage der Retentionszeit wurde zwar vereinzelt nachgewiesen, routinemäßig erstellt und in ID-Pipelines integriert — wie in unserem Fall — wurden sie jedoch nicht. Des Weiteren implementierten wir eine effiziente Methode zum Abgleich von MS/MS-Spektren gegen eine eigens zugeschnittene Spektrendatenbank. Unsere Methoden wurden auf Grundlage eines LC-MS/MS-Datensatzes validiert und erzielten in ihrem Zusammenspiel eine hervorragende Genauigkeit. Das übergeordnete Ziel der "Computational Metabolomics" ist es, aus komplexen LC-MS-basierten Metabolomikdaten neue biologische Erkenntnisse zu gewinnen. Hierfür entwarfen wir umfassende Workflows zur Analyse von globalen Metabolomikdaten, die auf robusten statistischen Methoden aufbauten. Ihren Nutzen konnten wir zeigen, indem wir zwei biologisch relevante Fragestellungen beantworteten. Die erste zielte auf die Rolle des rs7903146 Polymorphismus im TCF7L2-Gen und dessen Auswirkung auf T2DM ab. Wir entdeckten mehr als 100 potentielle Biomarker, von denen einige auf für T2DM typische Störungen in der Biosynthese von Gallensäuren und Androgenen hinweisen. Unser Ansatz übertraf klassische statistische Metho- den wie etwa PLS-DA, welche keinerlei signifikante Unterschiede zwischen den Kontroll- und Risikoallelgruppen aufzeigen konnte. Die zweite Fragestellung betraf das Auffinden von charak- teristischen Mustern und entsprechenden Stoffwechselwegen, die während einer zweistündigen Belastungsphase und einer darauffolgenden dreistündigen Ruhephase beeinflusst wurden. Wir adaptierten einen bekannten Clusteralgorithmus, um eine Vielzahl von solchen Zeitreihen zu komprimieren, die aus nur wenigen und nicht gleichabständigen Zeitpunkten bestehen — ein häufig anzutreffender Fall bei Zeitreihenanalysen auf Metabolomikdaten. Unser neuartiger Clustering-Ansatz brachte 25 unterschiedliche Cluster hervor, die jeweils für die Belastungs- oder Erholungsphase repräsentativ waren. Die zwei auffälligsten Cluster legten im Rahmen einer "Pathway Enrichment" Analyse nahe, dass Aminosäure-, Fettsäure- und Katecholamin- Stoffwechselwege involviert waren. Veränderungen innerhalb dieser Stoffwechselwege im Zusammenhang mit körperlicher Betätigung und Erholung wurden in der Forschung bereits diskutiert. Beide Screening-Workflows führten zu biologisch aussagekräftigen Ergebnissen, mit Hilfe derer wir spezifischere Hypothesen aufstellen konnten. Dank dieser können wir nun unsere Ergebnisse zielgerichtet mit weiterführenden Experimenten validieren, während redundante Analysen vermieden und somit zeitliche und finanzielle Ressourcen eingespart werden können.

Abstract:

In recent years, metabolomics has become a powerful approach to systematically study alterations in metabolism induced by disease, nutrition, and environmental changes. Liquid chromatography-mass spectrometry (LC-MS) has been established as the main analytical platform since it is sensitive enough to capture metabolomes’ high complexity and chemical diversity and allows for processing biological samples in a high-throughput manner. However, rapid evolvement of mass spectrometry (MS) technology resulted in enormous data volumes and complexity and with that gave rise to a computational bottleneck. Computational metabolomics strives to develop efficient algorithms and flexible workflows to meet the data analysis needs of high-throughput metabolomics experiments. In this work, we addressed the three key problems of computational metabolomics: quantification of metabolites, their identification, and statistical methods to reveal discriminatory metabolic patterns and novel biomarkers. Our main design goal was to develop robust and comprehensive computational workflows to integrate solutions to these key problems consistently instead of addressing them separately. We developed a novel algorithm for the robust detection and quantification of metabolite features in LC-MS data. It extracts chromatographic profiles with high sensitivity and provides deisotoping by a novel support vector machine (SVM)-based classifier. Our algorithm was validated both on real-world and simulated LC-MS benchmark datasets and showed an excellent performance when compared to existing solutions. In order to identify unknown features, we devised a comprehensive and integrative strategy that exploits as many complementary feature characteristics as possible (e.g., relative isotopic abundance (RIA) and retention time (rt)). These were then combined as filter criteria to yield more reliable metabolite identifications (IDs). To this end, we implemented an accurate mass search which efficiently facilitates any number of queries against a metabolite database. It covers a wide range of potential adducts by default but allows for customization. We augmented it by orthogonal RIA and rt filters to considerably reduce the number of false positive IDs. The utility of rt prediction models has been shown in a few stray instances, however, they were usually not built and integrated routinely in ID pipelines as in our case. Furthermore, we provided an efficient means of matching tandem mass spectrometry (MS/MS) spectra against a precompiled fragment database. Based on an LC-MS/MS validation dataset, we achieved excellent ID accuracy when our accurate mass search with orthogonal filters and spectral matching algorithms were combined. The ultimate goal of computational metabolomics is to extract novel biological knowledge from complex LC-MS-based metabolomics data. To this end, we designed comprehensive analysis workflows for untargeted metabolomics data that build on robust statistical methods. We showed their utility by answering two biologically relevant questions. The first question involved the role of the rs7903146 polymorphism located in the transcription factor 7-like 2 (TCF7L2) gene and its impact on type 2 diabetes mellitus (T2DM). We found more than 100 potential biomarkers with some pointing out perturbations in the bile acid and androgenic steroid biosyntheses, two well-documented complications of T2DM. Our approach outperformed classical statistical methods such as the partial least squares discriminant analysis (PLS-DA) which could not detect any significant differences between control and risk allele groups. The second question revolved around finding characteristic kinetic patterns and corresponding metabolic pathways that were perturbed during a two-hour single bout of exercise and a follow- up three-hour recovery stage. We adapted a known clustering algorithm to condense thousands of kinetic profiles that comprise only few and non-equidistant time points, a common scenario in metabolomics time-course experiments. Our novel clustering approach yielded 25 distinct clusters that were characteristic for either exercise or recovery stage. In a pathway enrichment analysis, the two most prominent clusters suggested the involvement of amino acid, free fatty acid (FFA), and catecholamine metabolism. Perturbations of these metabolic pathways were reported before in the context of physical exercise and recovery. Both discovery workflows produced biologically sound results which enabled us to construct more specific hypotheses. Driven by these, we now can validate our results with targeted follow-up experiments while avoiding redundant analyses, reducing time and costs.

This item appears in the following Collection(s)