Inhaltszusammenfassung:
In jüngster Vergangenheit hat sich die Metabolomik zu einer leistungsfähigen Methode entwickelt, mittels derer sich systematisch Veränderungen des Stoffwechsels erfassen lassen, welche
durch Krankheit, Ernährung oder Umwelteinflüsse herbeigeführt werden. Die Massenspektrometrie mit Flüssigkeitschromatographie-Kopplung hat sich dabei als wichtigstes analyti-
sches Instrument etabliert, da sie sowohl die hohe Komplexität und chemische Vielfalt eines Metaboloms erfassen kann, als auch die Messung biologischer Proben im Hochdurchsatz erlaubt.
Die rasante Entwicklung in der Massenspektrometrie führte jedoch zu enormen Datenmengen und erhöhter Datenkomplexität, sodass die rechnerische Auswertung schnell zu einem
Engpass führte. Das Gebiet der "Computational Metabolomics" zielt auf die Entwicklung effizienter Algorithmen und flexibler Workflows ab, um den Anforderungen an die Analyse von im
Hochdurchsatz gemessenen Metabolomikdaten gerecht zu werden. Im Rahmen dieser Arbeit haben wir uns mit den drei Kernproblemen dieser Disziplin auseinandergesetzt. Diese umfassen
die Quantifizierung von Metaboliten, deren Identifizierung sowie statistische Methoden zur Erkennung charakteristischer Metabolitenmuster und neuer Biomarker. Unser Hauptaugen-
merk lag dabei auf dem Design robuster und umfassender Workflows, wobei die genannten Kernfragen nicht isoliert, sondern im Zusammenhang betrachtet wurden.
Wir entwickelten einen neuen Algorithmus, welcher eine robuste Detektierung und Quantifizierung von Metabolitensignalen (Features) in LC-MS-Daten ermöglicht. Dieser extrahiert
chromatographische Profile mit hoher Sensitivität und sieht eine Auflösung von Isotopenmustern mittels eines neu entwickelten SVM-Modells vor. Unser Algorithmus wurde sowohl auf
echten als auch simulierten LC-MS-Benchmarkdatensätzen validiert und zeigte im Vergleich zu bestehenden Lösungen hervorragende Ergebnisse. Zur Identifizierung von unbekannten
Features entwarfen wir eine umfassende, integrative Strategie, welche sich möglichst viele Eigenschaften eines Features (z.B. Isotopenmuster, Retentionszeit) zu Nutze macht. Diese
wurden dann zu Filterkriterien kombiniert, um eine verlässlichere Identifikation zu erzielen. Zu diesem Zweck entwickelten wir ein Softwaretool, mit dem eine hohe Anzahl an Features mittels
ihrer Masse effizient gegen eine Metabolitendatenbank abfragt werden kann. Standardmäßig deckt es eine breite Palette an potentiellen Addukten ab, kann aber auch frei konfiguriert wer-
den. Wir erweiterten unser Suchwerkzeug um einen Isotopen- und Retentionszeitfilter, mit dem Ziel, die Zahl der falsch positiven Treffer beträchtlich zu reduzieren. Der Nutzen von Modellen
zur Vorhersage der Retentionszeit wurde zwar vereinzelt nachgewiesen, routinemäßig erstellt und in ID-Pipelines integriert — wie in unserem Fall — wurden sie jedoch nicht. Des Weiteren
implementierten wir eine effiziente Methode zum Abgleich von MS/MS-Spektren gegen eine eigens zugeschnittene Spektrendatenbank. Unsere Methoden wurden auf Grundlage eines
LC-MS/MS-Datensatzes validiert und erzielten in ihrem Zusammenspiel eine hervorragende Genauigkeit.
Das übergeordnete Ziel der "Computational Metabolomics" ist es, aus komplexen LC-MS-basierten Metabolomikdaten neue biologische Erkenntnisse zu gewinnen. Hierfür entwarfen
wir umfassende Workflows zur Analyse von globalen Metabolomikdaten, die auf robusten statistischen Methoden aufbauten. Ihren Nutzen konnten wir zeigen, indem wir zwei biologisch
relevante Fragestellungen beantworteten. Die erste zielte auf die Rolle des rs7903146 Polymorphismus im TCF7L2-Gen und dessen Auswirkung auf T2DM ab. Wir entdeckten mehr als 100
potentielle Biomarker, von denen einige auf für T2DM typische Störungen in der Biosynthese von Gallensäuren und Androgenen hinweisen. Unser Ansatz übertraf klassische statistische Metho-
den wie etwa PLS-DA, welche keinerlei signifikante Unterschiede zwischen den Kontroll- und Risikoallelgruppen aufzeigen konnte. Die zweite Fragestellung betraf das Auffinden von charak-
teristischen Mustern und entsprechenden Stoffwechselwegen, die während einer zweistündigen Belastungsphase und einer darauffolgenden dreistündigen Ruhephase beeinflusst wurden. Wir
adaptierten einen bekannten Clusteralgorithmus, um eine Vielzahl von solchen Zeitreihen zu komprimieren, die aus nur wenigen und nicht gleichabständigen Zeitpunkten bestehen — ein
häufig anzutreffender Fall bei Zeitreihenanalysen auf Metabolomikdaten. Unser neuartiger Clustering-Ansatz brachte 25 unterschiedliche Cluster hervor, die jeweils für die Belastungs-
oder Erholungsphase repräsentativ waren. Die zwei auffälligsten Cluster legten im Rahmen einer "Pathway Enrichment" Analyse nahe, dass Aminosäure-, Fettsäure- und Katecholamin-
Stoffwechselwege involviert waren. Veränderungen innerhalb dieser Stoffwechselwege im Zusammenhang mit körperlicher Betätigung und Erholung wurden in der Forschung bereits
diskutiert. Beide Screening-Workflows führten zu biologisch aussagekräftigen Ergebnissen, mit Hilfe derer wir spezifischere Hypothesen aufstellen konnten. Dank dieser können wir
nun unsere Ergebnisse zielgerichtet mit weiterführenden Experimenten validieren, während redundante Analysen vermieden und somit zeitliche und finanzielle Ressourcen eingespart
werden können.
Abstract:
In recent years, metabolomics has become a powerful approach to systematically study alterations in metabolism induced by disease, nutrition, and environmental changes. Liquid
chromatography-mass spectrometry (LC-MS) has been established as the main analytical platform since it is sensitive enough to capture metabolomes’ high complexity and chemical diversity
and allows for processing biological samples in a high-throughput manner. However, rapid evolvement of mass spectrometry (MS) technology resulted in enormous data volumes and
complexity and with that gave rise to a computational bottleneck. Computational metabolomics strives to develop efficient algorithms and flexible workflows to meet the data analysis needs
of high-throughput metabolomics experiments. In this work, we addressed the three key problems of computational metabolomics: quantification of metabolites, their identification, and
statistical methods to reveal discriminatory metabolic patterns and novel biomarkers. Our main design goal was to develop robust and comprehensive computational workflows to integrate
solutions to these key problems consistently instead of addressing them separately. We developed a novel algorithm for the robust detection and quantification of metabolite
features in LC-MS data. It extracts chromatographic profiles with high sensitivity and provides deisotoping by a novel support vector machine (SVM)-based classifier. Our algorithm was
validated both on real-world and simulated LC-MS benchmark datasets and showed an excellent performance when compared to existing solutions. In order to identify unknown features, we
devised a comprehensive and integrative strategy that exploits as many complementary feature characteristics as possible (e.g., relative isotopic abundance (RIA) and retention time (rt)).
These were then combined as filter criteria to yield more reliable metabolite identifications (IDs). To this end, we implemented an accurate mass search which efficiently facilitates any number
of queries against a metabolite database. It covers a wide range of potential adducts by default but allows for customization. We augmented it by orthogonal RIA and rt filters to considerably
reduce the number of false positive IDs. The utility of rt prediction models has been shown in a few stray instances, however, they were usually not built and integrated routinely in ID
pipelines as in our case. Furthermore, we provided an efficient means of matching tandem mass spectrometry (MS/MS) spectra against a precompiled fragment database. Based on an
LC-MS/MS validation dataset, we achieved excellent ID accuracy when our accurate mass search with orthogonal filters and spectral matching algorithms were combined.
The ultimate goal of computational metabolomics is to extract novel biological knowledge from complex LC-MS-based metabolomics data. To this end, we designed comprehensive
analysis workflows for untargeted metabolomics data that build on robust statistical methods. We showed their utility by answering two biologically relevant questions. The first question
involved the role of the rs7903146 polymorphism located in the transcription factor 7-like 2 (TCF7L2) gene and its impact on type 2 diabetes mellitus (T2DM). We found more than 100
potential biomarkers with some pointing out perturbations in the bile acid and androgenic steroid biosyntheses, two well-documented complications of T2DM. Our approach outperformed
classical statistical methods such as the partial least squares discriminant analysis (PLS-DA) which could not detect any significant differences between control and risk allele groups. The
second question revolved around finding characteristic kinetic patterns and corresponding metabolic pathways that were perturbed during a two-hour single bout of exercise and a follow-
up three-hour recovery stage. We adapted a known clustering algorithm to condense thousands of kinetic profiles that comprise only few and non-equidistant time points, a common scenario
in metabolomics time-course experiments. Our novel clustering approach yielded 25 distinct clusters that were characteristic for either exercise or recovery stage. In a pathway enrichment
analysis, the two most prominent clusters suggested the involvement of amino acid, free fatty acid (FFA), and catecholamine metabolism. Perturbations of these metabolic pathways were
reported before in the context of physical exercise and recovery. Both discovery workflows produced biologically sound results which enabled us to construct more specific hypotheses.
Driven by these, we now can validate our results with targeted follow-up experiments while avoiding redundant analyses, reducing time and costs.