Methodology for Microbiome Meta-Analyses with a Focus on Colorectal Cancer

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/127501
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1275016
http://dx.doi.org/10.15496/publikation-68864
Dokumentart: Dissertation
Date: 2022-05-30
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof. Dr.)
Day of Oral Examination: 2022-05-12
DDC Classifikation: 570 - Life sciences; biology
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Das menschliche Mikrobiom wird zunehmend als Eckpfeiler für die humane Physiologie erkannte, insbesondere bei der Entwicklung von Krankheiten. Verschiedene vergleichende metagenomische Studien versuchten daher, potenzielle mikrobielle Biomarker für häufige Krankheiten zu finden, mit ersten vielversprechenden Ergebnissen unter anderem für Darmkrebs. Die Identifikation von robusten und allgemein prädiktiven Biomarkers wird aber durch technische Heterogenität und biologische Störfaktoren erschwert. Eine weitere Komplikation ergibt sich durch den Mangel an standardisierter Methodik für statistische Analysen. Das zentrale Ziel meiner Doktorarbeit war die Entwicklung und Bewertung von Methodik für statistische Analysen und maschinelles Lernen im Rahmen von klinischen metagenomischen Studien, mit besonderem Augenmerk auf Darmkrebs. Im ersten Teil entwickelte ich einen Ansatz für die realistische Simulation von metagenomischen Daten durch die Implantierung von Signalen in reale Daten. Die meisten Methoden verzeichneten erhöhte Falscherkennungsraten, insbesondere dann, wenn auch Störfaktoren in den Simulationen abgebildet waren, doch der Wilcoxon test und lineare Modelle (sowie deren Störfaktor-korrigierten Variationen) zeigten die beste Leistung in dieser Benchmark. Der zweite Teil beschreibt das SIAMCAT R-Paket, eine benutzerfreundliche und validierte Software, die Workflows für das maschinelle Lernen in Mikrobiomdaten bereitstellt. Die Publikation enthält ein Fallbeispiel dafür, wie SIAMCAT Störfaktoren entdecken kann, sowie Illustrationen von häufigen Fehlerquellen bei dem Design von Workflows für maschinellen Lernen. Der dritte Abschnitt beschreibt eine Meta-Analyse zu Darmkrebs, die auf der Grundlage von acht verfügbaren metagenomischen Datensätzen aus drei Kontinenten robuste, global prädiktive und spezifische taxonomische und funktionelle mikrobielle Biomarker für Darmkrebs ermitteln konnte. Neuere Analysen, die über die ursprünglichen Ergebnissen hinausgehen, identifizierten konsistent mit Darmkrebs assoziierte Bakterien, was den Ausgangspunkt für künftige mechanistische Studien zu der Rolle des Mikrobioms bei Darmkrebs bilden kann. Über Darmkrebs hinausgehen untersuchte ich in einer Meta-Analyse mit verschiedenen Krankheiten, wie Modelle des maschinellen Lernens über verschiedene Studien hinweg angewendet werden können. Die naive Übertragung von Modellen auf andere Datensätze bringt erhebliche Herausforderungen mit sich, welche durch eine Strategie, die auf der Erweiterung von Datensätzen mit externen Kontrollen beruht, bewältigt werden konnten. Das Ergebnisse meiner Doktorarbeit bestehen daher aus konkreten Empfehlungen für das Testen von differenzieller Abundanz und für die Übertragung von Modellen des maschinellen Lernens in Mikrobiomdaten, einer Software für die statistischen Analyse und maschinelles Lernen, sowie in global prädiktiven mikrobiellen Biomarkern für Darmkrebs.

Abstract:

The human microbiome has been recognized as an important cornerstone of human physiology and immunity, situated at the interplay between health and disease. Consequently, comparative metagenomic studies have identified potential microbial biomarkers for common diseases with initial promising results for colorectal cancer, amongst others. Assessing biomarker robustness and generalization across populations, however, is complicated by widespread technical heterogeneity and biological confounding, which is further compounded by a lack of standardized methodology for statistical analyses. In my doctoral research, I aimed to develop and evaluate methodology for the statistical and machine learning analysis of clinical metagenomic data, with a special focus on colorectal cancer. In the first part, I developed a simulation framework for the benchmarking of differential abundance testing methods based on implanting signals into real data, enabling more realistic benchmarks than previous efforts. Most methods failed to control the false discovery rate, especially under confounded conditions, but the Wilcoxon test and linear models as well as their confounder-corrected varieties showed best performance in this benchmark. The second part describes the SIAMCAT R package as a user-friendly toolbox which provides machine learning workflows for the analysis of metagenomic data. The publication includes an example for how SIAMCAT can detect confounding and illustrates common machine learning pitfalls. The third section describes a colorectal cancer meta-analysis, which was able to establish robust, globally predictive, and disease-specific taxonomic and functional microbial biomarkers for colorectal cancer based on eight available shotgun metagenomic datasets from three different continents. More recent analyses, extending the original results and including different data types, have identified bacteria consistently and reliably associated with colorectal cancer, representing the starting point for future mechanistic studies. Going beyond colorectal cancer, I explored the cross-study application of microbiome-based machine learning models in a meta-analysis encompassing various diseases. I uncovered substantial challenges for the naive transfer of models across datasets and proposed a strategy to address those based on augmentation with external controls. The outcome of my doctoral research therefore consists of empirical recommendations for differential abundance testing and machine learning model transfer in microbiome data, a software package for statistical and machine learning workflows, and a set of globally predictive microbial biomarkers for colorectal cancer.

This item appears in the following Collection(s)