Methods for large-scale Microbiome Analysis using MEGAN

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://hdl.handle.net/10900/63817
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-638179
http://dx.doi.org/10.15496/publikation-5239
Dokumentart: Dissertation
Date: 2015-06
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof. Dr.)
Day of Oral Examination: 2014-10-22
DDC Classifikation: 004 - Data processing and computer science
Keywords: Bioinformatik , Taxonomie , Ribosomale RNS , Informatik
Other Keywords: Metagenomik
Sequenzanalyse
Metagenomics
Sequence Analysis
Alignment
Taxonomical Classification
REST Web Services
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Seit der Einführung von Sequenzierern der zweiten Generation ist es möglich, große Datenmengen zu einem niedrigen Preis zu erzeugen. Angetrieben durch diesen Fortschritt zeichnet sich eine Weiterentwicklung im Studiendesign in der Metagenomik wie auch in der 16S rRNA Analyse ab. Während in früheren Studien noch einzelne und relativ kleine Proben analysiert wurden, werden heutzutage biologische Fragen gestellt, die man nur durch eine größere Anzahl an Proben und tieferer Sequenzierung beantworten kann. Eine Konsequenz aus dieser Entwicklung besteht darin, dass rechenintensive Schritte heute nicht mehr auf Heimcomputern ausgeführt werden können. Selbst eine Auslagerung dieser Schritte auf dafür spezialisierte Großrechner löst nicht das Problem der enormen Datenmengen, die für eine qualitative Analyse anschließend wieder auf den Heimcomputer kopiert werden müssen. MEGAN - ein weitverbreitetes, mächtiges und trotzdem anwenderfreundliches Programm - greift zur visuellen Aufarbeitung von Metagenomikdaten auf lokal gespeicherte Datensätze zurück. Für diesen Ansatz bedeuten die wachsenden Datenmengen ein Problem. Aus diesem Grund wurde MEGANServer entwickelt. MEGANServer erlaubt es, Datensätze auf Großrechnern zu speichern und stellt weiterhin eine Schnittstelle bereit, mit der Benutzer über MEGAN auf diese Daten zugreifen können. Außerdem wurde weitere Logik implementiert, die es dem Benutzer erleichtert Datensätze zu finden, zu vergleichen, Daten zu extrahieren und mehrere Datensätze zu kombinieren. Dadurch kann genauere Einsicht in die funktionale und taxonomische Vielfalt einer Probe erhalten werden. Da die Felder der Metagenomik und der 16S rRNA Studien, konvergieren, wurde MEGAN weiterentwickelt, um Analysen für Sequenzen aus beiden Bereichen mit hoher Qualität durchführen zu können. Dafür wurde eine Pipeline entwickelt, die mit der Qualitätskontrolle beginnt und in einem letzten Schritt qualitative Analyse und visuelle Aufarbeitung in MEGAN unterstützt. Dazu wurde der Aligner MALT mit einer neu entwickelten taxonomischen Platzierungsmethode (Majority Vote) kombiniert. Mit dieser Methodik kann die korrekte taxonomische Zuordnung auf einen Wert über 99\% Prozent erhöht werden ohne gleichzeitig die Rate der Falsch-Positiven negativ zu beeinflussen.

Abstract:

The capability of next generation sequencers of emitting enormous volumes of data at a moderate cost has changed the field of sequence based research areas, such as metagenomics or studies estimating microbial diversity by using the 16S rRNA gene. While early studies investigated relatively small samples in isolation, current studies effectively target questions that require deeper sequencing of a larger number of samples. As a consequence of this development it becomes increasingly difficult to perform the computational component of the analysis on a desktop computer. As a matter of fact, even if the computationally intensive parts are outsourced to a more powerful environment, users still face datasets outgrowing the size of their home computers. This development disagrees with the policy of MEGAN - a widely accepted, powerful and user-friendly tool for metagenomics - to perform qualitative analysis on local data files. To overcome this limitation, we developed MEGANServer. MEGANServer allows bioinformaticians to retain data files on a server with sufficient resources. Furthermore, we extended MEGAN to communicate with MEGANServer and by that enable researchers to perform their analysis on a home computer regardless the actual data size. Moreover, to overcome the complexity introduced by the growing number of samples, selection of datasets of interest is automated by metadata-based grouping. In addition, following the analysis strategy of the 16S rRNA studies, datasets can be opened applying different strategies, for instance as merged data, in order to provide a deeper insight on taxonomic and/or functional distribution. Furthermore, and as a consequence of a development in which metagenomics and 16S rRNA studies are converging, we extended MEGAN to also deal with sequences that stem from a targeted approach. More precisely, we have developed a pipeline that covers the entire workflow, starting from pre-processing and, in a final step, allowing qualitative analysis using MEGAN. For that, we took advantage of a novel aligner, namely MALT, that in combination with a placement algorithm, namely the Majority Vote LCA, introduced recently in MEGAN, is not only capable of assigning more than 99\% of reads to the correct genus, but lowers the rate of false positives to a value close to 0\%. We believe that, by the additional utilization of the different data access strategies implemented in MEGANServer, MEGAN in combination with MALT and the Majority Vote algorithm is now fully capable of serving as a powerful, yet user-friendly analysis tool for 16S rRNA sequencing data.

This item appears in the following Collection(s)