Methods for large-scale Microbiome Analysis using MEGAN

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Huson, Daniel (Prof. Dr.)
dc.contributor.author Ruscheweyh, Hans-Joachim
dc.date.accessioned 2015-06-23T07:25:44Z
dc.date.available 2015-06-23T07:25:44Z
dc.date.issued 2015-06
dc.identifier.other 43411278X de_DE
dc.identifier.uri http://hdl.handle.net/10900/63817
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-638179 de_DE
dc.identifier.uri http://dx.doi.org/10.15496/publikation-5239
dc.description.abstract The capability of next generation sequencers of emitting enormous volumes of data at a moderate cost has changed the field of sequence based research areas, such as metagenomics or studies estimating microbial diversity by using the 16S rRNA gene. While early studies investigated relatively small samples in isolation, current studies effectively target questions that require deeper sequencing of a larger number of samples. As a consequence of this development it becomes increasingly difficult to perform the computational component of the analysis on a desktop computer. As a matter of fact, even if the computationally intensive parts are outsourced to a more powerful environment, users still face datasets outgrowing the size of their home computers. This development disagrees with the policy of MEGAN - a widely accepted, powerful and user-friendly tool for metagenomics - to perform qualitative analysis on local data files. To overcome this limitation, we developed MEGANServer. MEGANServer allows bioinformaticians to retain data files on a server with sufficient resources. Furthermore, we extended MEGAN to communicate with MEGANServer and by that enable researchers to perform their analysis on a home computer regardless the actual data size. Moreover, to overcome the complexity introduced by the growing number of samples, selection of datasets of interest is automated by metadata-based grouping. In addition, following the analysis strategy of the 16S rRNA studies, datasets can be opened applying different strategies, for instance as merged data, in order to provide a deeper insight on taxonomic and/or functional distribution. Furthermore, and as a consequence of a development in which metagenomics and 16S rRNA studies are converging, we extended MEGAN to also deal with sequences that stem from a targeted approach. More precisely, we have developed a pipeline that covers the entire workflow, starting from pre-processing and, in a final step, allowing qualitative analysis using MEGAN. For that, we took advantage of a novel aligner, namely MALT, that in combination with a placement algorithm, namely the Majority Vote LCA, introduced recently in MEGAN, is not only capable of assigning more than 99\% of reads to the correct genus, but lowers the rate of false positives to a value close to 0\%. We believe that, by the additional utilization of the different data access strategies implemented in MEGANServer, MEGAN in combination with MALT and the Majority Vote algorithm is now fully capable of serving as a powerful, yet user-friendly analysis tool for 16S rRNA sequencing data. en
dc.description.abstract Seit der Einführung von Sequenzierern der zweiten Generation ist es möglich, große Datenmengen zu einem niedrigen Preis zu erzeugen. Angetrieben durch diesen Fortschritt zeichnet sich eine Weiterentwicklung im Studiendesign in der Metagenomik wie auch in der 16S rRNA Analyse ab. Während in früheren Studien noch einzelne und relativ kleine Proben analysiert wurden, werden heutzutage biologische Fragen gestellt, die man nur durch eine größere Anzahl an Proben und tieferer Sequenzierung beantworten kann. Eine Konsequenz aus dieser Entwicklung besteht darin, dass rechenintensive Schritte heute nicht mehr auf Heimcomputern ausgeführt werden können. Selbst eine Auslagerung dieser Schritte auf dafür spezialisierte Großrechner löst nicht das Problem der enormen Datenmengen, die für eine qualitative Analyse anschließend wieder auf den Heimcomputer kopiert werden müssen. MEGAN - ein weitverbreitetes, mächtiges und trotzdem anwenderfreundliches Programm - greift zur visuellen Aufarbeitung von Metagenomikdaten auf lokal gespeicherte Datensätze zurück. Für diesen Ansatz bedeuten die wachsenden Datenmengen ein Problem. Aus diesem Grund wurde MEGANServer entwickelt. MEGANServer erlaubt es, Datensätze auf Großrechnern zu speichern und stellt weiterhin eine Schnittstelle bereit, mit der Benutzer über MEGAN auf diese Daten zugreifen können. Außerdem wurde weitere Logik implementiert, die es dem Benutzer erleichtert Datensätze zu finden, zu vergleichen, Daten zu extrahieren und mehrere Datensätze zu kombinieren. Dadurch kann genauere Einsicht in die funktionale und taxonomische Vielfalt einer Probe erhalten werden. Da die Felder der Metagenomik und der 16S rRNA Studien, konvergieren, wurde MEGAN weiterentwickelt, um Analysen für Sequenzen aus beiden Bereichen mit hoher Qualität durchführen zu können. Dafür wurde eine Pipeline entwickelt, die mit der Qualitätskontrolle beginnt und in einem letzten Schritt qualitative Analyse und visuelle Aufarbeitung in MEGAN unterstützt. Dazu wurde der Aligner MALT mit einer neu entwickelten taxonomischen Platzierungsmethode (Majority Vote) kombiniert. Mit dieser Methodik kann die korrekte taxonomische Zuordnung auf einen Wert über 99\% Prozent erhöht werden ohne gleichzeitig die Rate der Falsch-Positiven negativ zu beeinflussen. de_DE
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification Bioinformatik , Taxonomie , Ribosomale RNS , Informatik de_DE
dc.subject.ddc 004 de_DE
dc.subject.other Metagenomics en
dc.subject.other Sequence Analysis en
dc.subject.other Alignment en
dc.subject.other Taxonomical Classification en
dc.subject.other REST Web Services en
dc.subject.other Metagenomik de_DE
dc.subject.other Sequenzanalyse de_DE
dc.title Methods for large-scale Microbiome Analysis using MEGAN en
dc.type PhDThesis de_DE
dcterms.dateAccepted 2014-10-22
utue.publikation.fachbereich Informatik de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige