Computational Approaches for Analyzing Ancient Genomes and Modern Metagenomes

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-72389
http://hdl.handle.net/10900/50028
Dokumentart: Dissertation
Date: 2013
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof. Dr.)
Day of Oral Examination: 2014-02-06
DDC Classifikation: 004 - Data processing and computer science
Keywords: Informatik , Bioinformatik
Other Keywords:
Metagenomics , Bioinformatics
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die Einführung von modernen Sequenziermethoden eröffnete der klassischen Genetik eine Vielzahl an interessanten Möglichkeiten um Proben effizienter und detaillierter zu untersuchen. Technische Weiterentwicklung, hohe Durchsatzraten sowie geringe Beschaffungs- und Betriebskosten erlauben es Wissenschaftlern heute beispielsweise die Genomsequenzen von mehreren Bakterien in einer Probe gleichzeitig zu untersuchen oder das Erbgut von bereits ausgestorbenen Organismen zu analysieren. Im ersten Teil dieser Arbeit präsentieren wir aktuelle Methoden um, so genannte, Metagenome effizient zu untersuchen. Ein wichtiger Schritt der Analyse ist die Sequenzabschnitte der Probe mit bekannten Funktionen oder Organismen in Verbindung zu bringen. Die aktuell verwendeten Methoden sind entweder relativ langsam oder berechnen nicht alle notwendigen Details wie z.B. Sequenzalignments, die für eine detaillierte Analyse notwendig sind. In diesem Kontext präsentieren wir einen neuen Ansatz der im Gegensatz zu bisherigen Methoden schneller ist und dabei gleichzeitig Sequenzalignments zur Verfügung stellt. Bei Methoden die auf Referenzdatenbanken basieren ist die Zusammensetzung der Datenbank, sowie die Verknüpfung von Datenbankeinträgen zu Organismen oder Funktionen ein weiteres wichtiges Detail der Analyse. Wir untersuchen deshalb wie gut die oft verwendeten NCBI-NR Datenbank existierende Organismen und Funktionen abdeckt. Zur Verbesserung schlagen wir eine neue Methode zur Verknüpfung von Datenbankeinträgen mit Organismen und Funktionen vor. Die Evaluierung mit einem in-vitro simulierten Datensatz zeigt, dass wir mit der neuen Methode mehr und spezifischer Datenbankeinträge zu Organismen und Funktionen zuordnen können. Eine weitere generelle Herausforderung stellen die stetig wachsenden Daten- und Probenmengen dar. Die komplexe, aus mehreren Schritten bestehende Analyse sollte möglichst effizient und reproduziert durchzuführen sein. Ein effizientes Zusammenspiel in interdisziplinäre Projekte sowie mit externen Kollaborationspartnern benötigt oft, dass Zwischenergebnisse sowie komplette Analysen einfach und wirksam geteilt werden. In diesem Zusammenhang stellen wir eine lokale Instanz des Workflow-Management-Systems Galaxy vor, die ihm Rahmen dieser Arbeit aufgesetzt, angepasst und verwendet wurde. Der zweite Teil der Arbeit behandelt die Analyse von altertümlichen Proben. Altertümliche Proben bieten die einmalige Möglichkeit einen Einblick ist die Evolution, sowie die Verbreitung von bereits ausgestorbenen Bakterienstämmen zu erhalten. In dieser Arbeit untersuchen wir mehrere Proben bei denen verschiedene Indizien an den Überresten eine Infektion mit M. tuberculosis vermuten lassen. Zur Identifizierung von potentiellen Proben mit genug Ausgangmaterial wurde eine Whole-Genome-Shotgun Sequenzierung durchgeführt. Zusätzlich wurde ein weiterer Selektionsprozess angewandt, bei dem die Proben erst auf vier bestimmte Gene angereichert und im Anschluss sequenziert wurden. In der abschließenden Analyse wurden die Proben vor dem Sequenzieren für komplette Genome angereichert, da die altertümlichen Proben oft nur gering Menge an DNA verfügen. In dem letzten Teil dieser Arbeit diskutieren wir die Konstruktion des Anreicherungschips, sowie die darauf folgende Analyse.

Abstract:

Modern genomics entered a new era with the invention of next-generation sequencing techniques. Technical progress, high throughput and reasonably cheap costs of the systems enable us to look into the genomic sequences of whole communities or even extinct species. In the first part of this work we present and discuss state-of-the-art methods for analyzing metagenomes efficiently. As the assignment of sequencing reads to known species or functions is one key element in the analysis we discuss currently used methods. Those methods are usually either slow or do not provide all necessary information, such as genome alignments, for a detailed analysis. Here we present a novel approach, which is faster compared to previous methods while still providing genome alignments. Database composition and the assignment of database entries to species or functions is an equally important step during a metagenomic analysis. We inspect how well the taxonomy is covered by commonly used databases such as the NCBI-NR database. We also evaluate the efficiency of assignment methods using either plain text or RefSeq accession numbers to map reference sequences to taxa or functions. In this context we present a method using a the GenBank identifier for classifying reference sequences. Validation using an in vitro simulated metagenomic dataset shows that the new approach can assign more reads to function or taxa. At the same time the new approach is more specific than the previously used methods. The huge amounts of data and the steadily increasing number of samples require an initial investment of time and effort to be able to analyze the incoming data efficiently. Interdisciplinary work and external collaboration partners emphasize the need for a flexible approach to present intermediate steps during the analysis and sharing of the final results. Here we present a local instance of the workflow system galaxy which was used in the different projects throughout this thesis. In the second part of this thesis we analyze ancient DNA samples which are suspected to be infected with ancient M. tuberculosis. Ancient strains have the potential of giving insight into evolution and distribution of extinct pathogens. Screening for potentially interesting samples was done using a whole genome shotgun approach. An additional screening was performed by sequencing samples which were enriched for four specific genes. For the final analysis we performed a genome wide enrichment prior to sequencing as ancient samples often yield only very low amounts of DNA. Design of the enrichment chip is discussed as well as the subsequent analysis. In the end of the analysis consensus sequences for three ancient strains are calculated. Single nucleotide polymorphisms are determined as a base for a downstream phylogentic analysis.

This item appears in the following Collection(s)