A phylogenetic potpourri - Computational methods for analysing genome-scale data

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-44779
http://hdl.handle.net/10900/49371
Dokumentart: Dissertation
Date: 2009
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof. Dr.)
Day of Oral Examination: 2010-01-13
DDC Classifikation: 004 - Data processing and computer science
Keywords: Bioinformatik , Phylogenetik
Other Keywords:
Bioinformatics , Phylogenetics , Whole Genome Phylogeny
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Seit den Anfängen der Erforschung evolutionärer Prozesse gilt das Bestreben dieser Disziplin der Rekonstruktion eines möglichst wirklichkeitsgetreuen Stammbaums des Lebens. Dieser Zweig der Wissenschaft wird nach Ernst Haeckel als "Phylogenetik" bezeichnet - die Entwicklungsgeschichte der Stämme. Die ersten phylogenetischen Methoden benutzten morphologische Merkmale zur Unterscheidung von Arten, um daraus einen Stammbaum des Lebens zu erstellen. Allerdings ist diese Methodik nur beschränkt auf Mikroorganismen anwendbar, da diese nur wenige gut zu unterscheidende morphologische Merkmale besitzen. Erst die Entschlüsselung der DNA-Struktur durch Francis Crick und James Watson, sowie die Entwicklung der Sanger-Sequenziertechnologie ermöglichten es, genetische Informationen zur phylogenetischen Rekonstruktion heranzuziehen. Noch unbeantwortet ist hingegen die Frage nach der tatsächlichen Existenz eines prokaryotischen Baums des Lebens. Prokaryoten (Bakterien und Archaea) besitzen Mechanismen für den direkten Austausch von genetischem Material zwischen Zellen, die zu verschiedenen Arten gehören können (horizontaler Gentransfer). Dies bedeutet, dass ein Gen auch durch andere Wege als die klonale Vermehrung erhalten werden kann, die eben nicht durch eine Baumstruktur repräsentiert werden können. In dieser Dissertation stellen wir die GBDP-Methodik ("Genome BLAST distance phylogeny") vor, mit der Phylogenien aus ganzen Genomen berechnet werden können. Die Ergebnisse der GBDP-Methodik werden mit einer Taxonomie verglichen, die auf der Phylogenie von Einzelgenen basiert. Des weiteren untersuchen wir den Anteil von horizontalem Gentransfer in einer Gruppe von Genen, die in allen von uns untersuchten prokaryotischen Genomen vorkommen. Für diese Untersuchung benutzen wir sowohl eine aktuelle Methode, wie zwei von uns neu vorgestellte Ansätze. Zusätzlich schlagen wir hier eine neue Methode zur Spezies-Bestimmung bei Prokaryoten vor, die auf der GBDP-Methodik basiert. Im letzten Teil der Dissertation werden mehrere Software-Pakete vorgestellt. Zusammen mit AxParafit und AxPcoords stellt CopyCat das erste Grid-fähige Software-Paket dar, das speziell im Hinblick auf großangelegte kophylogenetische Analysen entwickelt wurde. Mit diesen Programmen können große Wirts- und Parasitenphylogenien miteinander auf übereinstimmungen hin untersucht werden. Des weiteren wird MEGAN vorgestellt, eine benutzerfreundliche Software-Applikation für die Analyse von Metagenomik-Datensätzen, sowie MetaSim, ein Simulationsprogramm für Metagenomik-Datensätze, das zur Unterstützung der Entwicklung und Verifikation von Metagenomik-Software entwickelt wurde.

Abstract:

Since the dawn of evolutionary biology, it was the dream of scientists to obtain a meaningful genealogy of species, a "tree of life". The term "phylogenetics" was coined by Ernst Haeckel for that area of research, meaning the history of the evolutionary relationships between species. First phylogenetic approaches focused on morphological differences between species. However, the analysis of the phylogeny of microbial organisms is hindered due to the limited number of observable morphological differences. With the discovery of the structure of DNA by Francis Crick and James Watson, and the development of the Sanger sequencing technology, it became feasible to use genetic information for phylogenetic inference. Regarding the prokaryotic universe (Bacteria and Archaea), a main question of phylogenetics is whether there exists a prokaryotic "tree of life" actually. Those organisms exhibit mechanisms for the direct exchange of genetic material between cells that can belong to different species (called horizontal gene transfer). Accordingly, genes can be derived from different organisms rather than via clonal reproduction, as expressed by a phylogenetic tree. In this thesis, we introduce the GBDP ("Genome BLAST distance phylogeny") framework for inferring phylogenies based on whole genomes, and we compare the results with a current taxonomic tree based on single genes. Furthermore, we investigate the amount of horizontal gene transfer in a common set of prokaryotic genes by using a state-of-the-art method, as well as two newly developed approaches. Additionally, a new method for species delineation is proposed that is based on the GBDP method for deriving whole genome phylogenies. In the last part of the thesis, several software packages are presented. CopyCat, together with AxParafit and AxPcoords, represents the first Grid-enabled software package that is optimized for large-scale cophylogenetic studies. With these tools, large host and parasite phylogenies can be screened for correlations. Furthermore, MEGAN, a user-friendly software application for the analysis of metagenomic datasets is presented. Metagenomics is the study of microorganismal communities by direct extraction of DNA from environmental samples. To aid the development and testing of metagenomic software, we developed MetaSim, a tool to generate simulated metagenomic datasets.

This item appears in the following Collection(s)