Maximum Likelihood Phylodynamic Analysis

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/82928
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-829288
http://dx.doi.org/10.15496/publikation-24319
Dokumentart: Dissertation
Date: 2018-07-02
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Biologie
Advisor: Neher, Richard (Prof. Dr.)
Day of Oral Examination: 2018-01-29
DDC Classifikation: 000 - Computer science, information and general works
004 - Data processing and computer science
500 - Natural sciences and mathematics
570 - Life sciences; biology
Keywords: Bioinformatik , Populationsgenetik , Phylogenetik
Other Keywords:
Bioinformatics
Population Genetics
Phylogenetics
Virus evolution
Divergence times
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die Anzahl der verfügbaren Genomsequenzen für verschiedene Pathogene hat in den letzten Jahren ausserordentlich zugenommen. Bestehende tradi- tionelle Methoden für die phylodynamische Analyse sind nicht effizient für eine große Anzahl von Sequenzen. Um mit den heute verfügbaren Daten- sätzen umzugehen, sind effiziente Heuristiken notwendig. In dieser Arbeit wird ein annähender Maximum-Likelihood Ansatz zur phylodynamischen Analyse entwickelt. Der Hauptzweck dieses Ansatzes war es die Divergenzzeiten in grossen Sequenz Alignments von schnell evolvierenden Organismen zu schätzen. Ausserdem bietet er die Funktion ancestrale Zustände zu schätzen, Evolutionsmodelle abzuleiten, Bäume neu zu wurzeln, um zeitliche Signale zu maximieren, sowie um Phylogenien der molekularen Uhr und die Geschichte von Populationsgrössen abzuschätzen. Die Laufzeit der meisten entwickelten Algorithmen verhält sich dabei linear zur Grösse des Datensatzes. Grundsätzliche Anwendungsfelder für diesen Ansatz sind epidemologische Studien sowie solche, die sich mit der Evolu- tion von Pathogenen beschäftigen. Dies beinhaltet das Datieren von Trans- missionen über Speziesgrenzen hinweg, wie auch das des Eintretens in ge- ographiche Regionen, sowie die Untersuchung von Populationsgrössen von Pathogenen. Im zweiten Teil dieser Arbeit stelle ich die Interferenzschemata der Evo- lutionsmodelle vor, die sich in der Substitutionrate ihrer Sites unterschei- den. Diese Art von Modell kann nicht nur bessere Ergebnisse bezüglich der Annäherung der phylogenetischen Rekonstruktion hervorbringen, son- dern auch die evolutionären Kräfte vorhersagen, die auf Protein- oder DNA- Sequenzen einwirken.

Abstract:

The number of genome sequences available for different pathogens has in- creased dramatically over the last couple of years. Existing traditional meth- ods for phylodynamic analysis scale poorly with the number of sequences. Therefore, efficient heuristics are needed to cope with the growing data sets available today. In this work, an approximate maximum-likelihood framework for phy- lodynamic analysis is developed. Its main purpose has been to estimate divergence times in large sequence alignments of rapidly evolving organ- isms. In addition, it provides a functionality to estimate ancestral states, infer evolution models, re-root trees to maximize temporal signals, and es- timate molecular clock phylogenies and population size histories. The run time for most of the developed algorithms scales linearly with dataset size. The basic application fields for the framework are studies for epidemiology and pathogen evolution, including dating cross-species transmissions, dat- ing introductions into geographic regions, and studying the time course of pathogen population sizes. In the second part of this work, I present an inference scheme for evo- lutionary models with substitution rate heterogeneity among sites. These types of models can not only result in a better approximation of the phylo- genetic reconstruction, but also predict the evolutionary forces acting along protein or DNA sequences.

This item appears in the following Collection(s)