Methods to improve short fragment NGS analysis - with a focus on ancient DNA

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/89312
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-893127
http://dx.doi.org/10.15496/publikation-30693
Dokumentart: Dissertation
Erscheinungsdatum: 2019-06-04
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Nieselt, Kay (Prof. Dr.)
Tag der mündl. Prüfung: 2019-05-29
DDC-Klassifikation: 004 - Informatik
500 - Naturwissenschaften
570 - Biowissenschaften, Biologie
Schlagworte: Bioinformatik , Alte DNA , Analyse
Freie Schlagwörter:
ancient DNA
NGS
Bioinformatics
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Die Einführung von Sequenziermethoden der nächsten Generation führte zu einem Anstieg an sequenzierten Daten, die analysiert werden müssen. Unterschiede in den Sequenzierdaten, wie zum Beispiel Reads unterschiedlicher Länge führen dazu, dass nicht alle Daten gleich ausgewertet werden können. Diese Arbeit beschäftigt sich mit Problemen, welche auf die kurzen Readlängen von Sequenziermethoden der nächsten Generation zurückzuführen sind. Die hier vorgestellten Methoden sind wichtig für aktuelle Sequenzierprojekte, da ein Großteil von ihnen diese Sequenziermethoden nutzen. Zugegebenermaßen versprechen Sequenziermethoden der dritten Generation, welche sich aktuell noch in der Anfangsphase befinden, viel längere Reads. Dennoch gibt es Forschungsfragen, welche nicht von diesen langen Reads profitieren können. Ein bedeutendes Beispiel hierfür sind Projekte, welche DNS Fragmente von alten Proben sequenzieren, da diese über die Zeit degradieren und deshalb typischerweise nur sehr kurz sind. Die vorgelegte Arbeit beschreibt mehrere Methoden und Programme, die sich auf unterschiedliche Forschungsfragen bezüglich Sequenziermethoden der nächsten Generation beziehen. Diese Methoden wurden gezielt für die Analyse von kurzen DNS Fragmenten entwickelt, wie sie auch in alten DNS Proben vorkommt, sind aber auch in Bezug auf andere Fragestellungen einsetzbar. Wir beschreiben Methoden für die Rekonstruktion von repetitiven Sequenzen, welche auf der Idee jede Region separate mit den kurzen Reads zu rekonstruieren beruht. Dies beseitigt das Problem, dass Reads an unterschiedliche Positionen im Genom platziert werden können. Des Weiteren zeigen wir eine Herangehensweise, welche auf zwei Schichten basiert, um die Denovo Assemblierung von kurzen Fragmenten mit unterschiedlichen Readlängen zu verbessern. Außerdem beschreiben wir einen automatisierten Ansatz um Rekonstruktionen, die auf dem Vergleich und der Positionsbestimmung der Reads mit einer bekannten Referenz basieren, zu vergleichen. Diese Methode basiert auf der Idee, alle Proben simultan zu analysieren. Zuletzt präsentieren wir SNPViz, ein Programm zur Visualisierung von Aminosäuren in der zugehörigen dreidimensionalen Struktur, die von Einzelnukleotid-Polimorphismen betroffen sind. Zusammengefasst beschreibt diese Arbeit Methoden um die Analyse von Daten, die mittels Sequenziermethoden der nächsten Generation erstellt wurden, zu verbessern. Diese Methoden können Forscher dabei unterstützen ihre Daten besser zu verstehen und ihnen helfen, neue Schwerpunkte für künftige Forschungsfragen zu finden.

Abstract:

The introduction of next-generation sequencing technologies led to an increase in the amount of sequencing data that needs to be analyzed. However, not all sequencing data are equally analyzable owing, for example, to differences in read length. This thesis addresses some of the problems related to the short reads generated by next-generation sequencing technologies. This is of great relevance, as most recent and ongoing sequencing projects still use next-generation sequencing. Admittedly, third generation sequencing, which is still in its infancy to date, promises the generation of much longer reads. However, some research questions cannot make use of these long-read technologies. A prominent example are ancient DNA projects that sequence fragments of DNA from ancient samples, which have degraded over time and are typically very short. The present thesis introduces several methods and programs addressing different research applications of next-generation sequencing data, which can be used especially when, as in the case of research on ancient DNA, have to deal with short fragments. We present methods for the reconstruction of the sequence of repetitive regions using only short reads by reconstructing each repetitive region separately, thus eliminating the problem of reads that map to multiple locations. Additionally, we present a two-layer approach to address the de novo assembly of short fragments, which generally contains reads of different lengths.Furthermore, we present an automated method to compare mapping-based reconstructions that share the same reference by analyzing them simultaneously. Finally, we present SNPViz, which visualizes amino acid affected by a SNP within the protein sequence and its corresponding three-dimensional structure. Taken together, this thesis presents several methods to improve the analysis of next-generation sequencing technologies. These methods can support researchers in better understanding their data and can help them uncover new foci for future research.

Das Dokument erscheint in: