Computational Methods for High-Throughput Genomics and Transcriptomics

Bohnert, Regina

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Rätsch, Gunnar (Dr.)	de_DE
dc.contributor.author	Bohnert, Regina	de_DE
dc.date.accessioned	2011-12-08	de_DE
dc.date.accessioned	2014-03-18T10:23:51Z
dc.date.available	2011-12-08	de_DE
dc.date.available	2014-03-18T10:23:51Z
dc.date.issued	2011	de_DE
dc.identifier.other	354525964	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-59180	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/49607
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-496072	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-496070	de_DE
dc.description.abstract	The completion of genome sequences for many species, including humans and a number of model organisms, was considered a major milestone at the turn of the millennium. It has been quickly realised that focusing on a single reference genome per species is insufficient to understand the diversity within and between organisms. However, for each species, a multitude of genome sequences are required to give insight into causal sequences for variable traits. The advent of high-throughput technologies such as next-generation sequencing has undoubtedly accelerated sequencing and allowed for many exciting large-scale studies in genetics that were not previously conceivable. Genome-wide association studies, in which the linkage of sequence and phenotype variations is investigated, have highly profited from the recent technology development. For these kinds of studies, it is indispensable to measure genotypes and relevant traits for a large set of individuals. Because such data is of immense quantity and often noisy, computational approaches are required to analyse data from next-generation genetics. In the context of my thesis, I have contributed to the analysis of biological high-throughput data in two respects. In order to accurately describe genotypes, I have designed efficient large-scale tools to identify and catalogue polymorphisms from array data. Moreover, I have developed approaches for the estimation of transcript abundances from next-generation sequencing data, enabling precise analyses of transcriptomes. The first part of my thesis focuses on the analysis of array-based resequencing data that was obtained to describe sequence variation across 20 diverse varieties of domesticated rice. I applied sophisticated machine learning methods for efficient and accurate analysis of this enormous set of hybridisation data. Using an approach based on Support Vector Machines, I uncovered more than 300,000 non-redundant single-nucleotide polymorphisms, which were found to be highly accurate assessed on a gold standard set of polymorphisms. For the detection of complex regions of polymorphisms, I employed a second machine learning method based on Hidden Markov Support Vector Machines, revealing between 65,000 and 203,000 polymorphic regions across varieties and complementing the SNP set derived with the SVM-based approach. Altogether, detecting hundreds of thousands of polymorphisms on a genome-wide scale has enabled the assembly of the first whole genome set of polymorphisms for the world's most important crop plant. In the second part of my dissertation, I address the question of accurate quantification of transcriptomes from RNA sequencing measurements. For this purpose, I developed a novel computational method that uses techniques from machine learning and optimisation. In particular, this tool, rQuant, infers the abundance of alternative transcripts and simultaneously estimates the effect of biases induced by experimental settings. Quantifying transcripts from artificial as well as experimental data sets demonstrated the superiority of rQuant in an evaluation for diverse settings and a comparison against other transcript quantification tools. Moreover, I adapted ideas of rQuant to develop a tool for quantitative deconvolution of RNA secondary structures. rQuant is available to the community as open-source software and as a web service. In conclusion, my thesis contributes to key parts of research in high-throughput genomics and transcriptomics. This work will facilitate the identification of genotype and phenotype linkage and will improve our understanding of the biological processes that make individuals unique.	en
dc.description.abstract	Die Sequenzierung von Genomen vieler Arten, darunter die des Menschen und einiger Modellorganismen, war ein wichtiger Meilenstein der Jahrtausendwende. Es wurde schnell klar, dass es nicht ausreicht, nur ein einzelnes Referenzgenom pro Art zu betrachten, um die Vielfalt innerhalb und zwischen Organismen zu verstehen. Viele Genomsequenzen pro Art sind notwendig, um zu verstehen, welche Sequenzen ursächlich für variable Merkmale sind. Die Einführung von Hochdurchsatzverfahren, wie zum Beispiel von Sequenziermethoden der nächsten Generation, haben zweifelsohne das Sequenzieren beschleunigt und ermöglichen viele interessante Genetikstudien im großen Umfang, die zuvor undenkbar waren. Genomweite Assoziationsstudien, in denen die Verbindung von Sequenz- und Phänotypvarianten untersucht werden, haben im großen Maße von der jüngsten Technologieentwicklung profitiert. Für diese Art von Studien ist es unabdingbar, Genotypen und relevante Eigenschaften für eine große Zahl an Individuen zu messen. Da diese Daten von immenser Größe und oft verrauscht sind, sind computergestützte Verfahren für die Datenanalyse in der Genetik notwendig. Im Rahmen meiner Doktorarbeit trug ich zur Analyse von biologischen Hochdurchsatzdaten in zweierlei Hinsicht bei. Um Genotypen genau zu beschrieben, entwarf ich effiziente Programme zur Erkennung und Katalogisierung von Polymorphismen basierend auf Arraydaten. Außerdem entwickelte ich Methoden, um Transkriptmengen aus Messungen neuartiger Sequenziertechnologien zu schätzen, die präzise Analysen von Transkriptomen ermöglichen. Der erste Teil meiner Doktorarbeit beschäftigt sich mit der Untersuchung von arraybasierten Resequenzierdaten, die generiert wurden, um Sequenzvariation innerhalb 20 verschiedener domestizierter Reissorten zu beschreiben. Ich verwendete ausgefeilte Methoden des maschinellen Lernens, um die große Menge an Hybridisierungsdaten effizient und genau zu analysieren. Basierend auf Support-Vector-Maschinen entdeckte ich mehr als 300.000 nicht-redundante Einzelnukleotidpolymorphismen, die sich, evaluiert an Hand eines Goldstandard für Polymorphismen, als sehr genau erwiesen. Um komplexe Polymorphismenregionen zu erkennen, wandte ich eine weitere Methode des maschinellen Lernens basierend auf Hidden-Markov-Support-Vector-Maschinen an, die zwischen 65.000 und 203.000 polymorphe Regionen innerhalb der Reissorten identifizierte und den SNP-Datensatz der SVM-Methode komplemenierte. Beide Ansätze zusammengenommen detektierten genomweit Hunderttausende von Polymorphismen, wodurch der erste Polymorphismendatensatz für das vollständige Genom der weltweit wichtigsten Nutzpflanze erstellt werden konnte. Im zweiten Teil meiner Dissertation widme ich mich der Fragestellung, Transkriptome, welche mit Hilfe von RNA-Sequenzierung gemessen werden, genau zu quantifizieren. Dazu entwickelte ich eine neuartige computerbasierte Methode, die Techniken aus dem maschinellen Lernen und der Optimierung verwendet. Dieses Programm, rQuant, inferiert Mengen von alternativen Transkripten und schätzt gleichzeitig den Einfluss von Verzerrungen, die durch experimentelle Protokollgegebenheiten herbeigeführt werden. Die Quantifizierung von Transkripten an Hand künstlicher sowie experimenteller Datensätze zeigte die Vorzüge von rQuant in einer Auswertung unterschiedlicher Programmeinstellungen und in einem Vergleich mit anderen Transkriptquantifizierungsprogrammen. Darüber hinaus verwendete ich Ideen von rQuant, um ein Programm zu entwickeln, das RNA-Sekundärstrukturen quantifiziert. rQuant ist sowohl als Open-Source-Software als auch Webservice verfügbar. Zusammenfassend lässt sich sagen, dass meine Doktorarbeit zu wichtigen Teilen der Forschung in der Hochdurchsatzgenomik und -transkriptomik beiträgt. Diese Arbeit wird die Indentifizierung von Verbindungen zwischen Geno- und Phänotyp vereinfachen und unser Verständnis von biologischen Prozessen, die Individuen einzigartig machen, verbessern.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Quantifizierung , Sequenzanalyse <Chemie> , Genetische Variabilität , Maschinelles Lernen , Optimierung	de_DE
dc.subject.ddc	004	de_DE
dc.subject.other	RNA-Sequenzierung	de_DE
dc.subject.other	Transcript quantification , RNA-sequencing , Sequence variation , Machine learning , Optimisation	en
dc.title	Computational Methods for High-Throughput Genomics and Transcriptomics	en
dc.title	Computerbasierte Verfahren für Hochdurchsatzgenomik und -transkriptomik	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2011-12-07	de_DE
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	5918	de_DE
thesis.grantor	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE

Dateien:	Dissertation_Regina_Bohnert.pdf 6.81 MB PDF

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5074]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Computational Methods for High-Throughput Genomics and Transcriptomics

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto