Computational Methods for High-Throughput Genomics and Transcriptomics

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-59180
http://hdl.handle.net/10900/49607
Dokumentart: Dissertation
Date: 2011
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Rätsch, Gunnar (Dr.)
Day of Oral Examination: 2011-12-07
DDC Classifikation: 004 - Data processing and computer science
Keywords: Quantifizierung , Sequenzanalyse <Chemie> , Genetische Variabilität , Maschinelles Lernen , Optimierung
Other Keywords: RNA-Sequenzierung
Transcript quantification , RNA-sequencing , Sequence variation , Machine learning , Optimisation
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die Sequenzierung von Genomen vieler Arten, darunter die des Menschen und einiger Modellorganismen, war ein wichtiger Meilenstein der Jahrtausendwende. Es wurde schnell klar, dass es nicht ausreicht, nur ein einzelnes Referenzgenom pro Art zu betrachten, um die Vielfalt innerhalb und zwischen Organismen zu verstehen. Viele Genomsequenzen pro Art sind notwendig, um zu verstehen, welche Sequenzen ursächlich für variable Merkmale sind. Die Einführung von Hochdurchsatzverfahren, wie zum Beispiel von Sequenziermethoden der nächsten Generation, haben zweifelsohne das Sequenzieren beschleunigt und ermöglichen viele interessante Genetikstudien im großen Umfang, die zuvor undenkbar waren. Genomweite Assoziationsstudien, in denen die Verbindung von Sequenz- und Phänotypvarianten untersucht werden, haben im großen Maße von der jüngsten Technologieentwicklung profitiert. Für diese Art von Studien ist es unabdingbar, Genotypen und relevante Eigenschaften für eine große Zahl an Individuen zu messen. Da diese Daten von immenser Größe und oft verrauscht sind, sind computergestützte Verfahren für die Datenanalyse in der Genetik notwendig. Im Rahmen meiner Doktorarbeit trug ich zur Analyse von biologischen Hochdurchsatzdaten in zweierlei Hinsicht bei. Um Genotypen genau zu beschrieben, entwarf ich effiziente Programme zur Erkennung und Katalogisierung von Polymorphismen basierend auf Arraydaten. Außerdem entwickelte ich Methoden, um Transkriptmengen aus Messungen neuartiger Sequenziertechnologien zu schätzen, die präzise Analysen von Transkriptomen ermöglichen. Der erste Teil meiner Doktorarbeit beschäftigt sich mit der Untersuchung von arraybasierten Resequenzierdaten, die generiert wurden, um Sequenzvariation innerhalb 20 verschiedener domestizierter Reissorten zu beschreiben. Ich verwendete ausgefeilte Methoden des maschinellen Lernens, um die große Menge an Hybridisierungsdaten effizient und genau zu analysieren. Basierend auf Support-Vector-Maschinen entdeckte ich mehr als 300.000 nicht-redundante Einzelnukleotidpolymorphismen, die sich, evaluiert an Hand eines Goldstandard für Polymorphismen, als sehr genau erwiesen. Um komplexe Polymorphismenregionen zu erkennen, wandte ich eine weitere Methode des maschinellen Lernens basierend auf Hidden-Markov-Support-Vector-Maschinen an, die zwischen 65.000 und 203.000 polymorphe Regionen innerhalb der Reissorten identifizierte und den SNP-Datensatz der SVM-Methode komplemenierte. Beide Ansätze zusammengenommen detektierten genomweit Hunderttausende von Polymorphismen, wodurch der erste Polymorphismendatensatz für das vollständige Genom der weltweit wichtigsten Nutzpflanze erstellt werden konnte. Im zweiten Teil meiner Dissertation widme ich mich der Fragestellung, Transkriptome, welche mit Hilfe von RNA-Sequenzierung gemessen werden, genau zu quantifizieren. Dazu entwickelte ich eine neuartige computerbasierte Methode, die Techniken aus dem maschinellen Lernen und der Optimierung verwendet. Dieses Programm, rQuant, inferiert Mengen von alternativen Transkripten und schätzt gleichzeitig den Einfluss von Verzerrungen, die durch experimentelle Protokollgegebenheiten herbeigeführt werden. Die Quantifizierung von Transkripten an Hand künstlicher sowie experimenteller Datensätze zeigte die Vorzüge von rQuant in einer Auswertung unterschiedlicher Programmeinstellungen und in einem Vergleich mit anderen Transkriptquantifizierungsprogrammen. Darüber hinaus verwendete ich Ideen von rQuant, um ein Programm zu entwickeln, das RNA-Sekundärstrukturen quantifiziert. rQuant ist sowohl als Open-Source-Software als auch Webservice verfügbar. Zusammenfassend lässt sich sagen, dass meine Doktorarbeit zu wichtigen Teilen der Forschung in der Hochdurchsatzgenomik und -transkriptomik beiträgt. Diese Arbeit wird die Indentifizierung von Verbindungen zwischen Geno- und Phänotyp vereinfachen und unser Verständnis von biologischen Prozessen, die Individuen einzigartig machen, verbessern.

Abstract:

The completion of genome sequences for many species, including humans and a number of model organisms, was considered a major milestone at the turn of the millennium. It has been quickly realised that focusing on a single reference genome per species is insufficient to understand the diversity within and between organisms. However, for each species, a multitude of genome sequences are required to give insight into causal sequences for variable traits. The advent of high-throughput technologies such as next-generation sequencing has undoubtedly accelerated sequencing and allowed for many exciting large-scale studies in genetics that were not previously conceivable. Genome-wide association studies, in which the linkage of sequence and phenotype variations is investigated, have highly profited from the recent technology development. For these kinds of studies, it is indispensable to measure genotypes and relevant traits for a large set of individuals. Because such data is of immense quantity and often noisy, computational approaches are required to analyse data from next-generation genetics. In the context of my thesis, I have contributed to the analysis of biological high-throughput data in two respects. In order to accurately describe genotypes, I have designed efficient large-scale tools to identify and catalogue polymorphisms from array data. Moreover, I have developed approaches for the estimation of transcript abundances from next-generation sequencing data, enabling precise analyses of transcriptomes. The first part of my thesis focuses on the analysis of array-based resequencing data that was obtained to describe sequence variation across 20 diverse varieties of domesticated rice. I applied sophisticated machine learning methods for efficient and accurate analysis of this enormous set of hybridisation data. Using an approach based on Support Vector Machines, I uncovered more than 300,000 non-redundant single-nucleotide polymorphisms, which were found to be highly accurate assessed on a gold standard set of polymorphisms. For the detection of complex regions of polymorphisms, I employed a second machine learning method based on Hidden Markov Support Vector Machines, revealing between 65,000 and 203,000 polymorphic regions across varieties and complementing the SNP set derived with the SVM-based approach. Altogether, detecting hundreds of thousands of polymorphisms on a genome-wide scale has enabled the assembly of the first whole genome set of polymorphisms for the world's most important crop plant. In the second part of my dissertation, I address the question of accurate quantification of transcriptomes from RNA sequencing measurements. For this purpose, I developed a novel computational method that uses techniques from machine learning and optimisation. In particular, this tool, rQuant, infers the abundance of alternative transcripts and simultaneously estimates the effect of biases induced by experimental settings. Quantifying transcripts from artificial as well as experimental data sets demonstrated the superiority of rQuant in an evaluation for diverse settings and a comparison against other transcript quantification tools. Moreover, I adapted ideas of rQuant to develop a tool for quantitative deconvolution of RNA secondary structures. rQuant is available to the community as open-source software and as a web service. In conclusion, my thesis contributes to key parts of research in high-throughput genomics and transcriptomics. This work will facilitate the identification of genotype and phenotype linkage and will improve our understanding of the biological processes that make individuals unique.

This item appears in the following Collection(s)