Detection and characterisation of RNA processing variation from deep RNA sequencing data

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/68383
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-683835
http://dx.doi.org/10.15496/publikation-9802
Dokumentart: PhDThesis
Date: 2016-02-15
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof.Dr.)
Day of Oral Examination: 2015-09-23
DDC Classifikation: 004 - Data processing and computer science
500 - Natural sciences and mathematics
510 - Mathematics
570 - Life sciences; biology
Keywords: Bioinformatik , Angewandte Informatik , Systembiologie , Biologie , Maschinelles Lernen , Statistik
Other Keywords:
Bioinformatics
genetics
computational biology
statistics
RNA biology
machine learning
genomics
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die Regulierung der Ribonukleinsäure (RNS)-Prozessierung ist von zentraler Bedeutung für die zelluläre Informationsverarbeitung. Die Einführung von Technologien zur Hochdurchsatzsequenzierung (HTS) hat zur weiteren Erforschung dieses Gebietes neue Chancen eröffnet. Da diese Techniken umfangreiche und genaue Messungen verschiedener Eigenschaften der zellulären RNSs erlauben, ermöglichen sie die genomweite systematische Untersuchung des Transkriptoms und dessen Regulierung. Die Entwicklung von Methoden zur Analyse der resultierenden Daten ist jedoch nicht so fortgeschritten wie die experimentellen Datenerzeugung. In unserer Arbeit präsentieren wir neue Ansätze, um das Potenzial der HTS zur Untersuchung der Regulation der RNS-Prozessierung auszuschöpfen. Hierbei konzentrierten wir uns auf die folgenden drei Aspekte: Zum ersten, wie Informationen aus den RNS-Sequenzierungs (RNS-Seq)-Daten extrahiert werden können und wie RNS-Seq-Experimente konzipiert werden müssen, um einen maximalen Nutzen zu generieren. Zu diesem Zweck haben wir, abhängig von den Parametern des jeweiligen Experiments, probabilistische Modelle hergeleitet, um die Nützlichkeit der RNS-Seq- Experimente für gängige Analysen, wie beispielsweise die Identifizierung von Transkripten und die Erkennung von differentiellem Spleissen, zu bestimmen. Die Anwendung unserer Modelle ermöglicht es, grundsätzliche, durch experimentelle Daten bestätigte Einsichten zu erlangen, wie die experimentellen Parameter den Informationsgewinn von RNS-Seq-Experimenten beeinflussen. Auf diesen Erkenntnissen basierend, schlagen wir verbesserte Versuchspläne für Experimente zur Transkriptomanalyse vor. Der zweite Aspekt war die Erkennung von Änderungen in der RNS-Prozessierung mit Hilfe von HTS-Daten. Hier präsentieren wir neuartige statistische Tests, um in zwei verschiedenen Anwendungsgebieten Änderungen in der RNS-Prozessierung zu detektieren: (a) für den Fall der vollständigen Genannotation, was oft bei Modellorganismen zutrifft, aber auch (b) für den Fall dass die Genannotation unvollständig oder unbekannt ist. Letzteres ist häufig bei Nicht-Modellorganismen oder pathologische Phänotypen der Fall. In dieser Arbeit konnten wir zeigen, dass unsere neu entwickelten Tests anderen modernen Methoden überlegen waren, sowohl bei Anwendung auf realistisch simulierten als auch auf experimentellen Daten. Darüber hinaus zeigten wir, wie unsere Methoden erweitert werden können, um Unterschiede in RNS-Sekundärstrukturen zu erkennen und auch um differentielle RNS-Prozessierung mit genetischer Variation zu assoziieren. Schliesslich konnten wir zeigen, wie unsere Methoden angewandt werden können, um erstens die Rolle des Spleissens in menschlichen Krebszellen zu untersuchen, zweitens die dem Nonsense Mediated Decay zugrunde liegenden Mechanismen zu verstehen und drittens regulatorische Strukturmotive der Translation im Menschen zu entdecken. Der letzte Aspekt war die Charakterisierung von Änderungen der RNS-Prozessierung. Wir konnten zeigen, dass die gemeinsame Verwendung von RNS-Seq-Daten mit Informationen zur genomischen Variation und Transkriptionsfaktor (TF)-Bindungspräferenzen ermöglicht, den Mechanismus der Veränderung der Genexpression besser zu verstehen. Dazu haben wir zunächst eine umfassende Analyse der Genexpression in einer A. thaliana Population durchgeführt. Ausserdem haben wir demonstriert, dass eine signifikante Anreicherung von mit Genexpression assoziierten genetischen Varianten in vorhergesagten TF-Bindestellen (TFBS) vorhanden war. Zuletzt haben wir gezeigt, dass Veränderungen in den TFBS in Promotoren eine bedeutende Ursache von Genexpressionsvariation waren. Zusammenfassend haben wir unterschiedliche Aspekte der Detektion und Charakterisierung von RNS-Prozessierung untersucht. Mit Hilfe unserer neu entwickelten Methoden haben wir neue Einsichten in die Regulation von RNS-Prozessierung erhalten. Unsere Arbeit zeigte jedoch, dass es immer noch viele offene Fragestellungen gibt, welche in zukünftigen Untersuchungen behandelt werden sollten.

Abstract:

The introduction of high-throughput sequencing technologies has opened unprecedented opportunities for research on the regulation of ribonucleic acid (RNA) processing, which is central to cellular information processing. By enabling accurate and extensive measurements of various properties of cellular RNAs, these techniques allow to systematically investigate the transcriptome and its regulation on a genome-wide scale. The development of computational methods to analyse the resulting data, however, is still lagging behind the advances in experimental data generation. In this thesis, we present novel approaches to leverage the potential of high-throughput sequencing technologies for studying the regulation of RNA processing. More specifically, we focused on the following three research problems: First, we investigated how to best extract information from RNA-sequencing (RNA-Seq) data and how to design RNA-Seq experiments in order to maximise their utility for answering the investigated question. For this purpose, we derived a probabilistic model to estimate the utility of RNA-Seq experiments as a function of the experimental parameters for typical analyses such as the identification of transcripts and the detection of differential splicing. Application of our models provided fundamental, experimentally supported insights into how particular experimental parameters influence the amount of information gained from an RNA-Seq experiment. Based on these insights, we suggest strategies for an improved experimental design of transcriptome analysis experiments. The second investigated aspect was the detection of differential RNA processing based on high-throughput sequencing data. Here, we proposed novel statistical tests to detect changes in RNA processing for two distinct settings: When the gene annotation is complete (which is often the case for model organism) and for the case where the gene annotation is incomplete or unknown (as it is the case for non-model organism or pathological phenotypes). We showed that both on realistically simulated and on experimental data our newly developed tests out-competed state-of-the-art methods. Furthermore, we showed how our methods could be extended to detect differential RNA secondary structure and to associate changes in RNA processing with genetic variation. Finally, we successfully applied our methods to investigate the role of splicing in human cancer cells, to understand mechanisms of nonsense mediated decay in A. thaliana and to reveal regulatory structural motives of translation in human. The third investigated aspect was the characterisation of changes in RNA processing. We showed that combining RNA-Seq data with information on genomic variation and transcription factor binding preferences explained causes of gene expression variation. For this, we first performed a comprehensive analysis of gene expression landscape in an A. thaliana population. Furthermore, we showed that there is a significant enrichment of genetic variants associated with gene expression in predicted transcription factor binding sites. Finally, we showed that alterations of transcription factor binding sites are a major driver of gene expression variation. Overall, we addressed different aspects of the detection and characterisation of RNA processing. Using our new methods we have gained novel insights into the regulation of RNA processing. However, the work has also shown that there are still several open questions, which should be addressed in future studies.

This item appears in the following Collection(s)