Inhaltszusammenfassung:
Seit langem ist es eine der zentralen Fragen der biologischen Forschung, wie aus genetischer Information die große Diversität komplexer Organismen entstehen kann. Seit wenigen Jahren haben es verbesserte Sequenziertechnologien ermöglicht, die grosse Menge von Ribonukleinsäuren (RNA) einer Zelle mit bisher ungekannter Genauigkeit zu messen. Das Hochdurchsatz-Verfahren der RNA-Sequenzierung (RNA-Seq) erlaubt es, alle Transkripte einer oder mehrerer Zellen gleichzeitig quantitativ zu erfassen und ermöglicht das Sammeln qualitativer Informationen zu Transkript-Struktur oder Sequenzveränderungen. Unser Ziel ist es, diese Information einzusetzen, um RNA-Prozessierung und Genregulation und vor allem den Prozeß des alternativen Spleißens (AS) besser zu verstehen. Im Rahmen dieser Arbeit präsentieren wir neuartige Verarbeitungsverfahren für RNA-Seq Daten, einschliesslich neuer Strategien zum Alignment gespleißter Sequenzen im Kontext genomischer Variation, Verbesserungen der Alignmentgenauigkeit durch optimale Nachbearbeitung sowie das erste Hochdurchsatz-System zur Charakterisierung von AS-Ereignissen.
Unser erster Beitrag ist die Entwicklung und Erweiterung von PALMapper, einer Methode zum Alignieren von RNA-Seq Daten. Durch die Berücksichtigung genomischer Sequenzvarianten konnten wir eine deutliche Verbesserung der Alignment-Sensitivität auch in solchen Fällen erreichen, in denen Referenzgenom und Quellgenom der RNA-Seq Daten sich unterscheiden. Außerdem konnten wir die Genauigkeit von Alignments über Intron-Grenzen durch ein zusätzliches Rück-Alignment deutlich verbessern. Aufgrund des Hochdurchsatz-Charakters der Daten sowie begrenzter Rechenressourcen beschränken sich die meisten Alignmentprogramme auf eine approximative Suche. Um das Ausmaß der Ergebnisvariabilität besser zu vestehen, haben wir eine umfassende Evaluation verschiedener Programme durchgeführt und ausgesprochen deutliche Unterschiede aufgezeigt. Mithilfe dieser Erkenntnisse, haben wir zwei Programme zur wirkungsvollen Alignment-Nachbearbeitung entwickelt, die die Rate Falsch-Positiver minimieren und die Vergleichbarkeit zwischen den Ergebnissen erhöhen sollen: Das erste Programm, SAFT, berechnet anhand gegebener Trainingsdaten eine optimale Kombination von Filterparametern und erhöht dadurch die Alignment-Genauigkeit. Das zweite Programm, MMR, wählt aus mehreren gleich guten Alignments einer Sequenz das best-passende aus. Dies geschieht mittels eines iterativen Verfahrens bei dem die Varianz der lokalen Alignmentabdeckung minimiert wird. Um aus RNA-Seq Alignments ein Profil alternativen Spleißens (AS) zu erstellen, haben wir SplAdder entwickelt, ein Programm welches einen auf der Genomannotation basierenden Spleißgraphen erweitert und daraus extrahierte AS-Ereignisse quantifiziert.
Alle vorgestellten Methoden wurden im Rahmen mehrstufiger Analyseverfahren eingesetzt, die sowohl das Alignment und dessen Nachbearbeitung als auch die quantitative Datenanalyse umfassen. Wir beschreiben vier biologische Studien, in welchen die entwickelten Programme integraler Bestandteil der Analyse waren. In einer Studie zum mRNA-Abbauweg NMD in A. thaliana haben wir NMD-blockierte Pflanzen, mutiert in den Genen UPF1 und UPF3, untersucht, um die Verbindung zwischen Transkriptabbau und AS sowie die Verbreitung von NMD zu erforschen. Wir konnten zeigen, dass ~17% aller Protein-codierenden multi exonischen Gene mindestens eine Isoform produzieren die von NMD abgebaut wird und dass 90% dieser Isoformen charakteristische Merkmale aufweisen. In einer zweiten Studie untersuchten wir die Rolle von Polypyrimidintraktbindeproteinen (PTB) für die Regulation von AS in A. thaliana. Anhand von Mutanten mit erhöhter bzw. verringerter PTB-Produktion konnten wir 452 AS-Ereignisse identifizieren, die sich nach PTB-Perturbation signifikant veränderten und interessante funktionelle Auswirkungen auf das Blüh- und Keimverhalten zeigten. In einer dritten, deutlich umfangreicheren Arbeit lag unser Schwerpunkt auf der Identifikation genetischer Loci deren Spleißen sich quantitativ in Abhängigkeit genetischer Varianten verändert (sQTL). Hierzu analysierten wir 700 RNA-Seq Datensätze aus zwei A. thaliana-Populationen und konnten zahlreiche signifikant assoziierte Sequenzvarianten proximal (cis-sQTL) und distal (trans-sQTL) zum jeweiligen Spleiß-Ereignis identifizieren -- mit deutlichen Unterschieden zwischen den Populationen. In einer weiteren Studie nutzten wir einen der größten verfügbaren RNA-Seq Datensätze, um sQTL in zwölf verschiedenen Krebsarten zu finden. Hierzu haben wir Daten von mehr als 4000 Patienten des Krebs Genom-Atlas Projekts (TCGA) analysiert. Dadurch konnten wir tausende neue AS-Ereignisse detektieren und quantifizieren und fanden Hinweise darauf, dass zahlreiche Ereignisse Krebs-spezifisch sind. Weiterhin nutzten wir genetische Information aus TCGA um zahlreiche {\em cis}- und {\em trans}-sQTL zu identifizieren, die teilweise durch Studien belegt werden konnten aber auch vielversprechende Neuentdeckungen enthalten.
Wir zeigen die effektive und effiziente Anwendbarkeit der vorgestellten Methoden in einer Vielzahl unterschiedlicher Szenarien. Unsere Arbeit ergab zahlreiche neue Erkenntnisse, die teils durch frühere Studien belegt oder durch Experimente validiert werden konnten, die aber auch spannende Neuentdeckungen zur Spleißregulation in Pflanzen oder fehlerhaftem Spleißen bei Krebs beinhalteten. Wir sind zuversichtlich, dass unsere Beiträge eine sehr gute Basis für die Verbesserung und Entwicklung neuer Methoden bieten.
Abstract:
Understanding how genetic information is transformed into a diverse spectrum of complex organisms is one of the longstanding questions of biology. Over the recent years, advancements in sequencing technology have enabled the accurate measurement of the pool of ribonucleic acids (RNAs) contained in a cell at an unprecedented depth. High-throughput RNA-sequencing (RNA-Seq) allows to acquire quantitative measurements of all transcripts in one or more cells and provides qualitative information about isoform structures or sequence alterations. Our goal is to use this information to get a better understanding of RNA-processing and gene regulation with a specific focus on alternative splicing. In this thesis, we present advanced computational methods for the processing of RNA-Seq data, including novel strategies for spliced alignment in the context of genomic variation, accuracy improvements through alignment post-processing and the first high-throughput analysis pipeline for the characterization of alternative splicing events.
Our first contribution is the development and extension of PALMapper, a versatile RNA-Seq alignment method. By using a variation-aware alignment approach, we could markedly improve its alignment sensitivity in cases where reference genome and the source-genome of the measured RNA differ. We also greatly increased its accuracy through an additional re-alignment step for reads that span splice junctions. Due to the high-throughput nature of the data and limited computational resources, most alignment tools only perform an approximate search.
To better understand the extent of variability in the alignments results and to identify possible sources of variation, we performed a comprehensive evaluation of alignment algorithms, showing substantial differences between alignment outcomes. Using the insights gained during the evaluation, we developed two powerful alignment post-processing tools that aim at making results more comparable and remove possible false hits from the data: The simple alignment filtering tool (SAFT) optimizes filter criteria on a given training set to increase overall accuracy of the alignment. The tool for multiple-mapper resolution (MMR) disambiguates between several equally good alignment-possibilities of the same read, using an iterative algorithm to minimize the variance of the local read coverage. In order to use RNA-Seq alignments for profiling alternative splicing (AS), we developed SplAdder, a tool that enriches a splicing graph representation of existing genome annotations and extracts AS-events from this augmented graph.
All presented methods were applied in analysis pipelines that align, post-process and then quantitatively analyze RNA-Seq data. We present four biological studies, where the herein presented tools were an integral part of the analysis pipeline.
In a study on the mRNA degradation mechanism nonsense-mediated decay (NMD) in Arabidopsis thaliana, we analyzed samples mutated in UPF1 and UPF3 and thus deficient in NMD to investigate the connection between alternative splicing and transcript degradation and to estimate its pervasiveness.
We found that ~17% of all protein-coding multiple-exon genes produce isoforms that are subject to NMD and that over 90% of these isoforms share characteristic transcript-features characteristic.
In a second study, we investigated the role of polypyrimidine-tract binding proteins (PTB) for alternative splicing regulation in A. thaliana. Based on a complementary set of mutant samples with elevated or decreased PTB-expression, we identified 452 events responsive to PTB perturbation with interesting functional implications for flowering and germination.
In a third, larger scale study, we focused on the identification of splicing quantitative trait loci (sQTL) and analyzed over 700 RNA-Seq libraries generated from two populations of A. thaliana. We identified numerous significant associations proximal and distal to the event site, forming cis- and trans-sQTL, respectively, and found marked differences between the two populations. In the last study, we set out to identify sQTL in twelve different cancer types in one of the largest available transcriptome datasets. We re-aligned RNA-Seq samples of over 4,000 patients provided through The Cancer Genome Atlas (TCGA). We identified and quantified thousands of novel AS events and could show that many splicing alterations appear to be cancer-type specific. We further used genetic information from whole exome sequencing, to identify numerous cis- and trans-sQTL, both confirming earlier findings and detecting promising novel associations.
In conclusion, we show that the presented methods are efficient and effectively applicable within a wide range of scenarios. Our work resulted in numerous findings, that could be confirmed through earlier studies or validation experiments but also uncovered exciting new findings for splicing regulation in plants as well as aberrant splicing in cancer. We are confident that our contributions are an excellent basis to spark further improvements and novel methods.