Computational Methods for High-Throughput Transcriptomic Data

Battke, Florian

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

« zurück

Computational Methods for High-Throughput Transcriptomic Data

Methoden zur computerbasierten Analyse von Transkriptomdaten aus Hochdurchsatz-Experimenten

Battke, Florian

Dateien:	DissertationFlorianBattke.pdf 18.9 MB PDF

Zitierfähiger Link (URI):	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-64640 http://hdl.handle.net/10900/49733 http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-497336 http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-497339
Dokumentart:	Dissertation
Erscheinungsdatum:	2012
Sprache:	Englisch
Fakultät:	7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich:	Informatik
Gutachter:	Nieselt, Kay (Dr.)
Tag der mündl. Prüfung:	2012-09-25
DDC-Klassifikation:	004 - Informatik
Schlagworte:	Bioinformatik , Transkriptomanalyse , Systembiologie , Visualisierung
Freie Schlagwörter:	Visuelle Analytik Visual Analytics , Transcriptomics , Systems Biology , Bioinformatics
Lizenz:	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen:	Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Transkriptomanalysen sind ein wichtiges Werkzeug für die Erforschung der biologischen Mechanismen, mit denen sich Organismen an Veränderungen in ihrer Umwelt anpassen, sowie für die Identifikation von Genen, die für die Entstehung von Krankheiten wichtig sind. Darauf aufbauend können molekulare Angriffspunkte für neue Medikamente bestimmt, die biochemische Produktion optimiert, und vor allem Einblicke in die fundamentale Arbeitsweise biologischer Zellen gewonnen werden. Microarrays waren die ersten Hochdurchsatzmethoden zur parallelen Bestimmung der Expression tausender Transkripte. Sie werden durch neue Methoden der RNA-Sequenzierung ergänzt, die Daten von neuer Art und in viel größerem Umfang erzeugen. Bioinformatiker sind dadurch mit neuen Herausforderungen konfrontiert: Daten verschiedener Typen müssen integriert werden, eine große Zahl von Methoden für die jeweiligen Analyseschritte müssen kombiniert werden, und Visualisierungen der Daten im Zusammenhang mit Annotationen müssen mit statistischen Verfahren zusammengebracht werden. Zusätzlich sind in Anbetracht der großen Datenmenge spezialisierte Datenstrukturen für effiziente Berechnungen notwendig. In dieser Dissertation werden Ansätze zur Bewältigung einiger dieser Herausforderungen vorgestellt. Mayday, ein Programm zur Visualisierung und Analyse von Microarray-Daten, wurde zum großen Teil neu entwickelt, um eine umfassende Anwendung für Expressionsanalysen zu schaffen. Das neue Mayday baut auf einem flexiblen Plug-in-Management auf, kann Annotationen mit Transkripten, Experimenten und Datensätzen verknüpfen, enthält ein interaktives System zum Filtern anhand einer Vielzahl von Kriterien und bietet interaktive, miteinander verbundene Visualisierungen, die für die Analyse und Erkundung von hochkomplexen Datensätzen unerläßlich sind. Darüber hinaus erlaubt die Integration interaktiver Scripting- und Abfragesprachen, darunter die Statistik-Sprache R, auch die Durchführung sehr spezieller Analysen. Die Anbindung von Mayday an Gaggle ist ein erster Schritt in Richtung kollaborativer Analysen über das Internet. Auf dieser Grundlage wurde SeaSight in Mayday entwickelt, womit sich Rohdaten aus Microarray-Experimenten, sowie Daten aus den neuartigen RNA-Sequenzierungs-Experimenten normalisieren und gemeinsam verarbeiten lassen. Die Entwicklung dieser Erweiterung stellt einen der Hauptinhalte der Dissertation dar. Desweiteren wird ein Algorithmus für die effiziente Berechnung von Expressionswerten aus RNA-Sequenzierungs-Daten vorgestellt, mit dem diese neuen Verfahren auch ohne bekannte Genomsequenz angewendet werden können, was ihren Anwendungsbereich auf Proben von nicht kultivierbaren Organismen erweitert. In der Verbindung mit SeaSight stellt das neue Mayday die erste frei verfügbare Software dar, die den gesamten Analyseprozess der Transkriptomik abgedeckt, beginnend beim Import von Rohdaten, über Normalisierung, Filterung und statistische Tests, bis hin zu komplexen Analysen und interaktiver Visualisierung. Neue Entwicklungen auf dem Gebiet der Transkriptomik sind auf dieser soliden Basis leicht zu integrieren. Insbesondere für die Systembiologie wird Maydays integrativer Ansatz immer wichtiger, um die Vielzahl unterschiedlicher 'omics'-Daten in einem gemeinsamen Analyse-Framework zu vereinen.

Abstract:

Transcriptome analyses are an important tool for studying the biological mechanisms behind the ability of organisms to react to changes in their environment, as well as to elucidate which genes play important roles in diseases such as cancer. They can be used to find targets for drug design, to optimize the output of biochemical production, and, most importantly, to gain an understanding of the fundamental functioning of living cells. Microarrays have opened the door for high-throughput expression experiments of thousands of transcripts. Recently they have been complemented by RNA sequencing methods which produce new types of data and a significantly larger data volume. Bioinformaticians are confronted with many challenges of integration: Data of different types need to be integrated, many methods for different analysis steps have to be put together, and visualizations of primary and meta data need to be combined with statistical approaches to derive meaningful results from the data. In addition, specialized data structures are required for efficient computations. In this dissertation, solutions to several of these challenges are presented. Mayday, a framework for visual inspection and analysis of microarray data, was largely redesigned to create a strong platform for transcriptome analysis. The new Mayday includes a flexible plugin system, a framework for handling meta information associated with transcripts, experiments, or whole datasets, as well as an interactive system for filtering lists of transcripts according to a large variety of criteria. A new visualization package was implemented as a basis for the highly interactive, linked views which are vital for the analysis and inspection of complex datasets. Furthermore, interactive scripting and querying possibilities were added based on different programming languages, most notably the statistical computing language R. With these, bioinformaticians can quickly test ideas and perform non-standard analyses directly inside Mayday. A first step in the direction of on-line collaborative analysis is presented with Mayday's integration into the Gaggle communications system. With the new Mayday as a solid foundation, the SeaSight extension was developed, which is the main focus of this dissertation. It provides a generic framework for raw data processing both for the new RNA-seq data types as well as for data generated by different microarray platforms. In addition, an algorithm for the efficient processing of RNA-seq data is presented which allows for the application of this new technology to samples from species where a genome reference sequence is currently not available, adding a further method to the transcriptomics researcher's toolkit. Together, the new Mayday and SeaSight provide the community with the first software tool which offers a one-stop solution for transcriptome data analysis, spanning the whole pipeline from raw data import, via filtering and statistical testing, to higher-level analyses and interactive visualization, and provides a solid foundation for further development in the transcriptomics area in particular, and in the Systems Biology field in general where the multitude of 'omics' data increase the need for integrated approaches to data interpretation.

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5172]

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Computational Methods for High-Throughput Transcriptomic Data

DSpace Repositorium (Manakin basiert)

Computational Methods for High-Throughput Transcriptomic Data

Inhaltszusammenfassung:

Abstract:

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto