An Integrated Data Analysis Suite and Programming Framework for High-Throughput DNA Sequencing

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Weigel, Detlef (Prof. Dr.) de_DE
dc.contributor.author Ott, Felix de_DE
dc.date.accessioned 2013-12-20 de_DE
dc.date.accessioned 2014-03-18T10:28:31Z
dc.date.available 2013-12-20 de_DE
dc.date.available 2014-03-18T10:28:31Z
dc.date.issued 2013 de_DE
dc.identifier.other 399254382 de_DE
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-71711 de_DE
dc.identifier.uri http://hdl.handle.net/10900/50000
dc.description.abstract The various parallel DNA sequencing methods that have been introduced since 2005 to complement the established dideoxynucleotide chain termination method have proved a key technology with a wide range of applications in genetic research, but also challenge with a constant ood of data. A multitude of algorithms have been proposed and implemented addressing dierent aspects of sequencing data processing and data analysis for a variety of high-throughput sequencing applications. Routine data analysis however requires a consistently assembled tool chain to ensure smooth end-to-end processing starting from raw sequencing read data up to primary analysis results. The software SHORE aims to be a modular, general-purpose data analysis suite for high-throughput DNA sequencing. With this work, we extend and generalize the concepts of the SHORE analysis pipeline to accommodate increased throughput of sequencing devices and development of novel sequencing protocols such as bar-coded sample multiplexing. To provide universal support of basic features such as data set compression or indexing and query mechanisms, we develop a generic C++ programming framework libshore to form the foundation of all of SHORE's modules. Furthermore, we aim to provide a generic application programming interface facilitating modular design as well as parallelization of high-throughput sequencing data processing and analysis algorithms. A further focus of this work was on the development of data analysis algorithms for chromatin immunoprecipitation and other sequence enrichment and expression proling studies. Through genome-wide binding-site proling for transcription factors, DNA-binding proteins occupying a key role in transcription regulation, ChIP-Seq studies have the potential to greatly improve the ability to understand the functioning of complex regulatory networks. We present an analysis module SHORE peak oriented towards processing of transcription factor immunoprecipitation data. Our program combines statistical enrichment detection with empirical artifact removal rules to ensure robust identication of the most relevant sites. As replicate experiments are an important factor for the identication of biologically relevant sites and with dropping sequencing cost are rendered more feasible, emphasis was put on the simultaneous processing of such data sets. By transferring enrichment detection and expression analysis algorithms to further auxiliary modules emphasizing exibility of conguration, as well as maintaining previously available variation analysis functionality, SHORE should represent a valuable resource for the majority of high-throughput sequencing applications. Furthermore, in combination with the generic functionality of the libshore framework, we hope to ensure extensibility to readily accommodate future analysis strategies. en
dc.description.abstract Die Dideoxynukleotid-Kettenabbruchmethode wird seit dem Jahr 2005 durch eine Vielzahl an parallelen DNA-Sequenzierungsmethoden ergänzt. Diese haben sich als eine Schlüsseltechnologie mit einer groÿen Anzahl von Einsatzmöglichkeiten in der Genetik erwiesen, stellen andererseits mit einer Flut an erzeugten Daten auch eine Herausforderung dar. Eine Vielfalt an Algorithmen, die sich mit unterschiedlichen Aspekten der Sequenzierdaten-Verarbeitung und Analyse befassen, wurde bereits erarbeitet und implementiert. Zur routinemäÿigen Analyse dieser Daten benötigt es jedoch zudem eine optimal aufeinander abgestimmte Sammlung von Analysewerkzeugen, die alle notwendigen Schritte von der initialen Rohdatenverarbeitung bis zum Erlangen der primären Analyseergebnisse abdeckt. Mit der Software SHORE wird eine modulare, vielfältig nutzbare Datenanalyse-Lösung für die parallele DNA-Sequenzierung bereitgestellt. In der vorliegenden Arbeit werden die SHORE zugrunde liegenden Konzepte erweitert und verallgemeinert, um den Entwicklungen der neuen Sequenziermethoden Rechnung zu tragen. Diese Entwicklungen schließen unter anderem einen deutlich erhöhten Datenertrag ein, sowie die Verbreitung von Protokollen, die das Multiplexen von Proben mittels spezieller Kennzeichnungssequenzen ermöglichen. Um eine breitgefächerte Unterstützung grundlegender Funktionen wie Datenkompression und indexierter Suchalgorithmen zu ermöglichen, wurde eine allgemein nutzbare C++-Programmierumgebung libshore entwickelt, die als gemeinsame Basis aller Datenverarbeitungsmodule in SHORE fungiert. Ein weiteres Ziel war hierbei, Programmierschnittstellen bereitzustellen, die modulares Design sowie Parallelisierung von Sequenzierdaten-Verarbeitungsalgorithmen unterstützen. Ein weiterer Schwerpunkt dieser Arbeit war die Entwicklung von Analysealgorithmen für mittels der Chromatin-Immunopräzipitation gewonnener Daten. Eine Schlüsselrolle in der Regulierung der DNA-Transkription wird von einer Klasse von DNA-bindenden Proteinen, den Transkriptionsfaktoren, eingenommen. ChIP-Seq-Studien erlauben die Darstellung von Transkriptionsfaktor-Bindestellen für das gesamte Genom, und besitzen daher großes Potential, zum Verständnis der Funktionsweise der komplexen regulatorischen Netzwerke beizutragen. In dieser Arbeit wird ein Analysemodul SHORE peak vorgestellt, welches zur Verarbeitung von Transkriptionsfaktor-Immunopräzipitationsdaten dient. Das Computerprogramm vereint statistische Detektion angereicherter Sequenzabschnitte mit empirischen Regeln zur Auslterung von Artefakten, um so die zuverlässige Erkennung der entscheidenden Bereiche des Genoms zu gewährleisten. Da Wiederholungsexperimente, die durch fallende Sequenzierungskosten verstärkt ermöglicht werden, ein wichtiges Mittel zur Identizierung der biologisch relevanten Sequenzbereiche darstellen, wurde zudem besonderer Wert auf die simultane Auswertung dieser Datensätze gelegt. Die entwickelten Algorithmen wurden zudem auf weitere Analysemodule übertragen, die mit dem Ziel der möglichst exiblen Kongurierbarkeit entwickelt wurden. In Kombination mit der bereits enthaltenen Funktionalität zur Detektion genomischer Varianten sollte die Software SHORE von Nutzen für einen groÿen Teil des Anwendungsbereiches der neuen DNA-Sequenzierungstechnologien sein. Mit der allgemein nutzbaren Funktionalität der libshore-Programmierumgebung sollte zudem die einfache Erweiterbarkeit im Hinblick auf zukünftige Ansätze zur Datenanalyse gewährleistet sein. de_DE
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification DNS-Bindungsproteine , DNS , Bioinformatik de_DE
dc.subject.ddc 004 de_DE
dc.subject.other DNA-Sequenzierung de_DE
dc.subject.other DNA sequencing en
dc.title An Integrated Data Analysis Suite and Programming Framework for High-Throughput DNA Sequencing de_DE
dc.title Umfassende Datenanalyselösung sowie Software-Framework für die Hochdurchsatz-DNA-Sequenzierung de_DE
dc.type PhDThesis de_DE
dcterms.dateAccepted 2013-12-18 de_DE
utue.publikation.fachbereich Informatik de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE
dcterms.DCMIType Text de_DE
utue.publikation.typ doctoralThesis de_DE
utue.opus.id 7171 de_DE
thesis.grantor 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige