Inhaltszusammenfassung:
Die Dideoxynukleotid-Kettenabbruchmethode wird seit dem Jahr 2005 durch eine Vielzahl an parallelen DNA-Sequenzierungsmethoden ergänzt. Diese haben sich als eine Schlüsseltechnologie mit einer groÿen Anzahl von Einsatzmöglichkeiten in der Genetik erwiesen, stellen andererseits mit einer Flut an erzeugten Daten auch eine Herausforderung dar. Eine Vielfalt an Algorithmen, die sich mit unterschiedlichen Aspekten der Sequenzierdaten-Verarbeitung und Analyse befassen, wurde bereits erarbeitet und implementiert. Zur routinemäÿigen Analyse dieser Daten benötigt es jedoch zudem eine optimal aufeinander abgestimmte Sammlung von Analysewerkzeugen, die alle notwendigen Schritte von der initialen Rohdatenverarbeitung bis zum Erlangen der primären Analyseergebnisse abdeckt.
Mit der Software SHORE wird eine modulare, vielfältig nutzbare Datenanalyse-Lösung für die parallele DNA-Sequenzierung bereitgestellt. In der vorliegenden Arbeit werden die SHORE zugrunde liegenden Konzepte erweitert und verallgemeinert, um den Entwicklungen der neuen Sequenziermethoden Rechnung zu tragen. Diese Entwicklungen schließen unter anderem einen deutlich erhöhten Datenertrag ein, sowie die Verbreitung von Protokollen, die das Multiplexen von Proben mittels spezieller Kennzeichnungssequenzen ermöglichen. Um eine breitgefächerte Unterstützung grundlegender Funktionen wie Datenkompression und indexierter Suchalgorithmen zu ermöglichen, wurde eine allgemein nutzbare C++-Programmierumgebung libshore entwickelt, die als gemeinsame Basis aller Datenverarbeitungsmodule in SHORE fungiert. Ein weiteres Ziel war hierbei, Programmierschnittstellen bereitzustellen, die modulares Design sowie Parallelisierung von Sequenzierdaten-Verarbeitungsalgorithmen unterstützen.
Ein weiterer Schwerpunkt dieser Arbeit war die Entwicklung von Analysealgorithmen für mittels der Chromatin-Immunopräzipitation gewonnener Daten. Eine Schlüsselrolle in der Regulierung der DNA-Transkription wird von einer Klasse von DNA-bindenden Proteinen, den Transkriptionsfaktoren, eingenommen. ChIP-Seq-Studien erlauben die Darstellung von Transkriptionsfaktor-Bindestellen für das gesamte Genom, und besitzen daher großes Potential, zum Verständnis der Funktionsweise der komplexen regulatorischen Netzwerke beizutragen. In dieser Arbeit wird ein Analysemodul SHORE peak vorgestellt, welches zur Verarbeitung von Transkriptionsfaktor-Immunopräzipitationsdaten dient. Das Computerprogramm vereint statistische Detektion angereicherter Sequenzabschnitte mit empirischen Regeln zur Auslterung von Artefakten, um so die zuverlässige Erkennung der entscheidenden Bereiche des Genoms zu gewährleisten. Da Wiederholungsexperimente, die durch fallende Sequenzierungskosten verstärkt ermöglicht werden, ein wichtiges Mittel zur Identizierung der biologisch relevanten Sequenzbereiche darstellen, wurde zudem besonderer Wert auf die simultane Auswertung dieser Datensätze gelegt. Die entwickelten Algorithmen wurden zudem auf weitere Analysemodule übertragen, die mit dem Ziel der möglichst exiblen Kongurierbarkeit entwickelt wurden. In Kombination mit der bereits enthaltenen Funktionalität zur Detektion genomischer Varianten sollte die Software SHORE von Nutzen für einen groÿen Teil des Anwendungsbereiches der neuen DNA-Sequenzierungstechnologien sein. Mit der allgemein nutzbaren Funktionalität der libshore-Programmierumgebung sollte zudem die einfache Erweiterbarkeit im Hinblick auf zukünftige Ansätze zur Datenanalyse gewährleistet sein.
Abstract:
The various parallel DNA sequencing methods that have been introduced since 2005 to complement the established dideoxynucleotide chain termination method have proved a key technology with a wide range of applications in genetic research, but also challenge with a constant ood of data. A multitude of algorithms have been proposed and implemented addressing dierent aspects of sequencing data processing and data analysis for a variety of high-throughput sequencing applications. Routine data analysis however requires a consistently assembled tool chain to ensure smooth end-to-end processing starting from raw sequencing read data up to primary analysis results.
The software SHORE aims to be a modular, general-purpose data analysis suite for high-throughput DNA sequencing. With this work, we extend and generalize the concepts of the SHORE analysis pipeline to accommodate increased throughput of sequencing devices and development of novel sequencing protocols such as bar-coded sample multiplexing. To provide universal support of basic features such as data set compression or indexing and query mechanisms, we develop a generic C++ programming framework libshore to form the foundation of all of SHORE's modules. Furthermore, we aim to provide a generic application programming interface facilitating modular design as well as parallelization of high-throughput sequencing data processing and analysis algorithms.
A further focus of this work was on the development of data analysis algorithms for chromatin immunoprecipitation and other sequence enrichment and expression proling studies. Through genome-wide binding-site proling for transcription factors, DNA-binding proteins occupying a key role in transcription regulation, ChIP-Seq studies have the potential to greatly improve the ability to understand the functioning of complex regulatory networks.
We present an analysis module SHORE peak oriented towards processing of transcription factor immunoprecipitation data. Our program combines statistical enrichment detection with empirical artifact removal rules to ensure robust identication of the most relevant sites. As replicate experiments are an important factor for the identication of biologically relevant sites and with dropping sequencing cost are rendered more feasible, emphasis was put on the simultaneous processing of such data sets. By transferring enrichment detection and expression analysis algorithms to further auxiliary modules emphasizing exibility of conguration, as well as maintaining previously available variation analysis functionality, SHORE should represent a valuable resource for the majority of high-throughput sequencing applications. Furthermore, in combination with the generic functionality of the libshore framework, we hope to ensure extensibility to readily accommodate future analysis strategies.