Computational Methods for the Identification and Characterization of Non-Coding RNAs in Bacteria

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/59390
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-593907
http://dx.doi.org/10.15496/publikation-814
Dokumentart: Dissertation
Date: 2015
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Nieselt, Kay (PD Dr.)
Day of Oral Examination: 2015-01-30
DDC Classifikation: 004 - Data processing and computer science
500 - Natural sciences and mathematics
570 - Life sciences; biology
Keywords: Bioinformatik , RNS , Genexpression , Softwareentwicklung , Genomik , Bakterien , Transkription
Other Keywords: Paläogenetik
Vergleichende Genomik
RNA-Sequenzierung
Nichtcodierende Ribonukleinsäure
Bioinformatics
RNA
non-coding RNA
gene expression
genomics
bacterial genomics
comparative genomics
transcription
RNA sequencing
Paleogenetics
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Forschungsergebnisse vergangener Jahre konnten zeigen wie komplex die Struktur und Regulation selbst bakterieller Transkriptome sein kann. Auch die wichtige Rolle nicht-kodierender RNAs (ncRNA), die nicht in Proteine translatiert werden, wird dabei immer deutlicher. Diese Moleküle erfüllen in der Zelle verschiedenste Aufgaben wie zum Beispiel die Regulation von Stoffwechselprozessen. Daher ist die Charakterisierung der ncRNA-Gene eines Organismus immer mehr zu einem unverzichtbaren Teil von Systembiologie-Projekten geworden. Hierbei erlauben moderne Hochdurchsatzverfahren im Bereich der DNA- und RNA-Sequenzierung das im hohen Maße detaillierte Studium von Genomen und Transkriptomen. Die daraus resultierenden Daten müssen einer vergleichenden Analyse unterzogen werden, um Variationen des Transkriptoms zwischen verschiedenen Organismen und Umweltbedingungen untersuchen zu können. Hierfür werden effiziente Computerprogramme benötigt, die in der Lage sind genomische und transkriptomische Daten zu kombinieren und entsprechende Analysen automatisiert und reproduzierbar durchzuführen. Zudem müssen diese Ansätze nicht-kodierende Elemente im genomischen Kontext lokalisieren und annotieren können. In dieser Dissertation präsentiere ich Computerprogramme zur Lösung dieser Aufgaben. So wurde das Programm nocoRNAc entwickelt, welches ncRNAs in bakteriellen Genomen detektiert und diese bezüglich verschiedener Eigenschaften charakterisiert. Dazu gehören zum Beispiel Berechnung von Transkriptionsstart- und endpunkten, Sekundärstruktur und möglicher Interaktionspartner. nocoRNAc wurde im Rahmen einer umfangreichen Transkriptomstudie über das antibiotikaproduzierende Bakterium Streptomyces coelicolor verwendet, wodurch die Relevanz von ncRNAs als mögliche Regulatoren gezeigt werden konnte. Für die komparative Analyse hoch aufgelöster Genom- und Transkriptomdaten multipler Organismen wurde in dieser Dissertation das SuperGenom-Konzept entwickelt, welches bei der vergleichenden Visualisierung multipler Genome Anwendung fand. Zudem diente es als Grundlage für eine neue Methode zur Bestimmung von Transkriptionsstartpunkten in bakteriellen Genomen. Bei der Anwendung auf das für Menschen pathogene Bakterium Campylobacter jejuni konnte das Transkriptom dieses Organismus auf globaler Ebene charakterisiert werden. Zudem wurden mehrere bislang unbekannte ncRNAs identifiziert, darunter ein zuvor noch uncharakterisierter CRISPR-Lokus. Hierbei handelt es sich um ein adaptives bakterielles Immunsystem. Das Studium von Pathogenen kann auch von historischem Interesse sein. Das aufstrebende Feld der Paläogenetik befasst sich mit der Rekonstruktion und Analyse von Genomen alter, mitunter längst ausgestorbener Organismen. In dieser Dissertation werden neue Methoden zur automatischen Rekonstruktion und Charakterisierung alter bakterieller Genome eingeführt, welche zur Erforschung der Evolution von Mycobacterium leprae verwendet wurden, dem Verursacher von Lepra. Die Algorithmen und Werkzeuge, welche in dieser Dissertation entwickelt wurden, sowie die Erkenntnisse, die damit gewonnen werden konnten, stellen einen wertvollen Beitrag zum Verständnis bakterieller Genome und Transkriptome dar und werden weiterhin dazu beitragen deren grundlegende evolutionäre Mechanismen zu verstehen.

Abstract:

In recent years the complexity even of bacterial transcriptomes became more and more evident. The important role of so-called non-coding RNAs (ncRNA), which do not encode proteins, is increasingly recognized as they fulfill a variety of functions, such as the regulation of cellular processes or catalysis of other molecules. Therefore, the characterization of an organism's ncRNA repertoire has become an essential part of systems biology studies. In this context novel high-throughput technologies in the field of DNA and RNA sequencing allow for the investigation of genomes and transcriptomes in unprecedented detail. These methodologies produce vast amounts of data that have to be analysed comparatively in order to elucidate variations between different organisms or environmental conditions. For these tasks efficient computational methods are needed that integrate genomic and transcriptomic data from multiple data sets in an automated and reproducible manner. In addition, these approaches have to facilitate the genomic localization of ncRNA elements and their detailed annotation e.g., with respect to promoter regions or transcription start sites as well as their functional characterization such as the prediction of their targets of regulation. In this dissertation I have made a number of contributions that address these challenges. The computer program nocoRNAc was developed, which predicts ncRNAs in bacterial genomes and characterizes them with respect to multiple properties such as transcription start and end points, secondary structure and potential interaction partners. nocoRNAc has been applied in the context of a comprehensive time series expression study of the antibiotics producing bacterium Streptomyces coelicolor, which was cultivated under different environmental conditions. During this study the importance of ncRNAs as potential regulators became evident. For the analysis of high-resolution genomic and transcriptomic data from multiple organisms the SuperGenome concept was developed. The approach was applied in the context of whole-genome alignment visualization and served as the basis for an algorithm for the comparative detection of transcription start sites in bacterial genomes utilizing RNA-seq data. The application to multiple strains of the human pathogen Campylobacter jejuni allowed for the global characterization of this organism's transcriptome and led to the detection of several novel ncRNAs, among them a previously uncharacterized CRISPR locus, which represents an adaptive bacterial immune system. Studying pathogens can also be of historic relevance. The emerging field of paleogenetics focuses on the reconstruction and analysis of genomes of ancient organisms, whose DNA has been extracted from archaeological samples, such as bones. In this dissertation I present computational methods for the reconstruction and characterization of ancient bacterial genomes, which have been applied to study the evolution of Mycobacterium leprae, the bacterium causing leprosy. Overall, the algorithms and tools developed in this dissertation and the insights that have been gained by their application contribute to the understanding of the structure and organization of bacterial genomes and transcriptomes and will help to elucidate the basic mechanisms that drive their evolution.

This item appears in the following Collection(s)