Computational Approaches for Analyzing the Role of Protein-DNA Interactions in Gene Regulation

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-24576
http://hdl.handle.net/10900/48959
Dokumentart: Dissertation
Date: 2006
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Sonstige - Informations- und Kognitionswissenschaften
Advisor: Kohlbacher, Oliver
Day of Oral Examination: 2006-06-19
DDC Classifikation: 004 - Data processing and computer science
Keywords: Proteine , Genregulation , DNS , Wechselwirkung
Other Keywords: Theoretische Ansätze
Protein , DNA , Interactions , Computational approaches , Gene regulation
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Genregulation spielt eine entscheidende Rolle in allen Entwicklungsstadien eines Organismus, bei der Zelldifferenzierung und dem Erhalt der Homöostase. Die kontrollierte räumliche und zeitliche Expression bestimmter Gene wird dabei durch ein komplexes, aber robustes, Netzwerk kontrolliert. Ein Schlüsselprozess der Regulation ist dabei die sequenzspezifische Protein-DNA-Erkennung, die es Transkriptionsfaktoren erlaubt ihre jeweiligen Bindungsstellen zu erkennen. Die Untersuchung der Genregulation wirft interessante Fragen auf drei verschiedenen Ebenen auf. Auf der obersten Ebene, der Ebene der Systeme, beschäftigt man sich dabei mit den Auswirkungen der Genregulation auf Netzwerke als Ganzes. Diese Ebene hat wichtige Implikationen für die Erforschung von Krankheiten. Die zweite Ebene, die Sequenzebene, betrachtet die Wechselwirkungen von Transkriptionsfaktoren mit ihren genomischen Bindestellen und erlaubt Aussagen über regulatorische Module und deren Anordnung im Genom. Die dritte, molekulare Ebene schließlich versucht die Protein-DNA-Wechselwirkungen ausgehend von der dreidimensionalen Struktur von Proteinen und DNA zu erklären. In dieser Arbeit werden eine Reihe von Ansätzen zur rechnergestützten Analyse der Genregulation auf all diesen Ebenen vorgestellt, von der Systemebene bis hinab zur molekulare Ebene. Zunächst wird dabei der Einfluss der Genregulation auf der Systemebene betrachtet. Mit einer neuen integrativen Analyse-Pipeline werden dazu an der Entstehung von Krebs beteiligte Gene identifiziert. Dazu wird eine ganze Reihe heterogener Datensätze integriert und im gemeinsamen Kontext analysiert, insbesondere in Bezug auf die Genexpression in Krebsgeweben. Es stellt sich heraus, dass der Transkriptionsfaktor AP2 eine Schlüsselrolle in der Steuerung überexprimierter Gene in Melanomen spielt. Diese theoretisch erhaltenen Ergebnisse unterstützen früher erzielte experimentelle Ergebnisse. Geht man nun einen Schritt weiter hinab, zur Ebene der Sequenzen, so kann man hier an anderen Modellsystemen, Hefe und der Ackerschmalwand, das Zusammenspiel verschiedener Transkriptionsfaktoren in der Regulation funktionell verwandter Gene studieren. Mit Gibbs-Sampling wurden dazu potentielle Bindestellen von Transkriptionsfaktoren identifiziert. Dabei stellt sich insbesondere das response element ACGCGT als überrepräsentiert in regulatorische Regionen von DNA-Reparaturgenen der Hefe heraus. Dies unterstützt die Hypothese, dass der Transkriptionsfaktor MBP1 beim Blockieren der Replikation beschädigter DNA beteiligt ist. In Arabidopsis thaliana, der Ackerschmalwand, wurde mit ähnlichen Methoden die Regulation der pflanzlichen Stammzellen untersucht. Vorläufige Ergebnisse deuten hier auf die kritischen Rollen bestimmter Transkriptionsfaktoren hin und leisten einen Beitrag zur Aufklärung der zugrunde liegenden regulatorischen Netzwerke. Geht man schließlich eine weitere Ebene hinab, so kann man die Interaktion der Transkriptionsfaktoren mit der DNA auf molekularer Ebene untersuchen. Ausgehend von strukturellen Daten von DNA-Transkriptionsfaktor-Komplexen lassen sich die thermodynamischen Größen bestimmen, die für die Regulation ausschlaggebend sind. Es wird ein Simulationsprotokoll vorgestellt, dass es erlaubt, den Einfluss von Punktmutationen in der DNA auf die freie Bindungsenthalpie zu berechnen. Die derart bestimmten Änderungen der freien Enthalpie für Mutationen von Thymin zu Uracil in Zinkfinger-DNA-Komplexen stimmen sehr gut mit experimentell bestimmten Werten überein. Diese Art von Studien ist ein erster Schritt zur Vorhersage der Motive eines Transkriptionsfaktors ausgehend von seiner Struktur. Eine solche Sicht auf die verschiedenen Ebenen des Phänomens Genregulation erlaubt ein besseres Verständnis des gesamten Vorgangs. Jede Ebene liefert wesentliche Informationen zu einem bestimmten Aspekt der Genregulation: die systemische Ebene erlaubt das Verständnis der Regulation im Kontext des gesamten regulatorischen Netzwerks und erlaubt es, die Effekte der Genregulation auf komplexe Krankheitsverläufe zu untersuchen. Sequenzbasierte Methoden erlauben das Verständnis der lokalen Feinregulation funktionell verwandter Gene. Die molekulare Ebene schließlich erlaubt es, die Mehrdeutigkeiten sequenzbasierter Modelle zu verstehen und vorherzusagen. Der hohe Rechenaufwand dieser Methoden beschränkt diese Art von Modell aber derzeit noch auf kleine Studien und ausgewählte Beispielfälle.

Abstract:

Gene regulation plays a pivotal role at all stages of organism development, in cell differentiation, and for maintaining homeostasis. Controlled spatial and temporal gene expression is achieved by means of complex and robust regulatory networks. A key event in maintaining such networks is the sequence specific protein-DNA recognition, which enables transcription factors to identify their respective binding sites. Computational and structural biologists face intriguing challenges at three different levels when investigating gene regulation. First, the involvement of gene regulation in disease can be addressed by studying global effects of gene regulatory networks, which are visible at the level of systems. Furthermore, detecting the often short and variable transcription factor binding sites (TFBSs) in genomic DNA is not a trivial task, since the prediction of TFBSs and delineation of functional regulatory modules are conducted at the level of sequences. Finally, there is a challenge in understanding the factors governing transcription factor-DNA recognition, as the information needs to be collected at the molecular level. Structure-based methods provide detailed information about protein-DNA interactions at atomic resolution. In this work, a versatile approach for computational analysis of the different levels of gene regulation, gradually zooming in from the global level of systems to the molecular level, is presented. Linking information related to gene regulation from the different levels can help in clarifying phenomena that are hard to explain using only one source of information. First, the influence of gene regulation is analyzed at the level of systems. A set of cancer-related target genes are identified using a novel integrative analysis pipeline. Microarray data, immunological data, and curated biological knowledge are brought together enabling extensive analysis of the underlying mechanisms controlling gene expression in cancer tissue. The transcription factor AP2 is suggested to play a key regulatory role in controlling a set of over-expressed melanoma-related genes. The computational results presented are supported by previously reported experimental evidence. Zooming in to the level of sequences transcription factors orchestrating the expression of functionally related genes are identified in yeast and plant, which are two important model organisms for studying gene regulation. The pattern-finding algorithm Gibbs sampling is employed for discovering putative functional TFBSs in functionally related genes. The response element ACGCGT is found to be over-represented in DNA-repair genes in yeast, which supports the idea that the transcription factor MBP1 is involved in blocking replication of damaged DNA. The vital regulation of stem cells is explored in plant, providing preliminary computational evidence for TFBSs critical to stem cell differentiation. The final transition is the step from analyzing gene regulation at the levels of systems and sequences to studying protein-DNA interactions at atomic detail. Structural data provides an additional source for gaining insight into the thermodynamic properties of sequence specific binding, which eventually directs gene regulation. A computational protocol for analyzing the effects that small base modifications have on the overall binding free energy is described. The computationally obtained results for mutating the thymine to uracil in transcription factor-DNA complexes agree well with previously reported experimental results, illustrating the applicability of the protocol. This is a first step towards using molecular modeling for constructing structure-based models of TFBSs. Each individual level of this step-wise analysis provides crucial information needed to gain insight into the different aspects underlying complex regulatory control mechanisms. Analysis at the level of systems and networks is crucial for understanding global effects of gene regulation, the implications of gene regulation in disease, and for identifying sets of target genes. Sequence-based methods are used for discovering functional binding sites in gene regulatory regions for such sets of related genes, responsible for directing gene expression. Finally, structural analysis can explain ambiguities observed in sequence-based models, however, can only be applied to a limited number of protein-DNA complexes due to high computational requirements. An improved understanding of all aspects of gene regulation is inevitable for identifying key factors influencing organism development and disease.

This item appears in the following Collection(s)