Substrate specificity prediction of enzymes and its applications to nonribosomal peptide synthetases

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-30427
http://hdl.handle.net/10900/49083
Dokumentart: PhDThesis
Date: 2007
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel H. (Prof. Dr.)
Day of Oral Examination: 2007-07-19
DDC Classifikation: 004 - Data processing and computer science
Keywords: Spezifität , Substrat <Chemie> , Peptidantibiotikum , Enzym , Maschinelles Lernen
Other Keywords: Stützvektormaschinen , Funktionsvorhersage
Peptide antibiotics , Machine learning , Support vector machines , Function prediction
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Nichtribosomal synthetisierte Peptide (NRP) und Polyketide (PK) stellen eine vielfältige Gruppe von Naturstoffen dar, zu der Antibiotika, Arzneimittel gegen Krebs, Entzündungshemmer, Immunosuppressiva, Metallkomplexbildner und andere Moleküle mit interessanten Eigenschaften gehören. Die ständige Nachfrage nach neuen Wirkstoffen und die wachsende Anzahl noch nicht erforschter Protein-Sequenzen aus Genom-Projekten verlangen nach besseren Methoden, um neuartige NRP-Synthetasen (NRPS) und PK-Synthasen (PKS) automatisiert in den Protein-Datenbanken aufzuspüren und die Zusammensetzung ihrer Produkte effizient vorherzusagen. Neben der Suche nach neuartigen biologisch aktiven Molekülen ist man auch bestrebt, durch die gezielte Modifikation bekannter NRPS/PKS Biosynthese-Cluster maßgeschneiderte Produkte zu entwerfen. Diese Strategie ist umso effizienter, je besser Positionen bzw. Segmente in den Enzymen vorhergesagt werden können, die mutiert bzw. rekombiniert werden müssen, um neue Substanzen zu erhalten. In dieser Arbeit wurden Methoden entwickelt und etabliert, die diese beiden Ansätze unterstützen: Eine effiziente Suchstrategie mit Profile Hidden Markov Models (pHMMs) wird genutzt, die das gleichzeitige Auftreten bestimmter enzymatischer Domänen fordert, und es so erlaubt, NRPS und PKS in Protein-Sequenzen sicher aufzufinden. Eine neue, auf maschinellem Lernen (Stützvektormaschinen) beruhende Strategie wurde entwickelt, mit der vorhergesagt werden kann, welche Bausteine (in der Regel Aminosäuren) in NRPS von Adenylierungsdomänen ausgewählt werden, um im Folgenden in das Produkt eingebaut zu werden. Dadurch wird es möglich, auf die Zusammensetzung des synthetisierten Produkts zu schließen. Diese neue Methode wurde in dem Programm NRPSpredictor implementiert und steht kostenlos über www-ab.informatik.uni-tuebingen.de/software/NRPSpredictor zur Verfügung. Die NRPS Kondensationsdomänen verbinden die von den Adenylierungsdomänen ausgewählten Aminosäuren durch Ausbildung einer Peptidbindung zu einem Peptidstrang und erzeugen je nach ihrer funktionellen Variante (Subtyp) unterschiedliche Produktgeometrien. In einer umfassenden Studie der evolutionären Beziehungen dieser Subtypen wurden charakteristische Sequenz-Motive und -Positionen aufgedeckt, in denen sich die verschiedenen Varianten unterscheiden. Eine automatisierte Vorhersage der funktionellen Subtypen der Kondensationsdomäne wird durch die erstellten pHMMs ermöglicht. Die ermittelten subtypspezifischen Positionen sind hilfreich für die gezielte Einführung von Mutationen, um einen Subtyp in einen anderen zu überführen mit der Absicht, neuartige Produkte zu erhalten. Desweiteren wurden die Möglichkeiten der Strukturbioinformatik untersucht und Molecular Modeling und Docking Simulationen durchgeführt, um die Spezifität von Adenylierungsdomänen sowie die Auswirkungen gezielter Punkt-Mutationen auf die Bindungspräferenzen der Adenylierungsdomänen vorherzusagen. Die in dieser Arbeit eingeführten Methoden sind nutzbar für die Vorhersage der Spezifitäten bzw. der funktionellen Subtypen anderer Enzyme unter bestimmten Voraussetzungen, insbesondere genügend hoher Sequenzähnlichkeit zwischen den verschiedenen Gruppen, so dass über multiple Sequenz-Alignments homologe Positionen ermittelt werden können.

Abstract:

Nonribosomal peptides (NRPs) and polyketides (PKs) are a diverse group of natural products comprising molecules with antibiotic, antitumoral, anti-inflammatory, immunosuppressing, metal chelating and other interesting properties. The steady demand for novel drugs and the increasing number of uncharacterized protein sequences issued from genome projects call for better methods to automatically detect novel NRP synthetases (NRPSs) and PK synthases (PKSs) in the protein databases, and to predict the composition of their products efficiently. Besides the search for novel biologically active molecules, research also tries to obtain tailored products by the rational manipulation of known NRPS/PKS biosynthesis clusters. This strategy will become more efficient, as we are better able to predict positions to be mutated or segments to be recombined in these enzymes. In this thesis, we develop and establish methods that are helpful for both strategies: predicting new and manipulating known products. To detect NRPSs and PKSs efficiently in protein sequences, we use a search strategy with profile Hidden Markov Models (pHHMs) that requires the simultaneous occurrence of certain enzymatic domains specific for these enzymes. We present a new machine learning (Support Vector Machine)-based strategy to predict which building blocks (mainly amino acids) are selected for incorporation by so-called Adenylation (A) domains in NRPSs. Thus, it becomes possible to infer the composition of the synthesized product. This new method is implemented in the program NRPSpredictor and is freely accessible via www-ab.informatik.uni-tuebingen.de/software/NRPSpredictor. The NRPS Condensation (C) domains catalyze the bond formation between the amino acids (that were previously selected by the A domains) and may produce different product geometries according to their functional variant (subtype). In a comprehensive evolutionary study of these subtypes, we reveal characteristic sequence motifs and positions in which the unequal variants differ. We make available some pHHMs, which facilitate the automated prediction of the functional C domain subtypes. The determined subtype-specific positions will be helpful for the directed mutagenesis to turn one subtype into another with the goal of obtaining novel products. Moreover, we explore possibilities of structural bioinformatics using molecular modeling and docking simulations to predict the specificity of A domains. These simulations also allow for the study of directed point-mutations in these domains. The methods introduced in this work are applicable to predicting the specificities of functional subtypes of other enzymes under certain conditions; in particular, a sufficiently high sequence similarity between the different groups is required to be able to determine homologous positions via a multiple sequence alignment.

This item appears in the following Collection(s)