Development of Bioinformatics Tools to Facilitate Genome Mining for Natural Products

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-71778
http://hdl.handle.net/10900/50002
Dokumentart: Dissertation
Date: 2013
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Biologie
Advisor: Wohlleben, Wolfgang (Prof. Dr.)
Day of Oral Examination: 2013-12-13
DDC Classifikation: 570 - Life sciences; biology
Keywords: Naturstoff , Sekundärmetabolit , Bioinformatik
Other Keywords: antiSMASH
secondary metabolites , natural products , bioinformatics , antiSMASH , computational biology
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Der mikrobielle Sekundärmetabolismus ist eine reichhaltige Quelle von Produkten mit antibakterieller, antimykotischer und immunsuppressiver Wirkung, von denen viele den Weg zur klinischen Anwendung gefunden haben. Nach einigen erfolgreichen Jahrzehnten der Naturstoffforschung nimmt die Rate der klinisch relevanten Neuentdeckungen seit den späten 1970ern stetig ab, viele Pharmakonzerne haben die Naturstoffforschung gänzlich aufgegeben. In den späten 1990ern wurden einige technologische Fortschritte gemacht, die den Grundstein legten für eine Renaissance der Naturstoffforschung mit verbesserten und zielgerichteteren Methoden. Hochdurchsatzsequenzierungen von Gesamtgenomen erlauben es die möglichen biosynthetischen Fähigkeiten von Poduzentenorganismen mittels genombasierter Naturstoffsuche abzuschätzen. Das Hauptziel der genombasierten Naturstoffsuche ist es, Gencluster nicht nur zu identifizieren sondern auch die biosynthetischen Produkte vorherzusagen. antiSMASH, eine Softwarepipeline zur Vorhersage einer großen Zahl an unterschiedlichen Sekundärmetabolit-Genclustern aus Genomdaten, wurde entworfen und umgesetzt. antiSMASH ist ein Werkzeug das genomische DNS-Sequenzen als Eingabe akzeptiert und daraus eine interaktive HTML-Seite mit den Vorhersagen über 24 unterschiedliche Sekundärmetabolitklassen generiert. Zu den Vorhersagen gehören das Poliketid-Rückgrat von PKS-Produkten, das Polypeptid-Rückgrat von NRPS-Produkten und die molare Masse und posttranslationale Veränderungen an Lanthipeptid-Kernpeptiden. Ein öffentlich zugänglicher Webdienst mit antiSMASH ist unter http://antismash.secondarymetabolites.org/ verfügbar. Alternativ kann antiSMASH auch heruntergeladen und lokal ausgeführt werden. Um für die Pipeline qualitativ hochwertige Vorhersagen treffen zu können, wurde ein auf maschinellem Lernen basierender Algorithmus für die Vorhersage von NRPS-Produkten aktualisiert und in seiner Vorhersageleistung verbessert. Zusätzlich wurde ein neuartiger Algorithmus für die Vorhersage von Produkten der Lanthipeptid-Synthetasen etwickelt und in die antiSMASH-Pipeline integriert. Nach einer initialen Machbarkeitsstudie wurde ein groß angelegtes Refactoring unternommen, um sicherzustellen dass die Prinzipien guter Softwareingenieurpraxis im Quelltext von antiSMASH beachtet wurden. Dieses Refactoring stellt die langfristige Zukunftstauglichkeit, Stabilität und Benutzbarkeit von antiSMASH sicher.

Abstract:

The microbial secondary metabolism is a rich source of products with antibacterial, antifungal, anticancer and immunosuppressant activities that have found their way into clinical applications. After a golden area of natural product discovery lasting until the late 1970s, the rate of new discoveries turning into drugs suitable for clinical use has dropped and many pharmaceutical companies have abandoned natural product research. The late 1990s saw the rise of a new technological advance that laid the foundation to a revival of natural products research using improved and more directed methodologies. High-throughput full genome sequencing allows to identify the potential biosynthetic capabilities of a producer organism by genome mining for natural products. The central part of this new approach is to not only identify clusters but also to predict the product of the biosynthesis. antiSMASH, a software pipeline to predict a large number of different secondary metaboite gene clusters from genomic data was designed and implemented. antiSMASH is a tool that takes genomic DNA input sequences and generates an interactive HTML output page containing the predictions for 24 different secondary metabolite classes. Predictions include the polyketide backbone structure for PKS products, the polypeptide structure for NRPS products and the molecular mass and post-translational modification to lanthipeptide core peptides. A public web service for running antiSMASH is available under http://antismash.secondarymetabolites.org/. Alternatively, antiSMASH can also be downloaded and run locally. In order to provide high-quality analyses for the antiSMASH pipeline, a machine-learning based prediction algorithm capable of predicting the composition of NRPS products was updated and improved in predictive power. Additionally, a novel prediction algorithm for the products of lanthipeptide synthases was developed and integrated into the antiSMASH prediction pipeline. After a proof-of-concept implementation, a large-scale refactoring project was undertaken to ensure that good software engineering practice was observed in the antiSMASH code base. The refactoring ensures the long-term sustainability, stability and accessibility of the antiSMASH codebase.

This item appears in the following Collection(s)