Inhaltszusammenfassung:
Der mikrobielle Sekundärmetabolismus ist eine reichhaltige Quelle von
Produkten mit antibakterieller, antimykotischer und immunsuppressiver Wirkung,
von denen viele den Weg zur klinischen Anwendung gefunden haben. Nach einigen
erfolgreichen Jahrzehnten der Naturstoffforschung nimmt die Rate der klinisch
relevanten Neuentdeckungen seit den späten 1970ern stetig ab, viele
Pharmakonzerne haben die Naturstoffforschung gänzlich aufgegeben.
In den späten 1990ern wurden einige technologische Fortschritte gemacht, die den
Grundstein legten für eine Renaissance der Naturstoffforschung mit verbesserten
und zielgerichteteren Methoden. Hochdurchsatzsequenzierungen von Gesamtgenomen
erlauben es die möglichen biosynthetischen Fähigkeiten von
Poduzentenorganismen mittels genombasierter Naturstoffsuche abzuschätzen. Das
Hauptziel der genombasierten Naturstoffsuche ist es, Gencluster nicht nur zu
identifizieren sondern auch die biosynthetischen Produkte vorherzusagen.
antiSMASH, eine Softwarepipeline zur Vorhersage einer großen Zahl an
unterschiedlichen Sekundärmetabolit-Genclustern aus Genomdaten, wurde entworfen
und umgesetzt. antiSMASH ist ein Werkzeug das genomische DNS-Sequenzen als
Eingabe akzeptiert und daraus eine interaktive HTML-Seite mit den Vorhersagen
über 24 unterschiedliche Sekundärmetabolitklassen generiert. Zu den
Vorhersagen gehören das Poliketid-Rückgrat von PKS-Produkten, das
Polypeptid-Rückgrat von NRPS-Produkten und die molare Masse und
posttranslationale Veränderungen an Lanthipeptid-Kernpeptiden. Ein
öffentlich zugänglicher Webdienst mit antiSMASH ist unter
http://antismash.secondarymetabolites.org/ verfügbar. Alternativ kann
antiSMASH auch heruntergeladen und lokal ausgeführt werden. Um für die
Pipeline qualitativ hochwertige Vorhersagen treffen zu können, wurde ein auf
maschinellem Lernen basierender Algorithmus für die Vorhersage von
NRPS-Produkten aktualisiert und in seiner Vorhersageleistung verbessert.
Zusätzlich wurde ein neuartiger Algorithmus für die Vorhersage von Produkten
der Lanthipeptid-Synthetasen etwickelt und in die antiSMASH-Pipeline integriert.
Nach einer initialen Machbarkeitsstudie wurde ein groß angelegtes Refactoring
unternommen, um sicherzustellen dass die Prinzipien guter Softwareingenieurpraxis im Quelltext von antiSMASH beachtet wurden. Dieses Refactoring stellt die langfristige Zukunftstauglichkeit, Stabilität und Benutzbarkeit von antiSMASH sicher.
Abstract:
The microbial secondary metabolism is a rich source of products with
antibacterial, antifungal, anticancer and immunosuppressant activities that have
found their way into clinical applications. After a golden area of natural
product discovery lasting until the late 1970s, the rate of new discoveries
turning into drugs suitable for clinical use has dropped and many pharmaceutical
companies have abandoned natural product research.
The late 1990s saw the rise of a new technological advance that laid the
foundation to a revival of natural products research using improved and more
directed methodologies. High-throughput full genome sequencing allows to identify the potential biosynthetic capabilities of a producer organism by genome mining for natural products. The central part of this new approach is
to not only identify clusters but also to predict the product of the
biosynthesis.
antiSMASH, a software pipeline to predict a large number of different secondary
metaboite gene clusters from genomic data was designed and implemented.
antiSMASH is a tool that takes genomic DNA input sequences and generates
an interactive HTML output page containing the predictions for 24 different
secondary metabolite classes. Predictions include the polyketide backbone
structure for PKS products, the polypeptide structure for NRPS products and the molecular mass and post-translational modification to lanthipeptide core peptides. A public web service for running antiSMASH is available under http://antismash.secondarymetabolites.org/. Alternatively, antiSMASH can also be downloaded and run locally. In order to provide high-quality analyses for the antiSMASH pipeline, a machine-learning based prediction algorithm capable of predicting the composition of NRPS products was updated and improved in predictive power. Additionally, a novel prediction algorithm for the products of lanthipeptide synthases was developed and integrated into the antiSMASH prediction pipeline.
After a proof-of-concept implementation, a large-scale refactoring project was
undertaken to ensure that good software engineering practice was observed in the
antiSMASH code base. The refactoring ensures the long-term sustainability,
stability and accessibility of the antiSMASH codebase.