Inhaltszusammenfassung:
Im Verlauf des letzten Jahrzehnts führten wesentliche Verbesserungen der Techniken zur DNA Sequenzierung zu einer neuen Generation von Sequenzierungstechnologien („next generation sequencing“, NGS), welche eine routinemäßige Sequenzierung ganzer Genome und Transkriptome verschiedenster Organismen ermöglichte. Die Annotation der Genomsequenz stellt nach wie vor eine Herausforderung für Programme zur ab initio Genvorhersage dar, welche auf Algorithmen des maschinellen Lernens basieren. Experimentelle Bestätigung von Genexpression auf RNA- und Proteinebene kann dazu verwendet werden, die Genauigkeit der Genvorhersagen enorm zu verbessern. Während NGS Technologien Genexpressionsdaten auf der Ebene der Transkription generieren, kann die Bestätigung der Translation global nur mittels Massenspektrometrie (MS)-basierter Proteomik analysiert werden. Darüber hinaus stellt diese Technologie ein unverzichtbares Werkzeug zur Untersuchung regulatorischer, posttranslationaler Proteinmodifikationen (PTM), wie zum Beispiel Phosphorylierung, dar. In dieser Arbeit untersuche ich, in welchem Umfang hochgenaue, MS-basierte Proteomik zur Verbesserung der Annotation von genomischen Sequenzierdaten beitragen kann, welches im Fokus einer sich rasant entwickelten Forschungszweigs namens „Proteogenomik“ steht. Zuerst untersuche ich grundlegende Parameter eines einfachen proteogenomischen Experimentes, wie zum Beispiel die eigentliche Fehlerrate (false discovery rate, FDR) und Sequenzabdeckung eines bakteriellen Genoms mittels modernster MS Technologie gewonnener Daten. Hierzu verwende ich einen umfassenden Proteomdatensatz des gram-negativen Modelbakteriums Escherichia coli, bestehend aus allen exprimierten Proteinen der exponentiellen Wachstumsphase, und wende diesen auf das sehr gut charakterisierte Genom des Bakteriums an. Dieser Versuch zeigte eine erhebliche Unterschätzung der Fehlerrate (FDR) einer häufig verwendeten Vorgehensweise, und deutete auf die Notwendigkeit hin, die Sequenzabdeckung MS-basierter Proteomik zu verbessern. Des Weiteren demonstriere ich den Nutzen eines proteogenomischen Experiments bei der Annotation Protein kodierender Bereiche eines komplexen, eukaryotischen Genoms am Beispiel des Fadenwurms Pristionchus pacificus, welcher vermehrt als Modellorganismus in der Evolutionsbiologie verwendet wird. Das Experiment führte zur Identifikation mehrerer Tausend, bisher unbekannter Peptidsequenzen. Diese wurden zusammen mit Transkriptionsdaten dazu verwendet, die existierende Annotation des Genoms zu verbessern. Abschließend betrachte ich die verbesserte Annotation des P. pacificus Proteoms, um dessen funktionelle Aspekte zu untersuchen. Dazu verwende ich Daten eines MS-basierten Experiments zur globalen Identifikation von Proteinphosphorylierungsstellen, um die phosphorylierten Proteine funktionell zu chrakterisieren, das Kinom des Organismus zu bestimmen und die gewonnenen Ergebnisse mit einer jüngst veröffentlichten Studie des Phosphoproteoms des Modellorganismus Caenorhabditis elegans zu vergleichen. Zusammengenommmen demonstriert diese Arbeit den Nutzen hochgenauer MS-basierter Proteomik in der Verbesserung von Genomsequenzierungsdaten.
Abstract:
Major improvements in DNA sequencing technologies during the last decade gave rise to “next generation sequencing” (NGS) technology, that enables routine sampling of entire genomes and transcriptomes of various organisms; however, the annotation of the raw genome sequence remains a big challenge for ab initio gene prediction programs. Experimental evidence of gene expression at the RNA and protein level can be used to train the machine learning algorithms and greatly improves accuracy of the resulting gene predictions. While NGS can provide gene expression data at the transcript level, translational evidence of genes on a large scale can only be addressed using mass spectrometry (MS)-based proteomics. Moreover, this technology is an indispensable tool to study regulatory post translational protein modifications (PTMs) such as phosphorylation. In this work I studied to what extent high accuracy MS-based proteomics can contribute to refining genome sequencing data, which is in focus of a fast-evolving research field termed “proteogenomics”. I first addressed the main parameters of a simple proteogenomic experiment, such as the actual false discovery rate of protein database search and sequence coverage of a bacterial genome using state-of-the-art MS technology. To that end I used a comprehensive proteome dataset of the model gram negative bacterium Escherichia coli, comprising its complete expressed proteome in exponential growth, and applied this approach to its well characterized genome. This analysis demonstrated a substantial underestimation of the false discovery rate in a commonly used proteogenomics workflow and pointed to the need for further improvement of sequence coverage in shotgun proteomic experiments. I further demonstrated the utility of proteogenomics in annotation of protein coding regions of a complex, eukaryotic genome on the example of Pristionchus pacificus, a model nematode increasingly used in evolutionary biology. The application led to the identification of several thousand novel peptide sequences that were used, together with transcriptomic data, to refine the existing genome annotation. Finally, I studied functional aspects of the refined P. pacificus proteome by using data from an in-depth phosphoproteomic study which enabled me to describe functional categories of detected P. pacificus phosphoproteins, to define its kinome and to perform a comparative analysis with a recent phosphoproteomics study of the model nematode Caenorhabditis elegans. Taken together, this work demonstrates the value of high accuracy MS based proteomics in refinement of genome sequencing data.