Inhaltszusammenfassung:
Flüssigkeitschromatographie gekoppelt mit Massenspektrometrie (LC-MS) ist in den letzten Jahren zu der am meisten verbreiteten Methode der Proteomik geworden. Dies ist besonders auf die relative Kostengünstigkeit gegenüber gelbasierten Methoden, sowie der schnellen und einfachen Handhabung zurückzuführen. Die Möglichkeit, tausende Proteine innerhalb weniger Stunden mittels Tandemmassenspektrometrie (MS/MS) zu identifizieren, macht die LC-MS/MS zu einer weit verbreiteten Hochdurchsatzmethode in den Lebenswissenschaften. Der technische Stand der Massenspektrometer macht es jedoch nötig, dass Proteine zu Peptiden verdaut werden, da zu große Moleküle und solche mit zu
hohem Ladungszustand nicht mit genügend hoher Auflösung im Hochdurchsatzverfahren vermessen werden können. Die Peptide hingegen können detektiert und meist mittels Datenbank Suchmaschinen identifiziert werden. Dieser bottom-up Ansatz hat jedoch den Nachteil, dass die identifizierten Peptide wieder zu Proteinsequenzen zusammengesetzt werden müssen. Dieser Schritt wird als Proteininferenz bezeichnet und ist nicht trivial: aufgrund von Peptidambiguitäten kann es oftmals keine genaue Lösung der Inferenz geben. Es kann vorkommen, dass ein Peptid in der zugrundeliegenden Datenbank, welche zur
Identifikation benutzt wurde, mehreren Proteinen zugewiesen wird. Dies kann mehrere Gründe haben, beispielsweise homologe Proteine und Proteindomänen, Isoformen oder einfach redundante Sequenzen (mehrere Einträge für dasselbe Protein oder Sequenzfragmente). Diese gemeinschaftlichen Peptide führen zu einer Menge von Proteinen, welche aus denselben Mengen oder Untermengen von Sequenzen aufgebaut sind. Dieses Problem ist bekannt als die "Proteinambiguität" ("protein ambiguity") und ohne weitere Annahmen oder zusätzliches Wissen kann nicht klar entschieden werden, welches Protein einer solchen Proteinmenge in der gemessenen Probe vorhanden war. Es sei denn, ein Peptid, welches nur einem Protein zugewiesen werden kann, wurde ebenfalls detektiert.
Die vorliegende Arbeit befasst sich mit dem Problem der Proteininferenz. Zunächst wird das Problem und seine Ursachen genau vorgestellt. Außerdem wird auf einige der Grundlegenden Algorithmen zur Peptididentifikation sowie Möglichkeiten um deren Ergebnisse zu vereinheitlichen eingegangen. Im Laufe dieser Arbeit wurde das Tool "PIA - Protein Inference Algorithms" entwickelt. Dieses wird alleine und zusammen mit vier weiteren Proteininferenzmethoden in einer ausführlichen Begutachtung analysiert. In dieser Untersuchung werden die Unterschiede, aber auch Gemeinsamkeiten, der Tools und deren Ergebnislisten herausgearbeitet. PIA ist speziell darauf ausgelegt, dass es keine einzelnen Proteine, sondern immer Proteingruppen als Ergebnisse liefert. Außerdem gibt es dem Benutzer die Entscheidung aus mehreren Algorithmen für die Inferenz zu wählen und eine Vielzahl an Filtern zu setzen, sowie die Ergebnisse mehrerer Suchmaschinen zu vereinen. Es beherrscht sowohl für den Import als auch den Export die Community-Standarddateiformate mzIdentML und mzTab und bietet dadurch einen einfachen Einbau in größere Proteomik-Pipelines. PIA kann sowohl in der Workflowumgebung KNIME als auch über die Kommandozeile ausgeführt werden. Zusätzlich bietet es ein benutzerfreundliches Web-Frontend, welches über jeden aktuellen Browser aufgerufen werden kann. Neben ausführlichen und leicht inspizierbaren Ergebnislisten bietet PIA auch eine intuitive Visualisierung der Verhältnisse zwischen MS-Spektren, Peptiden und Proteinen, welche zu der Erstellung einer Ergebnislisten geführt haben.
Abstract:
Liquid chromatography coupled to mass spectrometry (LC-MS) has become the most commonly used method for proteomics in recent years. This is mainly due to its relative affordability in comparison to gel-based methods combined with its fast and straight forward usage. The possibility to identify thousands of proteins by tandem mass spectrometry (MS/MS) in a few hours let LC-MS/MS become a widely used high-throughput method in the life sciences. The current state-of-the-art mass spectrometers though makes it necessary to digest proteins into peptides: too large and too highly charged molecules cannot be measured with sufficiently high resolution in high throughput. Peptides on the other hand can be detected and identified, most often employing database search engines. This bottom-up approach comes with the drawback that identified peptides have to be re-assembled to protein sequences. This step is called protein inference and is not trivial: due to peptide ambiguities a correct solution of the inference cannot be given in most cases. A peptide that was found in the original database used for the identification, can sometimes be assigned to more than one protein. The reason for this can have multiple causes, for example homologous proteins and protein domains, isoforms or simply redundant sequences originating from multiple entries for the same protein or sequence fragment. These shared peptides lead to a set of proteins, which are built-up of the same sets or sub-sets of sequences. This problem is known as the "protein ambiguity" and without further assumptions or additional knowledge it remains uncertain, which protein of such a set was actually present in the measured sample, unless a unique peptide, which belongs to only one protein, was detected.
The work presented herein addresses open problems in protein inference. At first, the problem and its causes are addressed in detail. Additionally some of the basic algorithms for peptide identification as well as possibilities to merge their results are introduced. During this work the tool "PIA - Protein Inference Algorithms" was developed. PIA was compared to four other inference methods in an in-depth assessment. In this analysis the differences, but also the similarities of these tools and their reports were highlighted. During the development of PIA special care was taken, that no single proteins, but protein groups are reported. Furthermore, it allows a user to chose from multiple algorithms for the inference and set a multitude of different filters, as well as to merge the results of multiple search engines. The community standard file formats mzIdentML and mzTab can be used for data import and export, thus giving the opportunity to easily include PIA into bigger proteomics pipelines. PIA can be executed in the workflow environment KNIME or directly via the command line. Additionally, it provides a user friendly web interface, which can be accessed with any current browser. Besides comprehensive and easily browsable result lists, PIA offers an intuitive visualisation of the relations between the MS spectra, peptides and proteins, which are contained in a generated protein result list.