Biologically meaningful classification of protein sequences - a bioinformatic approach

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-19269
http://hdl.handle.net/10900/48804
Dokumentart: Dissertation
Date: 2005
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Sonstige - Biologie
Advisor: Lupas, Andrei
Day of Oral Examination: 2005-07-20
DDC Classifikation: 570 - Life sciences; biology
Keywords: Proteine / Aminosäurensequenz , Bioinformatik
Other Keywords: Sequenz , Protein, Bioinformatik , Klassifizierung
sequence , protein , bioinformatic , classification
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Das Leben wäre ohne Proteine unvorstellbar. Die meisten strukturellen Komponenten des Lebens bestehen aus Proteinen, die meisten metabolischen Reaktionen werden durch Proteine begünstigt und selbst die Vervielfältigung des Erbguts würde ohne Proteine nicht stattfinden. Das Erbgut enthält, in verschlüsselter Form, Informationen über alle Proteine die ein Lebewesen herstellen kann. Will man auf molekularem Niveau Lebewesen verstehen, so ist ein genaues Verständnis der verschiedenen metabolischen und regulatorischen Proteine, sowie deren Interaktionspartner, notwendig. Allerdings ist die experimentelle Beschreibung aller Proteine in allen Organismen sowohl zeitlich als auch finanziell nicht möglich. Um dennoch eine Charakterisierung des Grossteils der Proteine eines Organismus zu ermöglichen macht man sich zunutze, dass verwandte Proteine meist auch ähnliche Struktur und Funktion haben. Ermittelte Charakteristika können somit auf verwandte Proteine übertragen werden. Proteinklassifizierung beschäftigt sich damit, den Verwandtschaftgrad ebenso wie funktionelle und strukturelle Gemeinsamkeiten verschiedener Proteine zu ermitteln. In dieser Arbeit gehe ich kurz in die Grundlagen der Proteinklassifizierung ein: Sequenzähnlichkeitssuche, Sequenz-alignierung und Stammbaum-erstellung. Die Methoden, ebenso wie ihre Vor- und Nachteile, werden kurz beschrieben und Lösungsansätze für die häufigsten Fehler und Probleme dargelegt. Die vorgestellten Arbeiten beschreiben zwei unterschiedliche Ansätze zur Klassifizierung von Proteinen, PhyloGenie und CLANS. "PhyloGenie" beschäftigt sich mit der Erstellung und Analyse von Phylomen, der Menge aller Gen-Stammbäume für das jeweilige Proteom eines Organismus. Um abzuschätzen wie gut PhyloGenie im Verhältnis zu alternativen Methoden abschneidet, haben wir zwei Datensätze erneut untersucht: a) Die Menge an lateralem Gen-transfer zwischen Thermoplasma und Sulfolobus (Ruepp et al. 2000) und die Suche nach Genen die die Strahlenflosser spezifische Genomduplikation unterstützen (Taylor et al. 2003). Unsere Analyse des Thermoplasma acidophilum Phyloms deutet auf wiederholte Austausche grösserer Bereiche genetischen Materials mit entfernt verwandten Archaebakterien der Familie Sulfolobus hin. Ein Vergleich mit anderen Ansätzen lateralen Gen-transfer aufzudecken zeigt, dass PhyloGenie das vorteilhafteste Verhältnis von Sensitivität zu Spezifität aller untersuchten Methoden erreicht. Eine vergleichende Genomanalyse des unvollständigen Danio rerio Genoms zeigt eine weitere Applikation Phylom basierter Analysemethoden. Durch Anwendung von PhyloGenie auf die Fragestellung der Strahlenflosser spezifischen Genomduplikation, konnte die Anzahl an Gruppen orthologer Gene verdoppelt werden, die diese Theorie unterstützen. Im Gegensatz zu PhyloGenie, welches Organismus-spezifisch arbeitet, behandelt CLANS die Analyse ganzer Proteinfamilien. Eine Proteinfamilie umfasst alle von einem Ur-Protein abstammenden Kopien, die sich im Laufe der Zeit zum Teil stark verändert haben können. Grössere Familien können paraloge und orthologe Untergruppen beinhalten und umfassen oft mehrere tausend Proteine, wodurch Stammbaumanalysen enorm Zeitaufwendig und schlecht überschaubar werden. Der Ansatz von CLANS beruht auf grafischer Darstellung aller paarweisen Sequenzähnlichkeiten. Dies ermöglicht die Analyse erheblich grösserer Datenmengen und ist unempfindlich gegenüber vielen Problemen der traditionellen Stammbaumerstellung. Anwendung von CLANS auf die Gruppe der AAA-ATPasen ermöglichte zum ersten Mal eine objektive Beschreibung dieser Familie. Existierende Klassifikationen dieser Familie unterscheiden sich zum Teil erheblich in der Anzahl vorhandener Sequenzen, so dass ein Hauptaspekt dieser Arbeit die Enumerierung aller AAA-ATPasen in der nichtredundanten NCBI Proteindatenbank und Beschreibung der Verwandschatsbeziehungen der einzelnen AAA-subfamilien ist. Die Ergebnisse der AAA-analyse sind biologisch nachvollziehbar und überraschende Vorhersagen, zum Beispiel die Homologie einiger N-Domänen entfernt verwandter AAA-ATPasen, wurden durch zusätzliche Untersuchungen verifiziert. Die Möglichkeit mit CLANS grosse Mengen an unalignierten Sequenzen zu untersuchen hat dazu geführt, dass es zur Grundlage vieler weiterer Analysen wurde. Als publizierte Beispiele sind hierfür die Analyse des TAA43 Proteins (Santos et al. 2004), eine Beschreibung des Wipi-1-alpha beta-propeller Proteins (Proikas-Czesanne et al. 2004) sowie eine Korrektur der Struktur des AbrB Transkriptionfaktors (Coles et al. in press) anzuführen.

Abstract:

Life without proteins is hardly imaginable. Proteins are essential to most structural components and metabolic processes within cells and replication of genetic material would not be possible, were they missing. The Genome of each organism contains information about all proteins that organism is capable of synthesizing. As proteins are such a central component of life, it is essential to gain a greater unterstanding of the various proteins and their interaction partners, prior to being able to understand Organisms at a molecular resolution. Experimental characterization of all proteins in all organisms is unfeasable due to time and financial constraints. However, it is frequently possible to glean knowledge for a large number of proteins in each new genome by transferring information from close sequence relatives wich have been characterized. The idea being, that proteins similar at the sequence level will most likey also have retained a similar structure and function. Some of the experimentally determined characteristics of one protein can therefore be transferred to all related proteins, depending on the degree of relatedness. Protein classification deals with determining the degree to which proteins are related and which functional and structural characteristics are conserved. In this work I describe the basics of protein classification: sequence similarity searches, sequence alignment and phylogenetic inference. Various methods are described and the advantages and disadvantages of one approach over the other mentioned. In addition, the most frequent protein classification problems and ways to circumvent these are presented. PhyloGenie and CLANS describe two different approaches to protein classification. Phylogenie focuses on the analysis of the set of all trees derived from the proteome of an organism: the phylome. To compare the performance of phylogenie to alternative methods, we repeated the analysis of two datasets searching for: 1) the amount of lateral gene transfer between Thermoplasma and Sulfolobus (Ruepp et al. 2000) and 2) genes supporting the hypothesis of an actinopterygian specific genome duplication (Taylor et al. 2003). Our analysis of the Thermoplasma acidophilum dataset pointed to large numbers of genes having been transferred between Thermoplasma and distantly related archaebacteria of the genus Sulfolobus. Comparison with other methods of detecting lateral gene transfer showed PhyloGenie to provide the best sensitivity to specificity quotient of the tested methods. Using Phylogenie in a comparative genomics analysis of the incomplete Dario rerio genome, we were able to double the number of orthologous genes supporting the actinopterygian specific genome duplication hypothesis. In contrast to PhyloGenie, which works in a mostly organism-specific manner, CLANS is used to analyze protein families. Protein families are used to describe the set of sequences descendant from an ancestral protein, some of which may have greatly changed over time. Larger families may contain orthologous and paralogous subgroups and encompass many thousands of sequences, rendering phylogenetic approaches computationally prohibitive and difficult to analyze. CLANS relies on graphical representation of all pairwise sequence similarities. This permits analysis of much larger datasets and is less sensitive to many of the problems traditional phylogenetic methods face. Application of CLANS to the group of AAA-ATPases enabled us to describe this family in an objective manner for the first time. Previous analyses differed in number and types of sequences used, so that enumeration and classification of all AAA-ATPases in the NCBI nonredundant protein database was a primary goal. The results generated were biologically plausible and surprising insights, such as the apparent homology of N-domains of distantly related AAA-ATPases, could be corroborated by additional tests. Due to it's ability to rapidly analyze large numbers of unaligned sequences, CLANS became the basis for a number of further analyses. Published examples include a description of the TAA43 protein (Santos et al. 2004), the Wipi-1-alpha beta-propeller (Proikas-Czesanne et al. 2004) as well as a correction of the structure of the AbrB transcription factor (Coles et al. in press).

This item appears in the following Collection(s)