Inhaltszusammenfassung:
Obwohl die Vielfalt an Proteinen in der Natur grenzenlos zu sein scheint, ist sie in Wirklichkeit stark eingeschränkt. Viele Proteine haben eine erkennbare Ähnlichkeit in ihrer Sequenz und Struktur, da sie durch Amplifizierung, Rekombination und Divergenz aus einer Grundmenge sich autonom faltender Module, den Domänen, entstanden sind. Viele dieser Domänen gehen auf den letzten gemeinsamen Vorfahren (engl. Last Universal Common Ancestor, LUCA) zurück. Tatsächlich zeigt der Sequenzvergleich heutiger Proteine, dass man sie auf nur etwa 10000 Domänenfamilien zurückführen kann, die wiederum in nur etwa 3000 allgemeinere evolutionäre Superfamilien eingeteilt werden können. Darüber hinaus werden Superfamilien je nach topologischer Anordnung der Sekundärstrukturelemente einer von ungefähr 1000 Faltungen zugeordnet. Man geht davon aus, dass Faltungen analog sind, wobei Ähnlichkeiten zwischen verschiedenen Superfamilien einer Faltung das Resultat konvergenter Evolution sind. Allerdings haben das jüngste Anwachsen molekularer Datenbanken und Fortschritte in Sequenzvergleichsmethoden dazu geführt, dass viele entfernte evolutionäre Verwandtschaften, die über die Grenzen von Superfamilien hinausgehen, entdeckt wurden, was zeigt, dass nicht alle Superfamilien unabhängig voneinander entstanden sind. Das erste Ziel dieser Arbeit war es zu bestimmen, wie verbreitet solche entfernten Verwandtschaften sind. Dazu berechnete ich Cluster aus Domänen bekannter Strukturen entsprechend ihrer Sequenzähnlichkeit, des zentralen Kriteriums für die Ableitung eines gemeinsamen evolutionären Ursprungs. Die so entstandende Karte mit einer Vielzahl von Clustern zeigt, dass einerseits einige Faltungen mit vielen Superfamilien tatsächlich konvergent evolviert zu sein scheinen, und dass andererseits die meisten Domänen, die der gleichen Faltung angehören, aus einem Urprototyp entstanden sind. Dies zeigt, dass Proteine deutlich weniger polyphyletisch sind als bislang angenommen.
Die Entstehung heutiger Proteine durch eine kombinatorische Durchmischung einer begrenzten Anzahl an Domänen ist allgemein anerkannt; der Ursprung dieser Domänen ist jedoch nicht ausreichend verstanden. Selbst die simpelsten Domänen sind zu komplex, um de novo entstanden zu sein. Wenn dem so ist, wie sind dann die ersten Domänen entstanden? Diese Frage ist die Grundlage für das zweite Ziel meiner Arbeit. Eine Theorie über die Entstehung der Domänen, die Theorie der ursprünglichen Domänensegmente, geht davon aus, dass Domänen durch Verschmelzung und Rekombination aus einer noch kleineren Auswahl an Peptiden enstanden sind, die als Kofaktoren aus der RNA Welt hervorgegangen waren. Dieser Theorie zufolge gingen aus dieser Auswahl durch Amplifizierung und Verschmelzung zunehmend stabilere Domänen hervor. Falls dies den Tatsachen entspricht, könnten viele moderne Proteine Überreste der Urpeptide, aus denen sie entstanden sind, beherbergen. Um dies zu erforschen, habe ich systematisch Domänen bekannter Struktur mithilfe der besonders empfindlichen Homologieerkennungsmethode HHsearch verglichen und 50 Fragmente identifiziert, die Domänen unterschiedlicher Faltungen zugeordnet sind, obwohl sie signifikante Ähnlichkeiten sowohl in ihrer Sequenz als auch in ihrer Struktur offenbaren. Das Auftreten dieser homologen Fragmente in ansonsten nicht homologen Strukturen stellt signifikante Evidenz für die Theorie der ursprünglichen Domänensegmente dar. Daraus folgern wir, dass diese Fragmente Überbleibsel der Urpeptide sind, aus denen die ersten Proteine hervorgingen. Als Beispiel wird hier eines dieser 50 Fragmente beschrieben, das einem Helix-Strang-Helix Motiv entspricht und in den Histonen sowie zwei weiteren Faltungen vertreten ist.
Diese Arbeit zeigt, dass die meisten Domänen einer Faltung durch Divergenz aus einer Urform entstanden, und identifiziert viele Homologien zwischen Superfamilien verschiedener Faltungen durch die Entdeckung gemeinsamer Urpeptide. Derzeitige Proteinklassifikationen gehen davon aus, dass Faltungen analog entstanden sind und sehen daher keine hierarchische Ebene vor, um solche Beziehungen zwischen Faltungen zu erfassen. Um dieses Problem zu beheben, führt diese Arbeit eine Klassifikationsebene oberhalb der Faltung ein, die Metafaltung, in der topologisch ähnliche Faltungen vereint werden, für die eine homologe Beziehung etabliert wurde. Die Metafaltung ist ein wichtiger Schritt auf dem Weg zu einer Proteinklassifikation gemäß natürlicher Abstammung, welche die informativste Grundlage für strukturelle und funktionale Inferenz ist.
Abstract:
Though seemingly endless, the diversity of proteins in nature is in fact narrowly confined. Many proteins share recognizable similarity in sequence and structure, since they arose by amplification, recombination, and divergence from a basic complement of autonomously folding modules, referred to as domains, many of which date back to the time of the Last Universal Common Ancestor. Indeed, sequence comparison of modern proteins shows that they fall into only about 10,000 domain families, which can be further grouped into just about 3000 broader evolutionary superfamilies. Beyond this, superfamilies are assigned to one of about 1000 folds based on the topological arrangement of their secondary structural elements. The prevailing view holds that folds are analogous in character, the similarity between different superfamilies of one fold being the result of convergent evolution. However, the recent growth of molecular databases and advances in sequence comparison methods have led to the discovery of many distant evolutionary relationships that transcend the boundaries of superfamilies, showing that not all of them arose independently. The first aim of this thesis was to determine how widespread such distant relationships are. To this end, I clustered domains representative of known fold types by their sequence similarity, a property that reflects common descent. The obtained cluster map shows that while some highly populated folds indeed appear to have evolved convergently, most domains of the same fold arose from an ancestral prototype, revealing that proteins are much less polyphyletic than previously assumed.
Whereas it is widely accepted that modern proteins arose by combinatorial shuffling of a limited set of domains, the origin of this set itself is poorly understood. Even the simplest domains are too complex to have arisen de novo. If so, how did the first domains emerge? This question formed the second aim of this thesis. One theory for the origin of domains, the antecedent domain segment theory, proposes that they themselves arose from an even smaller pool of peptides with secondary structure propensity, which emerged as cofactors in the RNA world. Progressively more stable domains evolved from this set by amplification and by accretion, that is, by additive assemblage of simple structural elements. If this is true, many modern domains might still contain vestiges of the ancient peptides they arose from. To investigate this, I systematically compared domains of known structure using the state-of-the-art remote homology detection method HHsearch and identified 50 fragments that co-occur in domains with different folds, yet show significant similarities in sequence and structure. The occurrence of these homologous fragments in otherwise analogous structures provides compelling evidence for the antecedent domain segment theory. As an example, one of these 50 fragments, corresponding to a helix-strand-helix motif that gave rise divergently to three different folds, including the histone fold, is presented.
In addition to showing that most domains of one fold arose from an ancestral form by divergence, this thesis reveals many incidences of homologies between superfamilies of different folds due to the discovery of shared ancestral peptides. However, current protein classifications consider folds to be analogous and do not contain a hierarchical level to capture such inter-fold relationships. To solve this problem, this work proposes a classification level above the fold level, the metafold, which unites groups of folds for which a homologous relationship has been corroborated. The metafold level is an important step on the way to a classification of proteins by natural descent, which is the most informative basis for structural and functional inference.