Inhaltszusammenfassung:
Die heutigen Proteine entwickelten sich durch Neuerwerb, Rekombination und Anpassung etablierter Komponenten, den Domänen, weiter. Diese existierten bereits zur Zeit des letzten gemeinsamen Vorfahren (engl. last universal common ancestor, LUCA) und divergierten dann. Heute ist der gemeinsame Ursprung dieser Domänen - ihre Homologie - häufig kaum noch zu erkennen. Mit zunehmender Größe von Proteindatenbanken sowie verbesserter Algorithmen können jedoch heute Homologien zwischen Domänen erkannt werden, die vormals als unverwandt angesehen wurden. Neben ihrer evolutionären Bedeutung erlauben es diese Entdeckungen auch, Wissen zwischen ähnlichen Proteinen zu transferieren. Um die Möglichkeiten und Limitierungen dieser Methoden zu ermitteln, analysierten wir entfernte Homologe in bioinformatischen Fallstudien. In einer ersten Studie analysierten wir die SMP Domäne, welche bis zu diesem Zeitpunkt nicht genauer beschrieben war. Sie ist Teil mehrerer Proteine des ERMES Komplexes, der das endoplasmatische Retikulum und die Mitochondrien verbindet und am Phospholipidtransfer zwischen den Membranen beteiligt ist. Wir konnten zeigen, dass diese Domäne homolog zu den Proteinen der BPI- und Takeout-ähnlichen Familien ist. Da diese beiden Familien sich in ihrer Funktion, dem Binden hydrophober Liganden, ähneln und dieselbe Faltung annehmen, sagten wir für SMP Domänen diese Faltung und eine aktive Rolle im Phospholipidtransfer vorher. Aufgrund ihrer Homologie gruppierten wir die drei Familien in der neudefinierten TULIP Superfamilie (engl. tubular lipid-binding proteins). Danach suchten wir nach Homologen der repetitiven Untereinheit der β-Propeller Faltung, dem Blatt, und fanden vier solcher Faltungen. Weitergehende Untersuchungen bestätigten Homologe von Blättern in Typ II β-Prismen und IRE1-LD Proteinen, zeigten jedoch auch, dass es sich bei WW Domänen und β-pinwheel Proteinen um konvergente Entwicklungen handelt. Diese Erkenntnisse unterstreichen die Bedeutung von faltungsübergreifenden Homologien für Proteinklassifikationssysteme. Zuletzt untersuchten wir TPR-Motive, um uns der Mindestlänge für
Homologiesuchen anzunähern. Wir konnten keine unbekannten Homologe von TPR-Motiven finden und unsere Daten waren nicht ausreichend, um ein Szenario der evolutionären Abstammung der TPR-ähnlichen Motive zu entwickeln. Da eine mögliche Abstammung der TPR-Motive von einer einzelnen Motivinstanz diskutiert wurde, suchten wir auch nach kürzlich amplifizierten TPR Domänen, die nicht von TPR-Motiven aus einem repetitiven Kontext abstammen. Wir konnten keinen solchen Fall identifizieren und schlossen daraus, dass dieserProzess heute nicht mehr stattfindet. Insgesamt helfen unsere Resultate bei der Bestimmung von Nutzen und Grenzen moderner Homologieerkennungsmethoden. Fragmente in der Größenordnung von β-Propellerblättern können mit diesen Methoden analysiert werden, wohingegen deren Potential für TPR-Motive eingeschränkt ist. Die von uns entdeckten Homologien tragen zudem zum wachsenden Wissen über Proteinevolution bei, das letztendlich den Weg zu einer abstammungsbasierten Proteinklassifikation ebnet.
Abstract:
Contemporary proteins evolved by the acquisition, recombination, and adaptation of established building blocks called domains. Most domains already existed at the time of the last universal common ancestor and then diverged, leaving weak signatures of their homology, i. e. common ancestry. Yet, the rapid growth of protein databases and improved algorithms revealed distant homologies of domains hitherto deemed unrelated. Besides evolutionary implications, these findings also enable the transfer of knowledge between similar proteins. It is important to probe the strengths, weaknesses, and limits of these methods to leverage this progress. To this end, we analyzed remote homologs in bioinformatic case studies. First, we analyzed the uncharacterized SMP domain abundant in the ERMES complex, which tethers the endoplasmic reticulum to mitochondria and positively impacts inter-membrane phospholipid transfer. We established the BPI- and Takeout-like families as SMP domain homologs. As both families comprise hydrophobic ligand binders and share a fold, we predicted the same fold and an active role in phospholipid transfer for SMP domains. Finally, we grouped the three families in the novel tubular lipid-binding proteins (TULIP) superfamily. Next, we searched for different folds with homology to the repetitive subunit of β-propellers, the blade, and initially detected four candidates. Further evaluation confirmed blade homologs in type II β-prism and IRE1-LD proteins, but revealed that WW domains and β-pinwheels have arisen convergently. These findings stress the importance of fold-spanning relationships for classification systems. Lastly, we analyzed the tetratrico peptide repeat (TPR) motif to probe the lower sequence length limit in homology detection. We were unable to expand on known TPR homologs and our data did not allow us to infer an evolutionary scenario for TPR-like motifs. Due to a discussed origin from single motif instances, we also searched for TPR domains recently amplified from non-repetitive singleton instances but were unable to detect any and thus believe that this process is not ongoing. Overall, our results help to determine more clearly the uses and limits of remote homology detection algorithms. Blade-sized fragments are within reach of current methods, whereas TPRs are already borderline cases. Further, the remote homologies uncovered in this work contribute to a growing knowledge base on protein evolution, which will eventually lead to a protein classification by natural descent.