easyGWAS: An Integrated Computational Framework for Advanced Genome-Wide Association Studies

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/66902
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-669025
http://dx.doi.org/10.15496/publikation-8322
Dokumentart: Dissertation
Date: 2015
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Borgwardt, Karsten (Prof. Dr.)
Day of Oral Examination: 2015-11-19
DDC Classifikation: 004 - Data processing and computer science
500 - Natural sciences and mathematics
570 - Life sciences; biology
580 - Plants (Botany)
610 - Medicine and health
Keywords: Bioinformatik , Genanalyse , Schmalwand <Arabidopsis> , Genetik , Statistik
Other Keywords: Gemischte Modelle
Netwerk Gestützte GWAS
Fehlende Heritabilität
Statistische Genetik
Heritabilität
GWAS
Genomweite Assoziationstudien
easyGWAS
Genome-wide Association Studies
Heritability
Missing Heritability
Statistical Genetics
Linear Mixed Models
Network Guided GWAS
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die jüngsten Fortschritte in der Sequenzierungstechnologie ermöglichen es erstmalig, komplette Genome ganzer Populationen in angemessener Zeit und kosteneffizient zu sequenzieren. Eine der primären Anwendungen dieser Daten ist es, die genetischen Ursachen von häufig auftretenden phänotypischen Merkmalen oder Krankheiten besser zu verstehen. Im Wesentlichen werden hierzu genomweite Assoziationsstudien (GWASs) verwendet, um damit Positionen im Genom zu finden, welche mit einem Phänotyp assoziiert sind. GWASs durchzuführen, ist jedoch ein herausforderndes Unterfangen. Zum Ersten können verschiedene Arten von versteckten Störfaktoren, wie beispielsweise Populationsstrukturen, umweltbedingte oder technische Einflüsse zu unechten Assoziationen führen. Zum Zweiten wurde in unterschiedlichen Studien nachgewiesen, dass assoziierte Positionen im Genom nur zum Teil die phänotypische Varianz erklären können. Dieses Phänomen wird oft als das Problem der fehlenden Heritabilität (Vererbbarkeit) bezeichnet. Eine Vielzahl an Tools wurde entwickelt, um diese Herausforderungen teilweise zu adressieren. Die große Vielfalt dieser Anwedungen führt jedoch zu einer stark fragmentierten Landschaft dieser Tools. Darüber hinaus besitzen die meisten dieser Tools kein einheitliches Datenformat und bieten keine unkomplizierten Lösungen an, um deren Ergebnisse zu visualisieren oder zu annotieren. Das Ziel dieser Arbeit ist es, einen größeren Anteil der fehlenden Heritabilität zu erklären und gleichzeitig die Verwendung verschiedener Methoden zu vereinfachen, indem wir eine kombinierte Lösung zum Durchführen, Visualisieren und Annotieren von GWASs anbieten. Demzufolge haben wir easyGWASCore, ein kombiniertes Framework zum Durchführen von GWASs und Metaanalysen entwickelt. Unser Framework erleichtert die Verwendung von gängigen Methoden zum Testen von Assoziationen, indem eine gemeinsame Datenstruktur, eine Programmierschnittstelle und eine Python Kommandozeilenschnittstelle zur Verfügung gestellt wird. Zusätzlich bietet easyGWASCore eine integrierte Visualisierungs- und Annotationspipeline. Wir haben die Laufzeit des easyGWASCore Frameworks mit anderen etablierten Tools verglichen und fanden heraus, dass es mindestens so effizient ist wie diese einzelnen Software-Tools. Als Nächstes haben wir die easyGWASCore Annotationspipeline mit Vorhersagen über die Pathogenität von Proteinen erweitert, um assoziierte Positionen im Genom zu priorisieren sowie potentielle kausale Positionen einzuengen. Jedoch gibt es eine große Anzahl solcher Anwendungen zur Pathogenitätsvorhersage und es ist nicht offensichtlich, welches dieser Tools am besten funktioniert. Wir haben demzufolge die Frage untersucht, ob es systematische Unterschiede in der Vorhersagequalität dieser Pathogenitätsvorhersage- Tools gibt. Wir haben herausgefunden, dass die Evaluierung durch zwei verschiedene Arten von Zirkularität gehindert wird und dass diese Arten der Zirkularität zu biologischen Missinterpretationen führen können. Folglich ist es wichtig, dass Wissenschaftler diese Arten der Zirkularität kennen, wenn Anwendungen zur Pathogenitätsvorhersage für weitere Experimente und Analysen verwendet werden. Eine wachsende Anzahl an Stichproben und die Kombination der Ergebnisse mehrerer GWASs können dabei helfen, Teile der fehlenden Heritabilität zu erklären. Daher haben wir den Cloud- und Web-Dienst easyGWAS entwickelt, eine Plattform, um unkompliziert Daten und Ergebnisse von GWASs und Metaanalysen zu teilen und zu publizieren. Gleichzeitig vereinfacht easyGWAS die Verwendung des easyGWASCore Frameworks, indem es ein einfach zu verwendendes Schritt-für-Schritt-Verfahren anbietet, um verschiedene Arten von GWASs und Metaanalysen im Internetbrowser durchzuführen. Zusätzlich bietet easyGWAS dynamische Visualisierungs- und Annotationsfunktionen, um detailliertere Informationen über bestimmte Regionen zu erhalten. Der gemeinsame Effekt von multiplen Positionen im Genom könnte ebenso dazu beitragen, Teile der fehlenden Heritabilität zu erklären. Jedoch sind Methoden, welche auf multiplikative Effekte zwischen mehreren Positionen im Genom ausgerichtet sind, oft nicht berechenbar für genomweite Untersuchungen. Des Weiteren sind Methoden, welche auf additive Effekte von mehreren Positionen im Genom ausgerichtet sind, oft schwer zu interpretieren. Wir haben daher eine neuartige Methode entwickelt, in welche wir bekanntes biologisches Vorwissen in Form von biologischen Netzwerken integrieren können, um dann multiple Positionen im Genom zu identifizieren, welche maximal mit einem Phänotypen assoziiert sind und innerhalb dieses Netzwerkes verbunden sind. Zusätzlich haben wir gezeigt, wie diese Methode für mehrere korrelierte Phänotypen erweitert werden kann. Beide Ansätze wurden in das easyGWASCore Framework integriert. Wir haben herausgefunden, dass beide Methoden verbesserte Fähigkeiten zeigen, genetische Marker zu entdecken sowie verbesserte Fähigkeiten, Teile der fehlenden Heritabilität zu erklären, indem größere Anteile der phänotypischen Varianz erklärt werden können als mit univariaten Methoden zur Assoziationssuche. Letztendlich demonstrieren wir das gesamte Potential des easyGWASCore Framework anhand einer umfassenden Studie in dem Modellorganismus Arabidopsis thaliana. Hier haben wir den Effekt von nicht-additiver genetischer Varianz von Phänotypen in Hybriden Arabidopsis thaliana Individuen untersucht und den Beitrag von Dominanz auf Heterosis als eine mögliche Quelle fehlender Heritabilität charakterisiert. Heterosis ist die phänotypische Überlegenheit einer Kreuzung verglichen zu den genetisch unterschiedlichen Eltern. Aus diesem Zweck haben wir das easyGWASCore Framework verwendet, um verschiedene GWASs mit univariaten Methoden durchzuführen. Des Weiteren haben wir unseren neuartigen Ansatz zur netzwerkunterstützten Suche von multiplen Positionen im Genom verwendet. Anschließend wurde die Visualisierungsund Annotationspipeline verwendet, um signifikant assoziierte Regionen im größeren Detail zu untersuchen. Unsere Ergebnisse deuten darauf hin, dass nicht-additive Effekte eine wichtige Quelle sind, um Teile der fehlenden Heritabilität zu erklären. Zusammenfassend haben wir mit dem easyGWASCore Framework und dem Cloud basierten Dienst easyGWAS neuartige Ansätze entwickelt, welche dabei helfen, Teile der fehlenden Heritabilität zu erklären. Gleichzeitig haben wir den Prozess vereinfacht, solche Studien durchzuführen, zu analysieren und zu managen.

Abstract:

Recent advances in sequencing technologies have made it possible for the first time to sequence and analyse the genomes of whole populations of individuals in both a cost-effective manner and in a reasonable amount of time. One of the primary applications of this data is to better understand and investigate the genetic basis of common traits or diseases. For this purpose, genome-wide association studies (GWASs) are often used to find loci that are associated with a phenotype of interest. However, conducting GWASs is a challenging endeavour: first, different types of hidden confounding factors, such as population structure, environmental or technical influences, could lead to spurious associations. Second, it has been shown in several studies that associated loci often fail to explain much of the phenotypic variability — a phenomenon referred to as the problem of missing heritability. Many tools have been developed to partly address these challenges. The large diversity of these tools, however, have led to a highly fragmented and confusing landscape of tools. In addition, most of these tools do not share a common data format and do not provide straightforward solutions to visualise and annotate their results. In this thesis, we aim to explain more of the missing heritability, while simultaneously simplifying the usage of different methods, by providing an integral solution for performing, visualising and annotating GWASs. Therefore, we develop easyGWASCore, an integrated framework for performing GWASs and meta-analyses. Our framework facilitates the use of popular association methods by providing a common data structure, an application programming interface and a Python command line interface. In addition, easyGWASCore offers an out-of-the-box visualisation and annotation pipeline. We compare the runtime of the easyGWASCore framework to other well-established tools and find that it is at least as efficient as the individual software tools. Next, we enrich the easyGWASCore annotation pipeline with pathogenicity prediction scores to prioritise associated loci for further biological investigation, as well as to narrow down potentially causal loci. However, a large variety of such pathogenicity prediction tools exists and it is not obvious which of these tools work best. We therefore investigate the question whether there are systematic differences in the quality of the predictive performance of pathogenicity prediction tools when evaluated on a large number of variant databases. We find that the evaluation is hindered by two types of circularity and that these types of circularity might lead to spurious biological interpretation. Hence, it is important that scientists are aware of these different types of circularity when pathogenicity prediction tools are used for further experiments or analyses. Increasing sample sizes and combining the results of several GWASs could help to explain parts of the missing heritability. For this purpose, we develop a cloud and web-service, called easyGWAS, to provide a platform to share and publish data and results of GWASs and meta-analyses in a straightforward manner. Simultaneously, easyGWAS facilitates the use of the easyGWASCore framework by providing an easy-to-use step-by-step procedure to conduct different types of GWASs and meta-analyses via a web-browser. In addition, easyGWAS offers dynamic visualisations and annotations of GWAS results to obtain more detailed information about specific regions. The joint effect of multiple loci could also help to explain parts of the missing heritability. However, multi-locus methods that focus on multiplicative effects are often unfeasible to compute for genome-wide settings and methods that focus on additive effects are often hard to interpret. We here develop a novel method that is able to integrate biological networks as prior knowledge to guide the detection of sets of genetic markers that are maximally associated with a given phenotype. Furthermore, we show how this framework can be extended to multiple correlated traits. Both methods are integrated into the easyGWASCore framework. We find that they have improved abilities to discover novel genetic loci and are able to account for parts of the missing heritability by explaining larger proportions of the phenotypic variance than univariate association testing methods. Finally, we demonstrate the full potential of the easyGWASCore framework by conducting a comprehensive study in the model organism Arabidopsis thaliana. Here, we investigate the effect of non-additive genetic variance on hybrid phenotypes in Arabidopsis thaliana and characterise the contribution of dominance to heterosis — that is the phenotypic superiority of progeny of a cross relative to their genetically distinct parents — as a potential source of missing heritability. For this purpose, we utilise the easyGWASCore framework to conduct different GWASs using a univariate method, as well as our novel network guided multi-locus approach. Subsequently we use the visualisation and annotation pipeline to investigate significantly associated regions in more detail. Our results suggest that non-additive effects might be an important source of information that could help to explain parts of the missing heritability. In summary, the easyGWASCore framework and easyGWAS cloud service are two novel approaches that help to explain more of the missing heritability, while simultaneously simplifying the process of conducting, analysing and managing such studies.

This item appears in the following Collection(s)