Inhaltszusammenfassung:
Die jüngsten Fortschritte in der Sequenzierungstechnologie ermöglichen es erstmalig,
komplette Genome ganzer Populationen in angemessener Zeit und kosteneffizient zu
sequenzieren. Eine der primären Anwendungen dieser Daten ist es, die genetischen Ursachen
von häufig auftretenden phänotypischen Merkmalen oder Krankheiten besser zu
verstehen. Im Wesentlichen werden hierzu genomweite Assoziationsstudien (GWASs)
verwendet, um damit Positionen im Genom zu finden, welche mit einem Phänotyp
assoziiert sind. GWASs durchzuführen, ist jedoch ein herausforderndes Unterfangen.
Zum Ersten können verschiedene Arten von versteckten Störfaktoren, wie beispielsweise
Populationsstrukturen, umweltbedingte oder technische Einflüsse zu unechten
Assoziationen führen. Zum Zweiten wurde in unterschiedlichen Studien nachgewiesen,
dass assoziierte Positionen im Genom nur zum Teil die phänotypische Varianz erklären
können. Dieses Phänomen wird oft als das Problem der fehlenden Heritabilität
(Vererbbarkeit) bezeichnet. Eine Vielzahl an Tools wurde entwickelt, um diese Herausforderungen
teilweise zu adressieren. Die große Vielfalt dieser Anwedungen führt
jedoch zu einer stark fragmentierten Landschaft dieser Tools. Darüber hinaus besitzen
die meisten dieser Tools kein einheitliches Datenformat und bieten keine unkomplizierten
Lösungen an, um deren Ergebnisse zu visualisieren oder zu annotieren.
Das Ziel dieser Arbeit ist es, einen größeren Anteil der fehlenden Heritabilität zu erklären
und gleichzeitig die Verwendung verschiedener Methoden zu vereinfachen, indem
wir eine kombinierte Lösung zum Durchführen, Visualisieren und Annotieren von
GWASs anbieten. Demzufolge haben wir easyGWASCore, ein kombiniertes Framework
zum Durchführen von GWASs und Metaanalysen entwickelt. Unser Framework erleichtert
die Verwendung von gängigen Methoden zum Testen von Assoziationen, indem eine
gemeinsame Datenstruktur, eine Programmierschnittstelle und eine Python Kommandozeilenschnittstelle
zur Verfügung gestellt wird. Zusätzlich bietet easyGWASCore eine
integrierte Visualisierungs- und Annotationspipeline. Wir haben die Laufzeit des
easyGWASCore Frameworks mit anderen etablierten Tools verglichen und fanden heraus,
dass es mindestens so effizient ist wie diese einzelnen Software-Tools.
Als Nächstes haben wir die easyGWASCore Annotationspipeline mit Vorhersagen über
die Pathogenität von Proteinen erweitert, um assoziierte Positionen im Genom zu priorisieren
sowie potentielle kausale Positionen einzuengen. Jedoch gibt es eine große Anzahl
solcher Anwendungen zur Pathogenitätsvorhersage und es ist nicht offensichtlich,
welches dieser Tools am besten funktioniert. Wir haben demzufolge die Frage untersucht,
ob es systematische Unterschiede in der Vorhersagequalität dieser Pathogenitätsvorhersage-
Tools gibt. Wir haben herausgefunden, dass die Evaluierung durch zwei
verschiedene Arten von Zirkularität gehindert wird und dass diese Arten der Zirkularität
zu biologischen Missinterpretationen führen können. Folglich ist es wichtig, dass
Wissenschaftler diese Arten der Zirkularität kennen, wenn Anwendungen zur Pathogenitätsvorhersage
für weitere Experimente und Analysen verwendet werden.
Eine wachsende Anzahl an Stichproben und die Kombination der Ergebnisse mehrerer GWASs können dabei helfen, Teile der fehlenden Heritabilität zu erklären. Daher
haben wir den Cloud- und Web-Dienst easyGWAS entwickelt, eine Plattform, um unkompliziert
Daten und Ergebnisse von GWASs und Metaanalysen zu teilen und zu
publizieren. Gleichzeitig vereinfacht easyGWAS die Verwendung des easyGWASCore Frameworks,
indem es ein einfach zu verwendendes Schritt-für-Schritt-Verfahren anbietet,
um verschiedene Arten von GWASs und Metaanalysen im Internetbrowser durchzuführen.
Zusätzlich bietet easyGWAS dynamische Visualisierungs- und Annotationsfunktionen,
um detailliertere Informationen über bestimmte Regionen zu erhalten.
Der gemeinsame Effekt von multiplen Positionen im Genom könnte ebenso dazu beitragen,
Teile der fehlenden Heritabilität zu erklären. Jedoch sind Methoden, welche
auf multiplikative Effekte zwischen mehreren Positionen im Genom ausgerichtet sind,
oft nicht berechenbar für genomweite Untersuchungen. Des Weiteren sind Methoden,
welche auf additive Effekte von mehreren Positionen im Genom ausgerichtet sind, oft
schwer zu interpretieren. Wir haben daher eine neuartige Methode entwickelt, in welche
wir bekanntes biologisches Vorwissen in Form von biologischen Netzwerken integrieren
können, um dann multiple Positionen im Genom zu identifizieren, welche maximal mit
einem Phänotypen assoziiert sind und innerhalb dieses Netzwerkes verbunden sind.
Zusätzlich haben wir gezeigt, wie diese Methode für mehrere korrelierte Phänotypen
erweitert werden kann. Beide Ansätze wurden in das easyGWASCore Framework integriert.
Wir haben herausgefunden, dass beide Methoden verbesserte Fähigkeiten zeigen,
genetische Marker zu entdecken sowie verbesserte Fähigkeiten, Teile der fehlenden Heritabilität
zu erklären, indem größere Anteile der phänotypischen Varianz erklärt werden
können als mit univariaten Methoden zur Assoziationssuche.
Letztendlich demonstrieren wir das gesamte Potential des easyGWASCore Framework
anhand einer umfassenden Studie in dem Modellorganismus Arabidopsis thaliana. Hier
haben wir den Effekt von nicht-additiver genetischer Varianz von Phänotypen in Hybriden
Arabidopsis thaliana Individuen untersucht und den Beitrag von Dominanz
auf Heterosis als eine mögliche Quelle fehlender Heritabilität charakterisiert. Heterosis
ist die phänotypische Überlegenheit einer Kreuzung verglichen zu den genetisch
unterschiedlichen Eltern. Aus diesem Zweck haben wir das easyGWASCore Framework
verwendet, um verschiedene GWASs mit univariaten Methoden durchzuführen. Des
Weiteren haben wir unseren neuartigen Ansatz zur netzwerkunterstützten Suche von
multiplen Positionen im Genom verwendet. Anschließend wurde die Visualisierungsund
Annotationspipeline verwendet, um signifikant assoziierte Regionen im größeren
Detail zu untersuchen. Unsere Ergebnisse deuten darauf hin, dass nicht-additive Effekte
eine wichtige Quelle sind, um Teile der fehlenden Heritabilität zu erklären.
Zusammenfassend haben wir mit dem easyGWASCore Framework und dem Cloud basierten
Dienst easyGWAS neuartige Ansätze entwickelt, welche dabei helfen, Teile der
fehlenden Heritabilität zu erklären. Gleichzeitig haben wir den Prozess vereinfacht,
solche Studien durchzuführen, zu analysieren und zu managen.
Abstract:
Recent advances in sequencing technologies have made it possible for the first time
to sequence and analyse the genomes of whole populations of individuals in both a
cost-effective manner and in a reasonable amount of time. One of the primary applications
of this data is to better understand and investigate the genetic basis of common
traits or diseases. For this purpose, genome-wide association studies (GWASs) are
often used to find loci that are associated with a phenotype of interest. However, conducting
GWASs is a challenging endeavour: first, different types of hidden confounding
factors, such as population structure, environmental or technical influences, could lead
to spurious associations. Second, it has been shown in several studies that associated
loci often fail to explain much of the phenotypic variability — a phenomenon referred
to as the problem of missing heritability. Many tools have been developed to partly
address these challenges. The large diversity of these tools, however, have led to a
highly fragmented and confusing landscape of tools. In addition, most of these tools
do not share a common data format and do not provide straightforward solutions to
visualise and annotate their results.
In this thesis, we aim to explain more of the missing heritability, while simultaneously
simplifying the usage of different methods, by providing an integral solution for performing,
visualising and annotating GWASs. Therefore, we develop easyGWASCore, an
integrated framework for performing GWASs and meta-analyses. Our framework facilitates
the use of popular association methods by providing a common data structure,
an application programming interface and a Python command line interface. In addition,
easyGWASCore offers an out-of-the-box visualisation and annotation pipeline. We
compare the runtime of the easyGWASCore framework to other well-established tools
and find that it is at least as efficient as the individual software tools.
Next, we enrich the easyGWASCore annotation pipeline with pathogenicity prediction
scores to prioritise associated loci for further biological investigation, as well as to
narrow down potentially causal loci. However, a large variety of such pathogenicity
prediction tools exists and it is not obvious which of these tools work best. We therefore
investigate the question whether there are systematic differences in the quality
of the predictive performance of pathogenicity prediction tools when evaluated on a
large number of variant databases. We find that the evaluation is hindered by two
types of circularity and that these types of circularity might lead to spurious biological
interpretation. Hence, it is important that scientists are aware of these different types
of circularity when pathogenicity prediction tools are used for further experiments or
analyses.
Increasing sample sizes and combining the results of several GWASs could help to
explain parts of the missing heritability. For this purpose, we develop a cloud and
web-service, called easyGWAS, to provide a platform to share and publish data and
results of GWASs and meta-analyses in a straightforward manner. Simultaneously,
easyGWAS facilitates the use of the easyGWASCore framework by providing an easy-to-use step-by-step procedure to conduct different types of GWASs and meta-analyses via
a web-browser. In addition, easyGWAS offers dynamic visualisations and annotations
of GWAS results to obtain more detailed information about specific regions.
The joint effect of multiple loci could also help to explain parts of the missing heritability.
However, multi-locus methods that focus on multiplicative effects are often
unfeasible to compute for genome-wide settings and methods that focus on additive
effects are often hard to interpret. We here develop a novel method that is able to
integrate biological networks as prior knowledge to guide the detection of sets of genetic
markers that are maximally associated with a given phenotype. Furthermore, we
show how this framework can be extended to multiple correlated traits. Both methods
are integrated into the easyGWASCore framework. We find that they have improved
abilities to discover novel genetic loci and are able to account for parts of the missing
heritability by explaining larger proportions of the phenotypic variance than univariate
association testing methods.
Finally, we demonstrate the full potential of the easyGWASCore framework by conducting
a comprehensive study in the model organism Arabidopsis thaliana. Here, we
investigate the effect of non-additive genetic variance on hybrid phenotypes in Arabidopsis
thaliana and characterise the contribution of dominance to heterosis — that
is the phenotypic superiority of progeny of a cross relative to their genetically distinct
parents — as a potential source of missing heritability. For this purpose, we utilise the
easyGWASCore framework to conduct different GWASs using a univariate method, as
well as our novel network guided multi-locus approach. Subsequently we use the visualisation
and annotation pipeline to investigate significantly associated regions in more
detail. Our results suggest that non-additive effects might be an important source of
information that could help to explain parts of the missing heritability.
In summary, the easyGWASCore framework and easyGWAS cloud service are two novel
approaches that help to explain more of the missing heritability, while simultaneously
simplifying the process of conducting, analysing and managing such studies.