Linear mixed models for genome-wide association studies

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-71797
http://hdl.handle.net/10900/50003
Dokumentart: Dissertation
Date: 2013
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Borgwardt, Karsten (Prof. Dr.)
Day of Oral Examination: 2013-11-29
DDC Classifikation: 570 - Life sciences; biology
Keywords: Bioinformatik , Maschinelles Lernen , Genetik , Statistik
Other Keywords: Genomweite Assoziationsstudien , Lineare gemischte Modelle
Machine learning , Bioinformatics , Genetics , Statistics , genome-wide association studies , linear mixed models
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Das Ziel von genomweiten Assoziationsstudien ist es, genetische Loci zu finden, die einen Phänotyp regulieren, indem man statistische Tests zwischen gemessenen genetischen Varianten und dem Phänotyp durchführt. Allerdings ziehen Störgrößen, wie Populationsstruktur, Verwandtschaftsverhältnisse innerhalb Familien, oder unbekannte Verwandtschaften zwischen scheinbar unverwandten Individuen, wenn diese nicht in Betracht gezogen werden, die Gefahr von falsch positiven Ergebnissen in der Studie nach sich. Lineare gemischte Modelle gehören zu den komplexesten Modellen, die heutzutage in genomweiten Assoziationsstudien angewandt werden, da diese, im Gegensatz zu anderen Korrekturmethoden, in der Lage sind für all diese Störgrößen aufzukommen, ohne das explizite Wissen, welche davon vorkommen, und ohne diese auseinanderzudröseln zu müssen. Trotz der klaren Vorteile durch die Anwendung von linearen gemischten Modellen, war diese wegen des hohen Rechenaufwandes bisher auf kleinere Datensätze beschränkt. Diese Arbeit setzt sich mit linearen gemischten Modellen für genomweite Assoziationsstudien auseinander und stellt neue Algorithmen vor, die lineare gemischte Modelle hochskalieren und somit mit zum ersten mal die Analyse von extrem großen Datensätzen mit diesen Modellen ermöglichen. Neben diesen algorithmischen Beiträgen werden auch Verbesserungen auf der Seite der statistischen Modellierung von genomweiten Assoziationsstudien vorgestellt, welche im Vergleich zur traditionellen Anwendung von linearen gemischten Modellen zu mehr statistischer Power bei gleichzeitig besserer Kontrolle des Typ 1 Fehlers führen. Aufbauend auf diese Verbesserungen werden Assoziationstests von einzelnen als auch von mehreren genetischen Varianten vorgestellt und analysiert. Zum Abschluss der Arbeit wird eine multivariate Version von linearen gemischten Modellen zur Analyse von mehreren verwandten Phänotypen vorgestellt.

Abstract:

Genome-wide association studies aim at uncovering genetic loci that regulate a phenotype of interest by performing statistical tests for association between observed genetic variants and the phenotype. However, confounding factors like population structure, family relatedness, and cryptic relatedness often lead to false positive findings, if not accounted for in the analysis. Linear mixed models are among the richest class of models used today for genome-wide association studies, and in contrast to other methods have been shown to be capable of to capture all of these forms of relatedness simultaneously, without knowledge of which are present and without the need to tease them apart. Despite their benefits the use of linear mixed models so far has been limited to smaller studies, due to the large computational burden. In this thesis, we investigate linear mixed models for genome-wide association studies and present new algorithms to scale up linear mixed model computations that thereby enable their use for the analysis of extremely large genome-wide association studies for the first time. Besides algorithmic contributions we also present improvements to the statistical modeling part, that lead to an increase in power and better calibration over the traditional use of linear mixed models. Based on these improvements, we investigate association tests for single as well as multiple genetic variants and a phenotype. Finally, we conclude by with a multivariate version of the linear mixed model that allows simultaneous analysis of multiple related traits.

This item appears in the following Collection(s)