【翻译】GWAS教程:质量控制和统计分析【第三部分:种群分层控制和关联统计计算】
原文标题:A tutorial on conducting genome-wide association studies: Quality control and statistical analysis
原文链接:https://pubmed.ncbi.nlm.nih.gov/29484742/
4 | 控制种群分层
GWAS中系统偏差的一个重要来源是种群分层,如附录中所解释的。已经表明, 即使是单一种群个体中,也可能存在细微程度的分层(Abdellaoui 等人,2013 年;Francioli 等人, 2014)。因此,测试和控制种群分层的存在是不可或缺的质量控制步骤。
有多种方法可以校正种群分层(Price等人,2010年)。在本教程中,我们将说明PLINK中包含的一种方法:多维缩放(multimensional scaling, MDS)法。该方法计算样本中任何一对个体之间共享的等位基因的全基因组平均比例,以生成每个个体遗传变异的定量指数(成分,components)。可以绘制单个成分的分数以探索在遗传意义上是否存在比预期更相似的个体组。例如,在一项包括来自亚洲和欧洲的受试者的基因研究中,MDS分析将显示亚洲人彼此之间的基因比亚洲人与欧洲人之间更相似。为了调查生成的成分分数偏离样本目标群体的个体,绘制被调查样本的分数和已知种族结构的群体(例如,HapMap/1KG数据)是有帮助的:这一步称为锚定(anchoring)。这使得研究人员能够获得有关其样本的种族信息并确定可能的种族异常值(ethnic outliers)。在 https://www.github.com/MareesAT/GWA_tutorial/ 下的2_Population_stratification.zip
已经提供了一个脚本,用来在您自己的以1KG项目数据( http://www.1000genomes.org/ )为锚定的数据上进行MDS分析。
图3说明了此类分析的一个示例。基于MDS分析的异常值个体应从进一步分析中去除。排除这些个体之后,必须进行新的MDS分析,其主要成分需要用作关联测试中的协变量(covariates),来校正人口中任何剩余的种群分层。需要包含多少成分取决于种群结果和样本大小,但精神遗传学界普遍接受最多包含10个成分。
图3 1KG与HapMap数据的CEU的多维缩放(MDS)图(在此示例中,它可以被视为是您的“自己的”数据,因为它在在线教程中被使用了)。左上角的黑色十字(+= “OWN”)代表HapMap样本中个体的前两个MDS分量(彩色符号代表1KG数据(其中绿色圆圈=欧洲人;蓝色方框=非洲人;紫色叉号=Ad混合的美国人;红色三角=亚洲人))。代表欧洲样本的MDS成分位于左上角,非洲样本位于右上方,Ad混合的美国样本位于虚线的交点附近,亚洲样本的成分位于左下部分。
5 | 二元和数量性状关联的统计检验
经过质量控制和MDS成分的计算之后,数据已经准备好用于后续关联测试。根据感兴趣的性状或疾病的预期遗传模型和所研究的表型性状的性质,可以选择适当的统计检验。在随附的教程中,我们提供了适用于二元性状(例如,酒精依赖患者与健康对照)或数量性状(例如,每周消耗的酒精饮料数量)的各种关联类型的脚本。
PLINK提供了一个自由度(1 df)等位基因测试,其中性状值或二元性状的对数比值作为风险等位基因(次要等位基因[a] vs 主要等位基因[A])数量的函数线性增加或减少。此外,还可以进行非加性检验,例如基因型关联测试(2 df: aa vs. Aa vs AA)、显性基因作用测试(1 df: [aa & Aa] vs AA)以及隐性基因作用测试(1 df: aa vs [Aa & AA])。然而,非加性检验并未得到广泛应用,因为在实践中检测非加性的统计能力很低(Lettre等人,2007年;McCarthy等人,2008年)。通过在PLINK中使用基于R的“插件(plug-in)”函数,可以执行更复杂的分析(例如,Cox回归分析和固化模型)(Stringer等人,2016年)。
下面介绍的关联分析的示例脚本可以在 https://github.com/MareesAT/GWA_tutorial/ 的3_Association_GWAS.zip
中找到。
5.1 | 二元结果度量
在PLINK中,SNP与二元结果之间的关联(1代表未受影响,2代表受影响;0和-9代表确实;前面的表示是PLINK默认的,您使用的时候可以根据需要修改)可以使用选项--assoc
或者--logistic
进行检验。PLINK中--assoc
选项执行的\(X^{2}\)关联测试是不包含协变量的。使用--logistic
选项将执行包含协变量的逻辑回归分析。--logistic
选项比--assoc
选项更灵活,但代价是计算时间的增加。
5.2 | 数量结果度量
在PLINK中,SNP和数量结果之间的关联可以通过选项--assoc
和--linear
进行检验。当PLINK检测到数量结果度量(即,除1,2,0或缺失值以外的值)时,--assoc
选项将通过执行常用的Student's t检验的渐进版本来比较两个均值。这个选项不允许使用协变量。PLINK中的--linear
选项以每个单独的SNP作为预测变量执行线性回归分析。与--logistic
选项类似,--linear
选项允许使用协变量,并且比--assoc
选项稍慢。
5.3 | 多次测试(test, 检验?)的修正
现代基因分型芯片目前可以对400万个标记进行基因分型,这会产生大量的测试,因此产生了相当大的多重测试负担。SNP imputation可能会进一步增加测试关联的数量。各种模拟表明,广泛用于欧洲人群研究的全基因组显著性阈值\(5\times10^{-8}\)充分控制了整个基因组中独立SNP的数量,而不管研究的实际SNP密度(Dudbridge等人,2008年)。在测试非洲种群时,由于这些个体之间的遗传多样性更大,因此需要更严格的阈值(可能接近\(1.0\times10^{-8}\);Hoggart等人,2008年)。
确定全基因组显著性的三种广泛应用的替代方法是使用Bonferroni校正、Benjamini-Hochberg错误发现率(FDR,false discovery rate)和置换(permutation)测试。Bonferroni校正旨在控制出现至少一个假阳性结果的概率,使用公式\(0.05/n\)计算调整后的p值阈值,其中\(n\)是测试的SNP数量。然而,如前所述,由于连锁不平衡(Linkage Disequilibrium, LD),许多SNP是相关的,因此根据定义不是独立的。因此这种方法往往过于保守,导致假阴性结果的比例增加。
在假设SNP是独立的状态下,FDR控制了其值低于固定阈值的所有信号中误报的预期比例(Benjamini和Hochberg,1995)。这种方法不如Bonferroni校正保守。应该注意的是,控制FDR并不意味着任何统计显著性的概念;它只是一种将误报的预期比例降至最低的方法,例如用于后续分析。此外,这种方法对于SNP有其自身的局限性,因为p值不是独立的,而这是FDR方法假设的前提条件(Benjamini和Hochberg,1995年)。
最后,置换方法可用于处理多重测试负担。为了计算基于排列的p值,结果测量标签被随机排列多次(例如,1,000-1,000,000次),这有效地消除了结果测量和基因型之间的任何真正关联。对于所有排列的数据集,然后执行统计测试。这提供了在无关联的零假设下检验统计量和p值的经验分布。随后将从观测数据获得的原始检验统计量或p值与p值的经验分布进行比较,以确定经验调整的p值。要使用这种方法,可以组合两个PLINK选项--assoc
和--mperm
以生成两个p值:EMP1,经验p值(未校正)和EMP2,为多次测试校正的经验p值。这个过程是计算密集型的,特别是如果需要很多排列时,这是准确计算非常小的p值所必须的(North等人,2003年)。