ARTICLE
全基因组关联分析
全基因组关联分析 (Genome-Wide Association Study, GWAS) 全基因组关联分析(GWAS)是一种在群体水平上系统扫描整个基因组、以识别与特定表型(性状或疾病)显著关联的遗传变异(通常是单核苷酸多态性,SNP)的研究方法。自2005年首次成功应用于年龄相关性黄斑变性以来,GWAS已成为复杂性状和常见疾病遗传 Architectu
全基因组关联分析 (Genome-Wide Association Study, GWAS)
全基因组关联分析(GWAS)是一种在群体水平上系统扫描整个基因组、以识别与特定表型(性状或疾病)显著关联的遗传变异(通常是单核苷酸多态性,SNP)的研究方法。自2005年首次成功应用于年龄相关性黄斑变性以来,GWAS已成为复杂性状和常见疾病遗传 Architecture 解析的核心工具,连接了分子遗传学与统计推断两大领域。
核心原理与实验设计
GWAS的理论基础是连锁不平衡 (Linkage Disequilibrium, LD):如果某个因果变异(causal variant)与附近被基因分型的SNP处于LD状态,则该SNP的等位基因频率在病例与对照之间将呈现统计学差异。实验通常采用病例-对照设计或连续性状设计:
- 收集大量样本(现代GWAS通常需数万至数百万个体)
- 对每个个体进行全基因组基因分型或插补,获取数百万个SNP的基因型
- 在每个SNP位点分别检验基因型与表型之间的关联
核心统计模型为单个SNP的加性遗传模型下进行的逻辑回归(二分类性状)或线性回归(连续性状):
其中 编码为该位点效应等位基因的拷贝数(0, 1, 2), 为协变量(如年龄、性别、前几个主成分以控制人群分层), 即待检验的遗传效应。
多重检验校正与显著性阈值
GWAS最关键的统计挑战在于多重检验负担:同时检验数百万个SNP意味着即使使用传统的 ,也会产生数以万计的假阳性。公认的全基因组显著性阈值为:
该阈值源于 Bonferroni 校正对约一百万个独立检验的近似:。更精确的估计考虑LD结构后有效独立检验数约为 。此外,贝叶斯方法和错误发现率(FDR)控制也在应用中广泛采用。
结果通常以曼哈顿图 (Manhattan Plot) 和QQ图 (Quantile-Quantile Plot) 可视化。曼哈顿图以染色体位置为横轴、 为纵轴;QQ图用于判断是否存在系统性偏倚(如人群分层导致的基因组膨胀因子 偏离1)。
人群分层与混淆因素
人群分层 (Population Stratification) 是GWAS中最常见的混淆来源:若病例与对照组的祖先来源存在系统性差异,则任何在两组间等位基因频率不同的SNP——无论是否与疾病因果相关——都可能表现出虚假关联。主要应对策略:
- 主成分分析 (PCA):利用全基因组SNP数据计算前若干个主成分作为协变量纳入回归模型,以校正祖先差异。该方法由 Price 等 (2006) 系统引入,已成为标准实践。
- 线性混合模型 (LMM):通过引入亲缘关系矩阵作为随机效应项,在控制人群结构的同时建模个体间的遗传相关性。如 EMMAX、GEMMA 和 BOLT-LMM 等软件的实现使LMM可扩展至大规模GWAS。
- 基因组控制 (Genomic Control):以中位数 统计量估计基因组膨胀因子 ,对所有检验统计量进行统一缩放。
插补与精细定位
由于基因分型芯片仅覆盖部分常见变异,基因型插补 (Genotype Imputation) 利用参考panel(如 1000 Genomes Project、TOPMed 或 HRC)中的单倍型信息,推断未直接分型的SNP的基因型。插补显著提高了标记密度和跨研究荟萃分析的可行性。
在识别到显著关联位点后,精细定位 (Fine-mapping) 旨在通过统计方法(如 CAVIAR、FINEMAP、SuSiE)从LD区域中区分真正的因果变异与仅因LD而表现显著的标记变异。这些方法通常基于贝叶斯变量选择框架,输出每个SNP的后验包含概率 (Posterior Inclusion Probability, PIP)。
遗传力与多基因风险评分
GWAS结果汇总可用于估计SNP遗传力 (SNP-heritability, )——即所有被检测SNP共同解释的表型方差比例。常用方法包括LD分数回归 (LD Score Regression) 和基于线性混合模型的GREML方法。 通常低于经典遗传力,反映了"遗传力缺失" (Missing Heritability) 问题,其来源包括罕见变异、基因-基因相互作用和尚未被充分捕捉的结构变异。
多基因风险评分 (Polygenic Risk Score, PRS) 将GWAS中估计的众多SNP效应加权求和,为每个个体计算一个标量风险值:
其中 为第 个SNP的估计效应, 为个体 的基因型编码。PRS在风险分层、精准医学和法医学中有广泛应用前景,但其跨人群可移植性受限于不同祖先群体LD结构的差异。
荟萃分析与跨人群研究
单个GWAS的统计效力受样本量限制,荟萃分析 (Meta-analysis) 通过合并多个独立研究的结果提升发现能力。常用方法包括基于效应量及标准误的固定效应逆方差加权(如 METAL)和考虑异质性的随机效应模型。跨人群GWAS——特别是在欧洲裔以外的群体中开展研究——对于识别人群特异性位点、利用LD差异进行精细定位以及改善PRS的公平性至关重要。
后GWAS功能解析
从GWAS统计关联到因果机制的转化是当前领域的瓶颈环节。显著SNP大多位于非编码区,提示其通过调控基因表达发挥作用。转录组范围关联研究 (TWAS) 和孟德尔随机化 (Mendelian Randomization, MR) 是两种重要的后GWAS分析策略:
- TWAS整合GWAS汇总统计与基因表达参考panel(如 GTEx),鉴定其预测表达水平与表型关联的基因。
- MR利用遗传变异作为工具变量,在计量经济学的框架下推断暴露因素(如生物标志物、生活方式)与结局之间的因果关系,前提是满足相关性、独立性和排他性假设。
其他功能注释工具包括 FUMA、MAGMA 和 DEPICT,它们通过染色质状态、Hi-C 数据和通路富集分析将GWAS位点与靶基因联系起来。
经济学与社会科学中的应用
GWAS的方法论框架已扩展至社会经济行为的遗传学研究。在基因经济学 (Genoeconomics) 领域中,GWAS被用于识别与教育获得、风险偏好、时间贴现、主观幸福感和企业家精神等复杂社会经济表型相关的遗传位点。这些研究面临特殊的挑战:社会经济表型的遗传效应通常极其微小且高度多基因,环境因素与遗传因素的基因-环境交互作用更为突出,且统计显著位点的效应量往往远小于疾病GWAS中的对应估计。此外,这些研究在伦理和解释层面引发了关于遗传决定论和群体差异误读的广泛讨论。
局限与未来方向
尽管GWAS取得了巨大成功,其局限性同样显著:检测到的位点通常仅解释表型方差的一小部分(遗传力缺失);显著关联不等于因果关系;大多数GWAS基于欧洲裔人群,限制了结果的泛化性;罕见变异(MAF < 1\%)难以被标准芯片和插补策略有效捕获。未来方向包括:大规模全基因组测序以直接评估罕见变异、整合多组学数据的系统遗传学方法、基于深度学习的非加性效应建模,以及利用生物银行规模数据(如 UK Biobank、FinnGen、All of Us)推动发现与转化的结合。