ARTICLE

方差分量

方差分量 (Variance Components) 方差分量(Variance Components)是指将观测数据的总体方差按照不同来源(即随机效应因子)进行分解后,每个来源对总方差的贡献量。方差分量分析是随机效应模型和混合效应模型的核心技术,广泛应用于数量遗传学、心理测量学、纵向数据分析和质量控制等领域。方差分量分析的核心洞见在于:总变异并非同质,而是

浏览 0 更新 2026-07-15

方差分量 (Variance Components)

方差分量(Variance Components)是指将观测数据的总体方差按照不同来源(即随机效应因子)进行分解后,每个来源对总方差的贡献量。方差分量分析是随机效应模型混合效应模型的核心技术,广泛应用于数量遗传学心理测量学纵向数据分析和质量控制等领域。方差分量分析的核心洞见在于:总变异并非同质,而是由不同层次的随机因素叠加而成;正确分离各来源的变异贡献,是科学推断和决策的前提。

该方法最早由罗纳德·费希尔(Ronald Fisher)在1918年的论文《孟德尔遗传假设下亲属间的相关性》中系统提出,用于量化遗传因素与环境因素对表型变异的影响权重,开创了现代方差分析(ANOVA)的理论范式。此后,查尔斯·罗伊·亨德森(Charles Roy Henderson)在20世纪50年代发展了方差分量的最佳线性无偏预测方法和相应的混合模型方程组,为动物育种和遗传评估奠定了方法论基础。

数学模型与基本框架

方差分量分析的数学基础是线性混合模型(Linear Mixed Model, LMM)。设共有n n 个观测值,模型的一般形式为:

y=Xβ+Z1u1+Z2u2++Zkuk+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}_1\mathbf{u}_1 + \mathbf{Z}_2\mathbf{u}_2 + \cdots + \mathbf{Z}_k\mathbf{u}_k + \boldsymbol{\varepsilon}

其中y \mathbf{y} n×1 n \times 1 观测向量,Xβ \mathbf{X}\boldsymbol{\beta} 为固定效应部分,Zjuj \mathbf{Z}_j\mathbf{u}_j 表示第j j 个随机效应因子对观测值的贡献,ε \boldsymbol{\varepsilon} 为随机误差项。基本假设为:各随机效应相互独立且服从正态分布,即ujN(0,σj2I) \mathbf{u}_j \sim N(\mathbf{0}, \sigma_j^2 \mathbf{I}) εN(0,σ2I) \boldsymbol{\varepsilon} \sim N(\mathbf{0}, \sigma^2 \mathbf{I}) 。据此,观测向量的协方差矩阵可分解为:

Var(y)=j=1kσj2ZjZj+σ2In\mathrm{Var}(\mathbf{y}) = \sum_{j=1}^k \sigma_j^2 \mathbf{Z}_j\mathbf{Z}_j^\top + \sigma^2 \mathbf{I}_n

参数σ12,σ22,,σk2 \sigma_1^2, \sigma_2^2, \ldots, \sigma_k^2 以及σ2 \sigma^2 就是方差分量,它们分别刻画了不同随机来源对总变异贡献的大小。方差分量的相对大小直接决定了各随机因子在总变异中的重要性,据此可以判断后续分析应重点关注哪些变异来源。

估计方法

方差分量的估计方法经历了从矩估计到似然估计的演进。

ANOVA估计法由Fisher提出,是最早的估计方法。其基本思想是将观测数据的总平方和按照模型结构分解为若干分量,分别计算各分量的期望均方,再令样本均方等于其期望值,从而解出方差分量。在平衡设计(各因子水平下的样本量相等)下,ANOVA估计具有无偏性和计算简便两大优点。然而在非平衡数据下,ANOVA估计的一个突出问题是有可能得到负的方差估计值——这在理论上是不允许的,因为方差本身非负。

极大似然估计(ML)和约束极大似然估计(REML)是现代统计软件中广泛使用的方法。ML估计在正态性假设下最大化全似然函数,但它的估计量存在偏倚,原因是未考虑固定效应参数估计中损失的自由度。REML克服了这一缺陷:先将固定效应从似然函数中消去,仅基于残差对比量(error contrasts)估计方差分量,从而获得渐近无偏的估计。REML目前是处理方差分量问题的主流方法,在R语言的lme4包、SAS的PROC MIXED以及Stata的mixed命令中均作为默认算法实现。

此外,最小范数二次无偏估计(MINQUE)和谱分解估计等方法在非正态数据或特定约束下也有相应的应用价值。

主要应用领域

数量遗传学中,方差分量分析是估计遗传力(heritability)的基本工具。遗传力定义为加性遗传方差占总表型方差的比例:h2=σA2/(σA2+σD2+σE2) h^2 = \sigma_A^2 / (\sigma_A^2 + \sigma_D^2 + \sigma_E^2) ,其中σA2 \sigma_A^2 σD2 \sigma_D^2 σE2 \sigma_E^2 分别为加性遗传、显性遗传和环境方差分量。这一比例是动植物育种和人类复杂性状遗传学研究中的核心参数。

工业统计和六西格玛管理中,方差分量分析用于测量系统分析(Gauge R\&R),它将测量结果的总变异分解为量具重复性(设备本身的随机变异)、再现性(不同操作者之间的系统变异)和部件间真实变异三个来源。若量具重复性和再现性引起的方差分量占总方差的比例过高,说明测量系统的分辨能力不足以可靠检测过程波动,必须改进量具或统一操作规范。

纵向数据分析中,方差分量模型常用于刻画重复测量数据的时间相关结构。以医学研究为例,同一患者在多个随访时间点的血压测量值之间存在时间关联,方差分量分析将总变异分解为个体间变异(患者固有的生理差异)和个体内变异(同一患者随时间波动的随机误差),从而帮助研究者评估治疗方案的实际效果是否超过了患者自身波动的范围。

教育统计学社会研究中,方差分量分析是多水平模型(Hierarchical Linear Model, HLM)的基础。以学生成绩分析为例,总变异可分解为学生层面(个体学习能力差异)、班级层面(师资水平与教学方式差异)和学校层面(资源投入与管理质量差异)三个层次的方差分量。通过比较各层次方差的占比,研究者可以判断哪一层面的干预措施最有可能产生显著效果——若学校层面的方差分量最大,则改善学校管理可能比提升个别教师教学更具全局意义。

与相关概念的关系

方差分量与组内相关系数(Intraclass Correlation Coefficient, ICC)有着直接联系。ICC定义为组间方差与总方差之比,在单因素随机效应ANOVA中正是组间方差分量占总方差的比例,用于衡量组内观测值之间的相似程度。

心理测量学中,信度系数(Reliability Coefficient)本质上等价于方差分量之比:真分数方差与观测分数总方差的比值。克朗巴赫系数(Cronbach's α \alpha )作为信度的常用指标,其计算正是基于方差分量分析框架中的期望均方分解。此外,方差分析(ANOVA)、随机效应模型BLUP(最佳线性无偏预测)等概念均以方差分量分析作为理论基石。方差分量分析揭示的是数据中不同层次变异的结构,而BLUP则是在已知方差分量的基础上对各随机效应进行最优预测——两者共同构成了线性混合模型推断的完整框架。理解方差分量的内涵及其估计原理,对于正确应用多层次统计方法和解释模型输出中的随机效应方差具有重要意义。