ARTICLE

方差分量估计

方差分量估计 (Variance Component Estimation) 方差分量估计是统计学和计量经济学中用于将总变异分解为来自不同随机来源的分量的一套方法。它起源于随机效应模型和混合线性模型的分析需求,核心目标是估计模型中各个随机效应的方差(即方差分量),而非仅仅估计固定效应的均值参数。方差分量估计在面板数据分析、生物统计、数量遗传学、教育测量和元分

浏览 0 更新 2026-01-06

方差分量估计 (Variance Component Estimation)

方差分量估计是统计学和计量经济学中用于将总变异分解为来自不同随机来源的分量的一套方法。它起源于随机效应模型混合线性模型的分析需求,核心目标是估计模型中各个随机效应的方差(即方差分量),而非仅仅估计固定效应的均值参数。方差分量估计在面板数据分析生物统计数量遗传学教育测量元分析等领域具有广泛应用。

模型设定与动机

考虑一个典型的单向随机效应方差分析模型(单因素随机效应模型):

yij=μ+αi+εij,i=1,,k,  j=1,,niy_{ij} = \mu + \alpha_i + \varepsilon_{ij}, \quad i = 1, \ldots, k, \; j = 1, \ldots, n_i

其中 μ\mu 为总均值,αiN(0,σα2)\alpha_i \sim N(0, \sigma_\alpha^2) 为随机效应(如个体异质性或组效应),εijN(0,σε2)\varepsilon_{ij} \sim N(0, \sigma_\varepsilon^2) 为随机误差项,且 αi\alpha_iεij\varepsilon_{ij} 相互独立。总方差被分解为两个分量:组间方差 σα2\sigma_\alpha^2 和组内方差 σε2\sigma_\varepsilon^2

Var(yij)=σα2+σε2\mathrm{Var}(y_{ij}) = \sigma_\alpha^2 + \sigma_\varepsilon^2

其中组内相关系数(Intraclass Correlation Coefficient, ICC)定义为 ρ=σα2/(σα2+σε2)\rho = \sigma_\alpha^2 / (\sigma_\alpha^2 + \sigma_\varepsilon^2),衡量组间变异在总变异中的比重。方差分量估计的任务就是从样本数据中估计 σα2\sigma_\alpha^2σε2\sigma_\varepsilon^2

ANOVA 方法(平衡数据)

对于平衡数据(各组样本量均等,即 ninn_i \equiv n),最经典的估计方法是基于期望均方(Expected Mean Squares)的方差分析法。令组间均方 MSAMSA 和组内均方 MSEMSE 分别为:

MSA=nk1i=1k(yˉiyˉ)2,MSE=1k(n1)i=1kj=1n(yijyˉi)2MSA = \frac{n}{k-1} \sum_{i=1}^{k} (\bar{y}_{i\cdot} - \bar{y}_{\cdot\cdot})^2, \quad MSE = \frac{1}{k(n-1)} \sum_{i=1}^{k} \sum_{j=1}^{n} (y_{ij} - \bar{y}_{i\cdot})^2

在正态假设下,二者的期望值为:

E(MSA)=nσα2+σε2,E(MSE)=σε2E(MSA) = n \sigma_\alpha^2 + \sigma_\varepsilon^2, \qquad E(MSE) = \sigma_\varepsilon^2

MSAMSAMSEMSE 分别等于其期望值,解得方差分量的估计量为:

σ^ε2=MSE,σ^α2=MSAMSEn\hat{\sigma}_\varepsilon^2 = MSE, \qquad \hat{\sigma}_\alpha^2 = \frac{MSA - MSE}{n}

该估计量是无偏的且在一定条件下是最小方差无偏估计量。然而,此法存在一个重要缺陷:当 MSA<MSEMSA < MSE 时,σ^α2\hat{\sigma}_\alpha^2 可能为负值。处理负方差估计的常用策略包括将其截断为零(截断估计)或采用受约束的最大似然方法。

Henderson 方法(非平衡数据)

在实际应用中,数据往往是非平衡的(各组样本量不等)。亨德森(C. R. Henderson)于 1953 年提出了三种处理非平衡数据的方差分量估计方法,统称为 Henderson 方法 I、II 和 III。

Henderson 方法 I 基于类比平衡情形下的 ANOVA 方差分量估计,通过令各平方和的观测值等于其期望值来求解。该方法虽然计算简单,但在某些设计下估计量的统计性质欠佳。

Henderson 方法 II 先对固定效应进行调整,再在调整后的数据上用方法 I 估计方差分量。这相当于先消除固定效应的影响,再进行方差分解。

Henderson 方法 III(也称为"拟合常数法")通过比较不同模型的残差平方和来估计方差分量。具体而言,它分别拟合全模型和若干个子模型,通过残差平方和的差异来获取方差分量的无偏估计。Henderson 方法 III 等价于在正态性假设下对方差分量给出的方差分析型无偏估计,无论数据是否平衡。

最大似然与限制最大似然方法

在正态性假设下,最大似然估计(MLE)和限制最大似然估计(REML)是现代方差分量估计的主流方法。

最大似然估计通过最大化观测向量 y\mathbf{y} 的对数似然函数来估计方差分量。对于模型 yN(Xβ,V(θ))\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}(\boldsymbol{\theta})),其中 V(θ)=r=1Rσr2ZrZr+σε2I\mathbf{V}(\boldsymbol{\theta}) = \sum_{r=1}^{R} \sigma_r^2 \mathbf{Z}_r \mathbf{Z}_r' + \sigma_\varepsilon^2 \mathbf{I},对数似然为:

(β,θ)=12[logV+(yXβ)V1(yXβ)]+常数\ell(\boldsymbol{\beta}, \boldsymbol{\theta}) = -\frac{1}{2} \left[ \log|\mathbf{V}| + (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) \right] + \text{常数}

MLE 的方差分量估计在有限样本下是有偏的,因为它未考虑固定效应 β\boldsymbol{\beta} 估计所消耗的自由度。

限制最大似然估计(REML,又称残差最大似然)由 Patterson 和 Thompson(1971)提出,通过对数据进行线性变换,消去固定效应部分,仅基于残差对比(error contrasts)进行似然最大化。REML 给出的方差分量估计在平衡数据下与 ANOVA 估计一致,且通常偏差小于 MLE。在非平衡数据下,REML 是目前应用最为广泛的标准方法,主流统计软件(如 SAS 的 PROC MIXED、R 的 lme4 包)中的混合模型拟合默认采用 REML。

MINQUE 与 MIVQUE

劳氏最小范数二次无偏估计(MINQUE)由 C. R. Rao 于 1971 年提出,是另一种重要的方差分量估计方法。MINQUE 的基本思想是:寻找方差分量的二次型估计量 σ^r2=yAry\hat{\sigma}_r^2 = \mathbf{y}'\mathbf{A}_r\mathbf{y},使估计量在满足无偏性约束的前提下,在某个给定的先验权重矩阵下具有最小的欧几里得范数。当所有方差分量除误差方差外均设为零时,MINQUE 退化为 MIVQUE(最小方差二次无偏估计,Minimum Variance Quadratic Unbiased Estimation)。

MINQUE 的优势在于它不要求正态性假设(仅需前四阶矩存在),且可以通过迭代计算逼近 REML 估计,因此常被用作 REML 的迭代初始值。

面板数据与计量经济学应用

面板数据计量经济学中,方差分量估计是随机效应模型混合模型的核心。以 Baltagi 和 Chang(1994)为代表的文献将方差分量估计与可行广义最小二乘法(FGLS)相结合:先通过方差分量估计得到一致的协方差矩阵估计 V^\hat{\mathbf{V}},再利用 V^\hat{\mathbf{V}} 进行 FGLS 估计以获得更高效的回归系数 β\boldsymbol{\beta} 的估计。

此外,方差分量估计在多层次模型(multilevel model)、分层线性模型(HLM)以及广义估计方程(GEE)中扮演关键角色。在元分析中,随机效应元分析的核心步骤就是估计研究间方差分量 τ2\tau^2(通常采用 DerSimonian-Laird 方法或 REML),以确定研究效应量的加权平均及其置信区间。

贝叶斯方法与其他扩展

贝叶斯统计框架下,方差分量估计可通过指定方差分量的先验分布来实现。常用的先验包括逆伽马分布逆威沙特分布以及更现代的半柯西分布(Gelman, 2006)。贝叶斯方法的一个显著优势是方差分量的后验分布天然非负,从根本上避免了频率学派方法中负方差估计的困境。此外,通过马尔可夫链蒙特卡洛(MCMC)方法可以同时获得方差分量及其不确定性的完整后验推断。

在计算层面,期望最大化算法(EM 算法)和牛顿-拉弗森算法是求解 MLE 和 REML 方差分量估计的两种主要迭代数值方法。EM 算法收敛稳定但对初始值敏感且收敛速度慢于牛顿法,实践中常将两者结合使用。对于大规模数据集(如基因组数据),稀疏矩阵技术和平均信息算法(Average Information, AI-REML)显著降低了 REML 的计算复杂度,使方差分量估计在样本量达数十万乃至百万级别时依然可行。