ARTICLE

合并方差估计

合并方差估计 (Pooled Variance Estimation) 合并方差估计 (Pooled Variance Estimation) 是统计学中用于估计两个或多个独立总体共同方差的重要方法。其核心假定是各独立样本来自具有相同方差的正态总体,在此前提下通过加权平均各组样本方差来构造一个比任意单组估计更为精确的公共方差估计量。合并方差广泛应用于两样本t

浏览 2 更新 2025-07-15

合并方差估计 (Pooled Variance Estimation)

合并方差估计 (Pooled Variance Estimation) 是统计学中用于估计两个或多个独立总体共同方差的重要方法。其核心假定是各独立样本来自具有相同方差的正态总体,在此前提下通过加权平均各组样本方差来构造一个比任意单组估计更为精确的公共方差估计量。合并方差广泛应用于两样本t检验方差分析 (ANOVA) 及效应量计算等统计推断场景。与仅使用单组数据相比,合并估计能够有效降低方差估计的抽样误差,提高参数估计的效率,是参数检验中不可或缺的基础工具。

核心思想

当研究者有充分理由相信多个独立样本抽取自方差相等的总体时,仅依赖某一组样本的方差来估计 σ2 \sigma^2 会浪费其他组所携带的信息。合并方差估计的基本思路是将各组的离差平方和加总,再除以合并后的自由度,从而得到一个充分利用全部数据信息的方差估计量。这种做法本质上是一种信息整合策略——将分散在多组中的方差信息集中起来,以达到更高的估计精度。

这一方法的根本前提是 方差齐性 (Homogeneity of Variances) 假设,即不同组别的总体方差彼此相等。若该假设被违反,合并方差将不再是合理的公共方差估计量,使用它进行推断可能导致第一类错误率失控或统计功效下降:

σ12=σ22==σk2=σ2\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 = \sigma^2

在实际应用中,通常需要事先通过统计检验来评估方差齐性假设是否合理。常用的检验方法包括Levene检验Bartlett检验。Levene检验对正态性偏离较为稳健,因此在实际应用中更受推荐;Bartlett检验则在数据严格服从正态分布时功效更高,但对偏离正态性较为敏感。

两样本情形

两样本合并方差是最常见的情形。设有两个独立样本,容量分别为 n1 n_1 n2 n_2 ,样本方差分别为 s12 s_1^2 s22 s_2^2 ,则合并方差 sp2 s_p^2 定义为:

sp2=(n11)s12+(n21)s22n1+n22s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

其中分子是两组各自的离差平方和之和,分母是合并后的自由度。可以证明,在方差齐性假设下,sp2 s_p^2 是公共方差 σ2 \sigma^2 无偏估计量,即 E[sp2]=σ2 \mathrm{E}[s_p^2] = \sigma^2

直观理解: 合并方差并非简单的算术平均,而是以各组自度为权重的加权平均。样本量较大(自由度较高)的组,其方差估计的可靠性更高,因此在合并估计中获得更大的权重。这一加权策略使得合并方差比任意单组方差估计都更为稳定。

多样本情形

推广到 k k 个独立样本的一般情形,合并方差公式为:

sp2=i=1k(ni1)si2i=1k(ni1)=(n11)s12+(n21)s22++(nk1)sk2Nks_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1)s_i^2}{\sum_{i=1}^{k} (n_i - 1)} = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2 + \cdots + (n_k-1)s_k^2}{N - k}

其中 N=i=1kni N = \sum_{i=1}^{k} n_i 为总样本容量,Nk N - k 为合并后的总自由度。当 k=2 k = 2 时,上式自然退化为两样本公式。这一表达式与方差分析均方误差 (Mean Square Error, MSE) 的公式完全一致,可见合并方差估计与方差分析在方法论上的内在联系。

在假设检验中的应用

两样本t检验(等方差情形)

在两独立样本均值比较中,若满足方差齐性假设,应采用等方差t检验(又称Student's t检验),其统计量为:

t=Xˉ1Xˉ2sp1n1+1n2t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}

其中 sp=sp2 s_p = \sqrt{s_p^2} 为合并标准差 (Pooled Standard Deviation)。在零假设成立时,该统计量服从自由度为 n1+n22 n_1 + n_2 - 2 t分布。使用合并方差而非单组方差,可使t检验获得更大的自由度,从而提高检验的统计功效 (Statistical Power),即更容易在两组确实存在差异时正确地拒绝零假设。

Cohen's d 效应量

合并标准差还是计算标准化效应量的基准。Cohen's d的定义为:

d=Xˉ1Xˉ2spd = \frac{\bar{X}_1 - \bar{X}_2}{s_p}

该指标度量两组均值差异相对于组内变异的大小,是元分析 (Meta-Analysis) 中最常用的效应量指标之一。Cohen建议将 d=0.2 d = 0.2 0.5 0.5 0.8 0.8 分别视为小、中、大效应量的经验参考值。

与 Welch 方法的比较

当方差齐性假设不成立时,合并方差估计不再适用。此时应使用 Welch's t检验(又称异方差t检验),它不预设两组方差相等,而是对两组方差分别进行估计,并通过 Welch-Satterthwaite公式 校正自由度:

ν(s12n1+s22n2)2(s12/n1)2n11+(s22/n2)2n21\nu \approx \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}}

Welch方法的自由度通常小于 n1+n22 n_1 + n_2 - 2 ,导致检验更为保守,但在方差不齐时能有效控制第一类错误率。实践建议:若两组样本量相近且方差比不超过 2:1,合并方差方法表现良好且检验功效较高;若方差差异悬殊或样本量严重失衡,应优先选择 Welch 方法以确保检验的可靠性。近年来的统计模拟研究表明,Welch检验在多数实际场景下表现稳健,因此部分学者建议将其作为默认选项。

合并方差的分布性质

在正态性与方差齐性假设同时满足的条件下,合并方差与总体方差之比服从卡方分布:

(Nk)sp2σ2χNk2\frac{(N-k) s_p^2}{\sigma^2} \sim \chi^2_{N-k}

这一分布性质是推导上述t检验统计量精确分布的理论基础,也是构造总体方差置信区间的重要依据。

小结

合并方差估计是一种"借用力量" (Borrowing Strength) 的统计技术:在方差齐性假设合理的前提下,通过整合多组信息获得比任何单组估计都更稳定的方差估计,从而提升后续统计推断的精度与功效。其核心权衡在于:方差齐性假设越是可信,合并估计的优势就越明显;若该假设不成立,则合并估计可能引入系统性偏误。因此,正式分析之前通常应进行方差齐性检验,以确保合并方差估计的适用性。在无法满足方差齐性假设时,Welch方法等替代方案提供了更稳健的选择。