ARTICLE

合并样本方差

合并样本方差 合并样本方差 (Pooled Sample Variance),又称合并方差或联合方差估计,是在多个独立样本的方差被认为相等(即满足方差齐性)的前提下,将它们各自的样本方差按自由度加权平均而得到的一个综合方差估计量。合并样本方差是两样本t检验、方差分析 (ANOVA)等经典统计方法的核心组成部分,它通过利用所有样本的信息来提高对总体公共方差 ^

浏览 2 更新 2025-10-26

合并样本方差

合并样本方差 (Pooled Sample Variance),又称合并方差联合方差估计,是在多个独立样本的方差被认为相等(即满足方差齐性)的前提下,将它们各自的样本方差自由度加权平均而得到的一个综合方差估计量。合并样本方差是两样本t检验方差分析 (ANOVA)等经典统计方法的核心组成部分,它通过利用所有样本的信息来提高对总体公共方差 σ2\sigma^2 的估计精度。

定义与计算公式

设从两个具有相同总体方差 σ2\sigma^2 的正态总体中独立抽取样本,容量分别为 n1n_1n2n_2,样本方差分别为 s12s_1^2s22s_2^2。则合并样本方差 sp2s_p^2 定义为:

sp2=(n11)s12+(n21)s22n1+n22s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

该公式的直观含义是:每个样本方差的权重为其自由度 ni1n_i - 1,分母为总自由度 n1+n22n_1 + n_2 - 2。由于自由度更大的样本携带着更多关于总体方差的信息,这一加权平均方式使得合并估计量更为可靠。

对于一般情形下的 kk 个独立样本,合并样本方差可推广为:

sp2=i=1k(ni1)si2i=1k(ni1)=SSWdfWs_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1)s_i^2}{\sum_{i=1}^{k} (n_i - 1)} = \frac{SS_W}{df_W}

其中 SSW=i=1kj=1ni(YijYˉi)2SS_W = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_i)^2组内离差平方和dfW=i=1k(ni1)=Nkdf_W = \sum_{i=1}^{k} (n_i - 1) = N - k 为组内自由度,N=i=1kniN = \sum_{i=1}^{k} n_i 为总样本量。这正是方差分析 (ANOVA)中误差均方 (MSE) 的表达式。

统计性质

合并样本方差 sp2s_p^2 具有以下重要性质:

  1. 无偏性:当各总体方差确实相等且样本独立时,sp2s_p^2 是总体公共方差 σ2\sigma^2无偏估计,即 E(sp2)=σ2E(s_p^2) = \sigma^2。这是因为单个样本方差 si2s_i^2 已是无偏估计,而加权平均保持无偏性。
  2. 有效性:相较于仅使用单个样本的方差估计,合并样本方差利用了所有可用的样本信息,因而具有更小的方差,估计效率更高。
  3. 卡方分布性质:在正态性假设下,合并样本方差与自由度之间存在如下关系: \[ \frac{df_W \cdot s_p^2}{\sigma^2} \sim \chi^2(df_W) \] 这一性质是构造t统计量F统计量的理论基础。

在统计检验中的应用

两独立样本t检验是合并样本方差最经典的应用场景之一。当两总体方差齐性时,双样本t检验的统计量为:

t=Xˉ1Xˉ2sp1n1+1n2t(n1+n22)t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)

其中 sp=sp2s_p = \sqrt{s_p^2} 为合并样本标准差。该统计量在零假设 μ1=μ2\mu_1 = \mu_2 下服从自由度为 n1+n22n_1 + n_2 - 2t分布

方差分析 (ANOVA)中,组内均方 MSW=sp2MS_W = s_p^2 作为误差项的估计,与组间均方 MSBMS_B 共同构成F统计量的核心成分。当零假设成立时,F=MSB/MSWF = MS_B / MS_W 服从F分布

使用前提与注意事项

合并样本方差的使用依赖于方差齐性假设,即各总体的方差彼此相等。在实际应用中,建议通过以下方法对该假设进行检验:

  • F检验:适用于两个样本的情形,计算 F=s较大2/s较小2F = s_{\text{较大}}^2 / s_{\text{较小}}^2,在双样本正态假设下其服从F分布
  • 莱文检验 (Levene's Test):对非正态性较为稳健,适用于多组比较。
  • 巴特利特检验 (Bartlett's Test):在正态性满足时检验效力最高,但对非正态性敏感。

当方差齐性假设严重不成立时,直接使用合并样本方差可能导致严重的推断偏误。此时应考虑使用韦尔奇t检验 (Welch's t-test) 或韦尔奇方差分析 (Welch's ANOVA) 等不假设方差齐性的替代方法。

此外,还需注意合并样本方差的各分量在计算前应使用相同的度量单位,且各样本在合并时应保持独立性——若样本之间存在相依关系(如配对设计),则合并方差的公式需作相应调整。

直观理解

合并样本方差本质上是一种信息整合的策略:将多个关于同一未知参数 σ2\sigma^2 的独立估计值按精度加权组合,得到更优的综合估计。这一思想在统计学中具有普遍性,也出现在元分析 (Meta-Analysis) 中的固定效应模型、加权最小二乘法 (WLS) 等更广泛的统计方法中。理解合并样本方差,是掌握参数估计中信息加权与效率优化的关键起点。