ARTICLE

组内平方和

组内平方和 (Within-Group Sum of Squares) 组内平方和(SSW, Sum of Squares Within),又称误差平方和(SSE, Sum of Squares Error)或残差平方和,是方差分析(ANOVA) 中的核心概念之一,用于衡量各组内部观测值围绕其组均值的离散程度。它反映了随机误差或不可解释的个体差异——即剔除了

浏览 0 更新 2025-12-19

组内平方和 (Within-Group Sum of Squares)

组内平方和(SSW, Sum of Squares Within),又称误差平方和(SSE, Sum of Squares Error)或残差平方和,是方差分析(ANOVA) 中的核心概念之一,用于衡量各组内部观测值围绕其组均值的离散程度。它反映了随机误差或不可解释的个体差异——即剔除了组间差异后,数据中剩余的变异。

数学定义

设有 kk 个处理组(或类别),第 ii 组包含 nin_i 个观测值 yi1,yi2,,yiniy_{i1}, y_{i2}, \dots, y_{in_i},总计 N=i=1kniN = \sum_{i=1}^{k} n_i 个观测。记第 ii 组的样本均值为 yˉi=1nij=1niyij\bar{y}_{i\cdot} = \frac{1}{n_i}\sum_{j=1}^{n_i} y_{ij},则组内平方和定义为:

SSW=i=1kj=1ni(yijyˉi)2SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{i\cdot})^2

该公式的含义是:对于每一组,计算组内每个观测值与该组均值之差的平方,然后将所有组的这些平方偏差加总。SSW 越大,说明各组内部的数据点越分散;SSW 越小,说明组内同质性越强。

平方和分解

ANOVA 的基石是总平方和分解恒等式

SST=SSB+SSWSST = SSB + SSW

总平方和 = 组间平方和 + 组内平方和,其中:

SST=i=1kj=1ni(yijyˉ)2(总变异,总均值为 yˉ)SST = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{\cdot\cdot})^2 \quad (\text{总变异,总均值为 }\bar{y}_{\cdot\cdot})
SSB=i=1kni(yˉiyˉ)2(组间变异,由处理效应解释)SSB = \sum_{i=1}^{k} n_i (\bar{y}_{i\cdot} - \bar{y}_{\cdot\cdot})^2 \quad (\text{组间变异,由处理效应解释})

这一分解表明:数据中的总变异可被唯一地划分为组间变异(可由分组因素解释的部分)和组内变异(无法由分组解释的随机波动)。若 SSB 相对 SSW 较大,则提示分组因素可能具有显著效应。

自由度与均方

组内平方和对应的自由度为 NkN - k(总观测数减组数),因为每组损失一个自由度用于估计组均值。由此定义组内均方(MSW, Mean Square Within):

MSW=SSWNkMSW = \frac{SSW}{N - k}

MSW 是总体误差方差 σ2\sigma^2 的无偏估计量,无论原假设是否成立。这一性质使 MSW 成为 ANOVA F 检验的分母(误差项)。

在 ANOVA F 检验中的角色

单因素方差分析的 F 统计量为:

F=MSBMSW=SSB/(k1)SSW/(Nk)F = \frac{MSB}{MSW} = \frac{SSB / (k-1)}{SSW / (N-k)}

在原假设 H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \dots = \mu_k(所有组均值相等)下,该统计量服从 F(k1,Nk)F(k-1, N-k) 分布。若组间均方显著大于组内均方,则拒绝原假设,认为至少有一组均值不同。

从直觉上,MSW 提供了衡量"噪声"的基准——即使各组确实没有差异(H0H_0 为真),观测值也会因随机波动而围绕组均值离散。只有当组间差异超过这个随机波动的正常范围时,我们才认为差异具有统计显著性。

与其他概念的关系

  • 组间平方和 (SSB):与 SSW 共同构成 SST,衡量组均值之间的系统差异。
  • 均方误差 (MSE):在线性回归语境中,MSE 与 MSW 本质相同,均量化模型无法解释的变异。
  • 决定系数 R2R^2:在 ANOVA 框架下,R2=SSB/SST=1SSW/SSTR^2 = SSB / SST = 1 - SSW / SST,即组间变异占总变异的比例。
  • 效应量 (Effect Size):η2=SSB/SST\eta^2 = SSB / SSTCohen's f 等指标均依赖 SSW 衡量非中心化程度。

假设条件

组内平方和作为 ANOVA 的核心组件,其有效性依赖于以下假设:各组内观测值来自方差相等的正态分布(方差齐性);观测值之间相互独立。若方差齐性假设不满足,可考虑使用Welch ANOVAKruskal-Wallis检验等替代方法。在实验设计中,通过随机化和区组化可有效控制组内变异,从而提高检验功效。