ARTICLE

组间平方和

组间平方和 (SSB) 组间平方和(Sum of Squares Between,简称 SSB,亦记为 SSA 或 SS treatment)是方差分析(ANOVA)中衡量各处理组均值与总均值之间差异的核心统计量。它量化了不同组之间的变异程度,反映了分组因素对响应变量的解释能力。组间平方和越大,说明各组均值差异越显著,分组因素的解释力越强。 定义与公式 设有

浏览 0 更新 2025-11-08

组间平方和 (SSB)

组间平方和(Sum of Squares Between,简称 SSB,亦记为 SSA 或 SS\textsubscript{ treatment})是方差分析(ANOVA)中衡量各处理组均值与总均值之间差异的核心统计量。它量化了不同组之间的变异程度,反映了分组因素对响应变量的解释能力。组间平方和越大,说明各组均值差异越显著,分组因素的解释力越强。

定义与公式

设有 kk 个组,第 ii 组的样本量为 nin_i,样本均值为 yˉi\bar{y}_{i\bullet},总均值为 yˉ\bar{y}_{\bullet\bullet},则组间平方和定义为:

SSB=i=1kni(yˉiyˉ)2SSB = \sum_{i=1}^{k} n_i (\bar{y}_{i\bullet} - \bar{y}_{\bullet\bullet})^2

其中 yˉi=1nij=1niyij\bar{y}_{i\bullet} = \frac{1}{n_i} \sum_{j=1}^{n_i} y_{ij}yˉ=1Ni=1kj=1niyij\bar{y}_{\bullet\bullet} = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} y_{ij}N=i=1kniN = \sum_{i=1}^{k} n_i 为总样本量。

该公式的直观含义是:将每个组的均值与总均值的偏差平方,再以组样本量加权求和,从而反映各组的系统性偏移。

平方和分解

在单因素方差分析中,总平方和(Total Sum of Squares,SST)可分解为组间平方和与组内平方和(Sum of Squares Within,SSW)之和:

SST=SSB+SSWSST = SSB + SSW

其中总平方和为:

SST=i=1kj=1ni(yijyˉ)2SST = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{\bullet\bullet})^2

组内平方和为:

SSW=i=1kj=1ni(yijyˉi)2SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{i\bullet})^2

这一分解是方差分析的理论基石:SST 衡量所有观测值的总变异,SSB 捕捉组间(即由分组因素引起的)变异,SSW 捕捉组内(即随机误差引起的)变异。

自由度与均方

组间平方和的自由度为:

dfB=k1df_B = k - 1

对应 kk 个组的均值中,已知总均值后自由变化的组均值个数。组间均方(Mean Square Between,MSB)定义为:

MSB=SSBdfB=SSBk1MSB = \frac{SSB}{df_B} = \frac{SSB}{k - 1}

MSB 是组间平方和的平均量,衡量每个组别平均贡献的变异大小。

与 F 统计量的关系

在经典 ANOVA 的F检验中,组间均方与组内均方(MSE = SSW / (N - k))的比值构成 F 统计量:

F=MSBMSE=SSB/(k1)SSW/(Nk)F = \frac{MSB}{MSE} = \frac{SSB / (k - 1)}{SSW / (N - k)}

在原假设 H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k(各组总体均值相等)下,该统计量服从 F(k1,Nk)F(k-1, N-k) 分布。若 F 值很大(即组间变异显著大于组内变异),则拒绝原假设,认为至少有一组的均值与其他组存在显著差异。

决定系数

组间平方和占总平方和的比例即为决定系数 R2R^2

R2=SSBSST=1SSWSSTR^2 = \frac{SSB}{SST} = 1 - \frac{SSW}{SST}

该比例反映了分组因素解释的总变异比例,是衡量效应大小的常用指标。例如在单因素方差分析中,R2=0.80R^2 = 0.80 表明分组因素解释了 80\% 的响应变量变异。

计算方法与示例

实践中计算 SSB 通常使用下列步骤:

  1. 计算各组均值 yˉi\bar{y}_{i\bullet} 与总均值 yˉ\bar{y}_{\bullet\bullet}
  2. 对各组计算 (yˉiyˉ)2(\bar{y}_{i\bullet} - \bar{y}_{\bullet\bullet})^2
  3. 乘以各组样本量 nin_i 后求和。

例如比较三种教学方法对学生成绩的影响,各组均值分别为 85、78、82,总均值 81.7,每组样本量 30,则 SSB ≈ 740.1,结合组内平方和即可进行 F 检验。

双因素与多因素 ANOVA

双因素方差分析中,组间平方和被分解为因素 A、B 的主效应及交互效应对应的平方和:SST=SSA+SSB+SSA×B+SSESST = SS_A + SS_B + SS_{A\times B} + SSE多因素方差分析(MANOVA)则扩展为多元情形下的组间变异矩阵。

局限与注意事项

组间平方和对异常值较为敏感,非平衡设计中大样本组影响更大。不满足方差齐性假设时,应考虑 Welch 校正等方法。

理解组间平方和是掌握方差分析体系的第一步,它为研究者提供了一种系统量化分组因素效应的工具,在实验设计生物统计计量经济学等众多领域均有广泛应用。