组间平方和 (SSB)
组间平方和(Sum of Squares Between,简称 SSB,亦记为 SSA 或 SS\textsubscript{ treatment})是方差分析(ANOVA)中衡量各处理组均值与总均值之间差异的核心统计量。它量化了不同组之间的变异程度,反映了分组因素对响应变量的解释能力。组间平方和越大,说明各组均值差异越显著,分组因素的解释力越强。
定义与公式
设有 k 个组,第 i 组的样本量为 ni,样本均值为 yˉi∙,总均值为 yˉ∙∙,则组间平方和定义为:
SSB=i=1∑kni(yˉi∙−yˉ∙∙)2
其中 yˉi∙=ni1∑j=1niyij,yˉ∙∙=N1∑i=1k∑j=1niyij,N=∑i=1kni 为总样本量。
该公式的直观含义是:将每个组的均值与总均值的偏差平方,再以组样本量加权求和,从而反映各组的系统性偏移。
平方和分解
在单因素方差分析中,总平方和(Total Sum of Squares,SST)可分解为组间平方和与组内平方和(Sum of Squares Within,SSW)之和:
SST=SSB+SSW
其中总平方和为:
SST=i=1∑kj=1∑ni(yij−yˉ∙∙)2
组内平方和为:
SSW=i=1∑kj=1∑ni(yij−yˉi∙)2
这一分解是方差分析的理论基石:SST 衡量所有观测值的总变异,SSB 捕捉组间(即由分组因素引起的)变异,SSW 捕捉组内(即随机误差引起的)变异。
自由度与均方
组间平方和的自由度为:
dfB=k−1
对应 k 个组的均值中,已知总均值后自由变化的组均值个数。组间均方(Mean Square Between,MSB)定义为:
MSB=dfBSSB=k−1SSB
MSB 是组间平方和的平均量,衡量每个组别平均贡献的变异大小。
与 F 统计量的关系
在经典 ANOVA 的F检验中,组间均方与组内均方(MSE = SSW / (N - k))的比值构成 F 统计量:
F=MSEMSB=SSW/(N−k)SSB/(k−1)
在原假设 H0:μ1=μ2=⋯=μk(各组总体均值相等)下,该统计量服从 F(k−1,N−k) 分布。若 F 值很大(即组间变异显著大于组内变异),则拒绝原假设,认为至少有一组的均值与其他组存在显著差异。
决定系数
组间平方和占总平方和的比例即为决定系数 R2:
R2=SSTSSB=1−SSTSSW
该比例反映了分组因素解释的总变异比例,是衡量效应大小的常用指标。例如在单因素方差分析中,R2=0.80 表明分组因素解释了 80\% 的响应变量变异。
计算方法与示例
实践中计算 SSB 通常使用下列步骤:
- 计算各组均值 yˉi∙ 与总均值 yˉ∙∙。
- 对各组计算 (yˉi∙−yˉ∙∙)2。
- 乘以各组样本量 ni 后求和。
例如比较三种教学方法对学生成绩的影响,各组均值分别为 85、78、82,总均值 81.7,每组样本量 30,则 SSB ≈ 740.1,结合组内平方和即可进行 F 检验。
双因素与多因素 ANOVA
在双因素方差分析中,组间平方和被分解为因素 A、B 的主效应及交互效应对应的平方和:SST=SSA+SSB+SSA×B+SSE。多因素方差分析(MANOVA)则扩展为多元情形下的组间变异矩阵。
局限与注意事项
组间平方和对异常值较为敏感,非平衡设计中大样本组影响更大。不满足方差齐性假设时,应考虑 Welch 校正等方法。
理解组间平方和是掌握方差分析体系的第一步,它为研究者提供了一种系统量化分组因素效应的工具,在实验设计、生物统计、计量经济学等众多领域均有广泛应用。