ARTICLE
组内平方和
组内平方和 (Within-Group Sum of Squares) 组内平方和(SSW, Sum of Squares Within),又称误差平方和(SSE, Sum of Squares Error)或残差平方和,是方差分析(ANOVA) 中的核心概念之一,用于衡量各组内部观测值围绕其组均值的离散程度。它反映了随机误差或不可解释的个体差异——即剔除了
组内平方和 (Within-Group Sum of Squares)
组内平方和(SSW, Sum of Squares Within),又称误差平方和(SSE, Sum of Squares Error)或残差平方和,是方差分析(ANOVA) 中的核心概念之一,用于衡量各组内部观测值围绕其组均值的离散程度。它反映了随机误差或不可解释的个体差异——即剔除了组间差异后,数据中剩余的变异。
数学定义
设有 个处理组(或类别),第 组包含 个观测值 ,总计 个观测。记第 组的样本均值为 ,则组内平方和定义为:
该公式的含义是:对于每一组,计算组内每个观测值与该组均值之差的平方,然后将所有组的这些平方偏差加总。SSW 越大,说明各组内部的数据点越分散;SSW 越小,说明组内同质性越强。
平方和分解
ANOVA 的基石是总平方和分解恒等式:
即 总平方和 = 组间平方和 + 组内平方和,其中:
这一分解表明:数据中的总变异可被唯一地划分为组间变异(可由分组因素解释的部分)和组内变异(无法由分组解释的随机波动)。若 SSB 相对 SSW 较大,则提示分组因素可能具有显著效应。
自由度与均方
组内平方和对应的自由度为 (总观测数减组数),因为每组损失一个自由度用于估计组均值。由此定义组内均方(MSW, Mean Square Within):
MSW 是总体误差方差 的无偏估计量,无论原假设是否成立。这一性质使 MSW 成为 ANOVA F 检验的分母(误差项)。
在 ANOVA F 检验中的角色
单因素方差分析的 F 统计量为:
在原假设 (所有组均值相等)下,该统计量服从 分布。若组间均方显著大于组内均方,则拒绝原假设,认为至少有一组均值不同。
从直觉上,MSW 提供了衡量"噪声"的基准——即使各组确实没有差异( 为真),观测值也会因随机波动而围绕组均值离散。只有当组间差异超过这个随机波动的正常范围时,我们才认为差异具有统计显著性。
与其他概念的关系
- 组间平方和 (SSB):与 SSW 共同构成 SST,衡量组均值之间的系统差异。
- 均方误差 (MSE):在线性回归语境中,MSE 与 MSW 本质相同,均量化模型无法解释的变异。
- 决定系数 :在 ANOVA 框架下,,即组间变异占总变异的比例。
- 效应量 (Effect Size): 和 Cohen's f 等指标均依赖 SSW 衡量非中心化程度。
假设条件
组内平方和作为 ANOVA 的核心组件,其有效性依赖于以下假设:各组内观测值来自方差相等的正态分布(方差齐性);观测值之间相互独立。若方差齐性假设不满足,可考虑使用Welch ANOVA或Kruskal-Wallis检验等替代方法。在实验设计中,通过随机化和区组化可有效控制组内变异,从而提高检验功效。