ARTICLE

离差平方和

离差平方和 (Sum of Squared Deviations) 离差平方和 (Sum of Squared Deviations, SSD),也称平方和 (Sum of Squares, SS),是统计学中度量数据变异程度 (variability) 或离散程度 (dispersion) 的基础量。给定一组观测值 x_1, x_2, , x_n 及其算术

浏览 4 更新 2025-12-23

离差平方和 (Sum of Squared Deviations)

离差平方和 (Sum of Squared Deviations, SSD),也称平方和 (Sum of Squares, SS),是统计学中度量数据变异程度 (variability) 或离散程度 (dispersion) 的基础量。给定一组观测值 x1,x2,,xn x_1, x_2, \ldots, x_n 及其算术平均 xˉ=1ni=1nxi \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i ,离差平方和定义为各观测值与均值之差的平方和:

SS=i=1n(xixˉ)2SS = \sum_{i=1}^{n} (x_i - \bar{x})^2

离差平方和是方差 (variance)、标准差 (standard deviation)、ANOVA回归分析等众多统计方法的核心构件。其本质是将每个观测值与中心位置的偏离进行平方累加,消除正负相消效应,从而获得一个非负的、可累加的变异度量。

基本性质

离差平方和具有以下重要性质:

  1. 非负性:对任意实数组,SS0 SS \geq 0 。当且仅当所有观测值相等时,SS=0 SS = 0
  2. 平移不变性:数据整体加减一个常数 c c ,离差平方和不变——(xi+cx+c)2=(xixˉ)2 \sum (x_i + c - \overline{x + c})^2 = \sum (x_i - \bar{x})^2
  3. 尺度依赖性:数据同时乘以常数 k k ,离差平方和变为原来的 k2 k^2 倍。
  4. 计算恒等式: \[ \sum_{i=1}^{n} (x_i - \bar{x})^2 = \sum_{i=1}^{n} x_i^2 - n\bar{x}^2 = \sum_{i=1}^{n} x_i^2 - \frac{1}{n}\left(\sum_{i=1}^{n} x_i\right)^2 \] 这一恒等式在手算和编程中常用于避免二次遍历数据。

自由度的角色

离差平方和与自由度 (degrees of freedom) 紧密关联。虽然平方和涉及 n n 个离差项 (xixˉ) (x_i - \bar{x}) ,但这些离差受约束 i=1n(xixˉ)=0 \sum_{i=1}^{n} (x_i - \bar{x}) = 0 的限制,因此独立变化的离差项只有 n1 n-1 。样本方差定义为:

s2=SSn1=1n1i=1n(xixˉ)2s^2 = \frac{SS}{n-1} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

这里除以 n1 n-1 而非 n n 贝塞尔校正 (Bessel's correction) 的核心内容:在未知总体均值而用样本均值替代时,使用 n1 n-1 可保证 s2 s^2 是总体方差 σ2 \sigma^2 无偏估计

线性模型中的平方和分解

离差平方和的核心应用之一在于方差分析 (ANOVA) 和线性回归中的平方和分解 (sum of squares decomposition)。对于一组响应变量 yi y_i 及相应的拟合值 y^i \hat{y}_i 和均值 yˉ \bar{y} ,总离差平方和可分解为:

\underbrace{i=1n\sum_{i=1}^{n} (yiy_i - yˉ\bar{y})^2}\_{SST(总平方和)\text{SST(总平方和)}} = \underbrace{i=1n\sum_{i=1}^{n} (y^i\hat{y}_i - yˉ\bar{y})^2}\_{SSR(回归平方和)\text{SSR(回归平方和)}} + \underbrace{i=1n\sum_{i=1}^{n} (yiy_i - y^i\hat{y}_i)^2}\_{SSE(残差平方和)\text{SSE(残差平方和)}}

  • SST(Total Sum of Squares):度量响应变量本身的总体变异。
  • SSR(Regression/Explained Sum of Squares):度量由模型(自变量)所"解释"的变异。
  • SSE(Error/Residual Sum of Squares):度量模型无法解释的剩余变异。

这一分解构成了判定系数 R2=SSR/SST R^2 = SSR / SST 的基础,也是F检验ANOVA表等推断工具的数学出发点。在Frisch-Waugh-Lovell定理中,平方和分解进一步推广到多元回归中"控制"其他变量后的偏效应度量。

组间与组内分解

在单因素方差分析中,总离差平方和可按分组结构进一步分解为组间平方和 (between-group SS) 与组内平方和 (within-group SS):

SS=j=1ki=1nj(xijxˉ)2=j=1knj(xˉjxˉ)2+j=1ki=1nj(xijxˉj)2SS_{\text{总}} = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x})^2 = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2 + \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x}_j)^2

其中 k 为组数, njn_j 为第 j 组的样本量, xˉj\bar{x}_j 为组均值。组间平方和反映各组均值之间的差异程度,组内平方和反映组内个体的随机波动。两者的比值(各自除以相应自由度后)构成F统计量,用于检验各组均值是否相等。这一分解逻辑是实验设计与统计推断的数学支柱,在固定效应模型和随机效应模型中均有核心应用。

与协方差和相关系数的联系

离差平方和的概念自然推广到离差积和 (sum of cross-product deviations):

Sxy=i=1n(xixˉ)(yiyˉ)S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})

它与协方差相关系数直接关联:

Cov(X,Y)=Sxyn1,rxy=SxySxxSyy\text{Cov}(X, Y) = \frac{S_{xy}}{n-1}, \qquad r_{xy} = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}}

其中 Sxx S_{xx} Syy S_{yy} 分别为 X X Y Y 各自的离差平方和。这一统一架构使离差平方和成为整个相关-回归分析体系的代数基础,也为协方差矩阵的估计和多变量统计分析提供了核心计算单元。此外,在主成分分析 (PCA) 中,样本协方差矩阵的特征分解本质上即是对离差积和矩阵的正交对角化;在岭回归 (Ridge Regression) 和LASSO等正则化方法中,惩罚项也直接作用于回归系数的平方和,与离差平方和的分解逻辑一脉相承。

历史与术语注释

"Sum of squares" 这一术语可追溯至卡尔·弗里德里希·高斯 (Carl Friedrich Gauss) 在最小二乘法 (least squares) 方面的工作。高斯在 Theoria Motus Corporum Coelestium (1809) 中系统论证了在独立正态误差下,最小化残差平方和等价于最大似然估计,从而确立了离差平方和在统计推断中的核心地位。现代方差分析的体系框架则由罗纳德·费希尔 (Ronald A. Fisher) 在 1920 年代建立,费希尔系统提出了平方和分解、自由度划分及 F 检验的逻辑链条,为实验设计与统计推断奠定了数学基础。Cochran定理进一步给出了正态总体下各类平方和独立且服从卡方分布的精确条件:若 ZN(0,In) Z \sim N(0, I_n) 且各二次型矩阵满足幂等性与正交分解,则相应的平方和相互独立且分别服从不同自由度的卡方分布。这一结论完善了整个平方和分解理论的概率基础,也是构造 t 检验、F 检验和各类置信区间的根本依据。

\vspace{0.5em} 方差 \quad\cdot\quad 标准差 \quad\cdot\quad ANOVA \quad\cdot\quad 贝塞尔校正 \quad\cdot\quad 自由度 \quad\cdot\quad 最小二乘法 \quad\cdot\quad 线性回归