ARTICLE

平方和 (Sum of Squares, SS)

平方和 (Sum of Squares, SS) 是统计学中最基础的概念之一,指数据点与参照值(均值或拟合值)之差的平方之和。它是方差分析 (ANOVA)、OLS 回归及拟合优度检验的核心构件,贯穿整个参数统计与计量经济学体系,也构成了机器学习的损失函数的基本形态。 1. 定义与直觉 给定观测值 y_1, y_2, , y_n ,记样本均值为 y = 1n

浏览 0 更新 2025-07-16

平方和 (Sum of Squares, SS) 是统计学中最基础的概念之一,指数据点与参照值(均值或拟合值)之差的平方之和。它是方差分析 (ANOVA)、OLS 回归及拟合优度检验的核心构件,贯穿整个参数统计与计量经济学体系,也构成了机器学习的损失函数的基本形态。

1. 定义与直觉

给定观测值 y1,y2,,yn y_1, y_2, \ldots, y_n ,记样本均值为 yˉ=1ni=1nyi \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i 。离差 yiyˉ y_i - \bar{y} 有正有负,其代数和恒为零,因此无法直接通过离差之和来度量离散程度。平方消除了符号,使正负偏离以几何(欧氏)距离的形式累积——这就是平方和的直觉:各观测点相对于参照点(均值或拟合值)的欧氏距离平方之和。方差 s2 s^2 正是平方和除以自由度 n1 n-1 ,故平方和可视为未标准化的变异总量,其大小既反映数据的离散程度,也受样本量的直接影响。

更一般地,平方和可视为 Rn \mathbb{R}^n 空间中向量 y \mathbf{y} 到某个子空间(如 1 \mathbf{1} 张成的直线或模型设计矩阵的列空间)的欧氏距离平方。这种几何视角为后续理解回归、ANOVA 与 R2 R^2 提供了统一框架:总平方和对应 y \mathbf{y} yˉ1 \bar{y}\mathbf{1} 的距离平方,回归平方和对应 y^ \hat{\mathbf{y}} yˉ1 \bar{y}\mathbf{1} 的距离平方,残差平方和对应 y \mathbf{y} y^ \hat{\mathbf{y}} 的距离平方。

2. 三种基本平方和

在线性回归 yi=β0+β1xi+εi y_i = \beta_0 + \beta_1 x_i + \varepsilon_i 中,平方和被分解为三类:

  • TSS (Total Sum of Squares, 总平方和)TSS=i=1n(yiyˉ)2 \text{TSS} = \sum_{i=1}^n (y_i - \bar{y})^2 ,度量因变量自身的总变异。
  • ESS (Explained Sum of Squares, 回归平方和)ESS=i=1n(y^iyˉ)2 \text{ESS} = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2 ,度量模型可解释的变异。
  • RSS (Residual Sum of Squares, 残差平方和)RSS=i=1n(yiy^i)2 \text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 ,度量模型未捕捉的变异。

> 注意:命名惯例在不同教材中差异较大。有些教材将 ESS 记为 SSR (Sum of Squares due to Regression),将 RSS 记为 SSE (Sum of Squares due to Error)。阅读文献时务必对照上下文核实符号约定。

核心恒等式:

TSS=ESS+RSS\text{TSS} = \text{ESS} + \text{RSS}

其几何意义是:总变异 = 模型可解释的变异 + 残差中无法解释的变异。该分解在 OLS 包含截距项时严格成立,其本质是勾股定理在高维空间中的推广——拟合值向量 y^ \hat{\mathbf{y}} 与残差向量 e \mathbf{e} 正交,因此 yyˉ2=y^yˉ2+yy^2 \|\mathbf{y} - \bar{\mathbf{y}}\|^2 = \|\hat{\mathbf{y}} - \bar{\mathbf{y}}\|^2 + \|\mathbf{y} - \hat{\mathbf{y}}\|^2 成立。

3. 在 OLS 回归中的角色

普通最小二乘法 (OLS) 的目标函数正是残差平方和的最小化:

minβ0,β1i=1n(yiβ0β1xi)2\min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2

一阶条件导出正规方程,解得:

β^1=(xixˉ)(yiyˉ)(xixˉ)2,β^0=yˉβ^1xˉ\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

由于 OLS 通过极小化 RSS 来估计系数,平方和的结构直接决定了参数估计的统计性质。在 Gauss–Markov 假设下,极小化 RSS 得到的估计量是 BLUE(最佳线性无偏估计量)。此外,RSS 是 s2=RSS/(nk1) s^2 = \text{RSS}/(n-k-1) 的分子,而 s2 s^2 又是系数方差-协方差矩阵的基本构件,直接影响 t t 统计量和置信区间的宽度。

4. 拟合优度 R2 R^2

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2[0,1] R^2 \in [0,1] ,度量了因变量变异中被自变量线性解释的比例。R2=0.85 R^2 = 0.85 意味着 85\% 的 y y 波动可由 x x 的线性函数刻画。但需要注意若干陷阱:

  • R2 R^2 随自变量个数增加而单调上升(至少不降),即使加入无关变量也是如此。因此模型比较不应单纯依赖 R2 R^2 ,应使用调整 R2 R^2 或信息准则如 AIC、BIC。
  • R2 R^2 高并不代表因果关系成立——可能仅是伪相关。例如,冰淇淋销量与溺水人数可能呈现高 R2 R^2 ,但背后是夏季温度这个混杂因子。
  • 在无截距回归中,传统的 R2 R^2 公式可能为负,因为 TSS=ESS+RSS \text{TSS} = \text{ESS} + \text{RSS} 等式不再成立,需要改用非中心 R2 R^2

5. ANOVA 与 F F 检验

平方和分解直接用于方差分析表。回归来源的平方和为 ESS,自由度为 k k ,均方为 MSR=ESS/k \text{MSR} = \text{ESS}/k 。残差来源的平方和为 RSS,自由度为 nk1 n-k-1 ,均方为 MSE=RSS/(nk1) \text{MSE} = \text{RSS}/(n-k-1) 。总平方和为 TSS,自由度为 n1 n-1 ,均方为 MST=TSS/(n1) \text{MST} = \text{TSS}/(n-1) F F 统计量为 MSR/MSE \text{MSR}/\text{MSE}

F F 统计量检验所有斜率系数是否联合为零。原假设 H0:β1=β2==βk=0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 。当 p p 值小于显著性水平时拒绝原假设,说明模型整体显著。从分解角度看,F F 越大说明 ESS 相对 RSS 越大,即模型解释力相对于残差越强。该检验的分布基础来自 Cochran 定理——在正态误差假设下,ESS 与 RSS 相互独立且分别服从 χ2 \chi^2 分布。

6. 关键性质

  1. 非负性:平方和始终 0 \geq 0 ,仅在所有观测值相等(或残差全为零)时取零。
  2. 样本量依赖性:平方和随 n n 增大而累积,跨数据集比较时应使用均方 (Mean Square) 或 R2 R^2 等标准化指标。
  3. 对异常值敏感:平方操作二次放大了远离中心的观测点的影响,使得离群值能够显著拉升平方和,进而扭曲 OLS 估计结果。这也是稳健回归(如 Huber 或 Tukey 双权函数)存在的动机之一。
  4. 可加性 (在有截距时)TSS=ESS+RSS \text{TSS} = \text{ESS} + \text{RSS} 仅在模型包含截距项时严格成立;无截距时该等式不再保证。
  5. 与自由度挂钩:平方和除以对应的自由度即得到均方,均方的期望在零假设下构成 F F 分布的基础。自由度的损失源于参数估计过程中消耗的信息量。
  6. Cochran 定理:在正态假设下,TSS、ESS 与 RSS 在适当条件下相互独立,且分别服从(非中心)χ2 \chi^2 分布。这是 F F 检验和 ANOVA 的理论支柱。

7. 扩展与变体

  • 加权平方和wi(yiy^i)2 \sum w_i (y_i - \hat{y}_i)^2 ,用于异方差校正(加权最小二乘 WLS)或处理不同观测的精确度差异。权重常设为方差的倒数 wi=1/σi2 w_i = 1/\sigma_i^2
  • 惩罚平方和:岭回归 (Ridge) 引入 L2 L_2 惩罚项 min(yiy^i)2+λβj2 \min \sum (y_i - \hat{y}_i)^2 + \lambda \sum \beta_j^2 ,以牺牲无偏性获取更低的预测方差。LASSO 则使用 L1 L_1 惩罚以达到变量选择的效果。
  • 矩阵形式RSS=ee=y(IP)y \text{RSS} = \mathbf{e}'\mathbf{e} = \mathbf{y}'(\mathbf{I} - \mathbf{P})\mathbf{y} ,其中 P=X(XX)1X \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 为投影矩阵(帽子矩阵)。该表示方便推广到多元回归、GLS 及广义线性模型。
  • 广义平方和:在非欧氏框架下,平方和可以推广到马氏距离或基于核函数的重构误差,用于支持向量机、主成分分析等更广泛的机器学习模型。

8. 总结

  • TSS ((yiyˉ)2 \sum (y_i - \bar{y})^2 ):回答"y y 自身有多分散?"
  • ESS ((y^iyˉ)2 \sum (\hat{y}_i - \bar{y})^2 ):回答"模型解释了多大比例的变异?"
  • RSS ((yiy^i)2 \sum (y_i - \hat{y}_i)^2 ):回答"还有多少未被模型捕捉?"
  • R2 R^2 (ESS / TSS):回答"拟合优度:解释能力有多强?"

平方和贯穿计量经济学的始终——从 OLS 估计到假设检验,从模型选择到方差分解,它是连接代数、几何与统计推断的桥梁。深刻理解平方和的分解及其在 OLS、ANOVA 和 F F 检验中的角色,也就掌握了回归分析的大半精髓。作为理论与实践的核心纽结,平方和体现了统计思维中"方差分解"这一极富洞察力的思想模式——将总量分解为可解释部分与不可解释部分,正是几乎所有统计模型的底层逻辑。