平方和 (Sum of Squares, SS) 是统计学中最基础的概念之一,指数据点与参照值(均值或拟合值)之差的平方之和。它是方差分析 (ANOVA)、OLS 回归及拟合优度检验的核心构件,贯穿整个参数统计与计量经济学体系,也构成了机器学习的损失函数的基本形态。
1. 定义与直觉
给定观测值 y1,y2,…,yn,记样本均值为 yˉ=n1∑i=1nyi。离差 yi−yˉ 有正有负,其代数和恒为零,因此无法直接通过离差之和来度量离散程度。平方消除了符号,使正负偏离以几何(欧氏)距离的形式累积——这就是平方和的直觉:各观测点相对于参照点(均值或拟合值)的欧氏距离平方之和。方差 s2 正是平方和除以自由度 n−1,故平方和可视为未标准化的变异总量,其大小既反映数据的离散程度,也受样本量的直接影响。
更一般地,平方和可视为 Rn 空间中向量 y 到某个子空间(如 1 张成的直线或模型设计矩阵的列空间)的欧氏距离平方。这种几何视角为后续理解回归、ANOVA 与 R2 提供了统一框架:总平方和对应 y 到 yˉ1 的距离平方,回归平方和对应 y^ 到 yˉ1 的距离平方,残差平方和对应 y 到 y^ 的距离平方。
2. 三种基本平方和
在线性回归 yi=β0+β1xi+εi 中,平方和被分解为三类:
- TSS (Total Sum of Squares, 总平方和):TSS=∑i=1n(yi−yˉ)2,度量因变量自身的总变异。
- ESS (Explained Sum of Squares, 回归平方和):ESS=∑i=1n(y^i−yˉ)2,度量模型可解释的变异。
- RSS (Residual Sum of Squares, 残差平方和):RSS=∑i=1n(yi−y^i)2,度量模型未捕捉的变异。
> 注意:命名惯例在不同教材中差异较大。有些教材将 ESS 记为 SSR (Sum of Squares due to Regression),将 RSS 记为 SSE (Sum of Squares due to Error)。阅读文献时务必对照上下文核实符号约定。
核心恒等式:
TSS=ESS+RSS
其几何意义是:总变异 = 模型可解释的变异 + 残差中无法解释的变异。该分解在 OLS 包含截距项时严格成立,其本质是勾股定理在高维空间中的推广——拟合值向量 y^ 与残差向量 e 正交,因此 ∥y−yˉ∥2=∥y^−yˉ∥2+∥y−y^∥2 成立。
3. 在 OLS 回归中的角色
普通最小二乘法 (OLS) 的目标函数正是残差平方和的最小化:
β0,β1mini=1∑n(yi−β0−β1xi)2
一阶条件导出正规方程,解得:
β^1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ),β^0=yˉ−β^1xˉ
由于 OLS 通过极小化 RSS 来估计系数,平方和的结构直接决定了参数估计的统计性质。在 Gauss–Markov 假设下,极小化 RSS 得到的估计量是 BLUE(最佳线性无偏估计量)。此外,RSS 是 s2=RSS/(n−k−1) 的分子,而 s2 又是系数方差-协方差矩阵的基本构件,直接影响 t 统计量和置信区间的宽度。
4. 拟合优度 R2
R2=TSSESS=1−TSSRSS
R2∈[0,1],度量了因变量变异中被自变量线性解释的比例。R2=0.85 意味着 85\% 的 y 波动可由 x 的线性函数刻画。但需要注意若干陷阱:
- R2 随自变量个数增加而单调上升(至少不降),即使加入无关变量也是如此。因此模型比较不应单纯依赖 R2,应使用调整 R2 或信息准则如 AIC、BIC。
- R2 高并不代表因果关系成立——可能仅是伪相关。例如,冰淇淋销量与溺水人数可能呈现高 R2,但背后是夏季温度这个混杂因子。
- 在无截距回归中,传统的 R2 公式可能为负,因为 TSS=ESS+RSS 等式不再成立,需要改用非中心 R2。
5. ANOVA 与 F 检验
平方和分解直接用于方差分析表。回归来源的平方和为 ESS,自由度为 k,均方为 MSR=ESS/k。残差来源的平方和为 RSS,自由度为 n−k−1,均方为 MSE=RSS/(n−k−1)。总平方和为 TSS,自由度为 n−1,均方为 MST=TSS/(n−1)。F 统计量为 MSR/MSE。
F 统计量检验所有斜率系数是否联合为零。原假设 H0:β1=β2=⋯=βk=0。当 p 值小于显著性水平时拒绝原假设,说明模型整体显著。从分解角度看,F 越大说明 ESS 相对 RSS 越大,即模型解释力相对于残差越强。该检验的分布基础来自 Cochran 定理——在正态误差假设下,ESS 与 RSS 相互独立且分别服从 χ2 分布。
6. 关键性质
- 非负性:平方和始终 ≥0,仅在所有观测值相等(或残差全为零)时取零。
- 样本量依赖性:平方和随 n 增大而累积,跨数据集比较时应使用均方 (Mean Square) 或 R2 等标准化指标。
- 对异常值敏感:平方操作二次放大了远离中心的观测点的影响,使得离群值能够显著拉升平方和,进而扭曲 OLS 估计结果。这也是稳健回归(如 Huber 或 Tukey 双权函数)存在的动机之一。
- 可加性 (在有截距时):TSS=ESS+RSS 仅在模型包含截距项时严格成立;无截距时该等式不再保证。
- 与自由度挂钩:平方和除以对应的自由度即得到均方,均方的期望在零假设下构成 F 分布的基础。自由度的损失源于参数估计过程中消耗的信息量。
- Cochran 定理:在正态假设下,TSS、ESS 与 RSS 在适当条件下相互独立,且分别服从(非中心)χ2 分布。这是 F 检验和 ANOVA 的理论支柱。
7. 扩展与变体
- 加权平方和:∑wi(yi−y^i)2,用于异方差校正(加权最小二乘 WLS)或处理不同观测的精确度差异。权重常设为方差的倒数 wi=1/σi2。
- 惩罚平方和:岭回归 (Ridge) 引入 L2 惩罚项 min∑(yi−y^i)2+λ∑βj2,以牺牲无偏性获取更低的预测方差。LASSO 则使用 L1 惩罚以达到变量选择的效果。
- 矩阵形式:RSS=e′e=y′(I−P)y,其中 P=X(X′X)−1X′ 为投影矩阵(帽子矩阵)。该表示方便推广到多元回归、GLS 及广义线性模型。
- 广义平方和:在非欧氏框架下,平方和可以推广到马氏距离或基于核函数的重构误差,用于支持向量机、主成分分析等更广泛的机器学习模型。
8. 总结
- TSS (∑(yi−yˉ)2):回答"y 自身有多分散?"
- ESS (∑(y^i−yˉ)2):回答"模型解释了多大比例的变异?"
- RSS (∑(yi−y^i)2):回答"还有多少未被模型捕捉?"
- R2 (ESS / TSS):回答"拟合优度:解释能力有多强?"
平方和贯穿计量经济学的始终——从 OLS 估计到假设检验,从模型选择到方差分解,它是连接代数、几何与统计推断的桥梁。深刻理解平方和的分解及其在 OLS、ANOVA 和 F 检验中的角色,也就掌握了回归分析的大半精髓。作为理论与实践的核心纽结,平方和体现了统计思维中"方差分解"这一极富洞察力的思想模式——将总量分解为可解释部分与不可解释部分,正是几乎所有统计模型的底层逻辑。