ARTICLE

平方和 (Sum of Squares, SS)

平方和 (Sum of Squares, SS) 是统计学中最基础的概念之一，指数据点与参照值（均值或拟合值）之差的平方之和。它是方差分析 (ANOVA)、OLS 回归及拟合优度检验的核心构件，贯穿整个参数统计与计量经济学体系，也构成了机器学习的损失函数的基本形态。 1. 定义与直觉给定观测值公式，记样本均值为公式。离差公式有正有负，其代数和恒

浏览 0 更新 2025-07-16

平方和 (Sum of Squares, SS) 是统计学中最基础的概念之一，指数据点与参照值（均值或拟合值）之差的平方之和。它是方差分析 (ANOVA)、OLS 回归及拟合优度检验的核心构件，贯穿整个参数统计与计量经济学体系，也构成了机器学习的损失函数的基本形态。

1. 定义与直觉

给定观测值 $y_1, y_2, \ldots, y_n$ ，记样本均值为 $\bar{y} = \frac{1}{n} \sum_{i=1}^n y_i$ 。离差 $y_i - \bar{y}$ 有正有负，其代数和恒为零，因此无法直接通过离差之和来度量离散程度。平方消除了符号，使正负偏离以几何（欧氏）距离的形式累积——这就是平方和的直觉：各观测点相对于参照点（均值或拟合值）的欧氏距离平方之和。方差 $s^2$ 正是平方和除以自由度 $n-1$ ，故平方和可视为未标准化的变异总量，其大小既反映数据的离散程度，也受样本量的直接影响。

更一般地，平方和可视为 $\mathbb{R}^n$ 空间中向量 $\mathbf{y}$ 到某个子空间（如 $\mathbf{1}$ 张成的直线或模型设计矩阵的列空间）的欧氏距离平方。这种几何视角为后续理解回归、ANOVA 与 $R^2$ 提供了统一框架：总平方和对应 $\mathbf{y}$ 到 $\bar{y}\mathbf{1}$ 的距离平方，回归平方和对应 $\hat{\mathbf{y}}$ 到 $\bar{y}\mathbf{1}$ 的距离平方，残差平方和对应 $\mathbf{y}$ 到 $\hat{\mathbf{y}}$ 的距离平方。

2. 三种基本平方和

在线性回归 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$ 中，平方和被分解为三类：

TSS (Total Sum of Squares, 总平方和)： $\text{TSS} = \sum_{i=1}^n (y_i - \bar{y})^2$ ，度量因变量自身的总变异。
ESS (Explained Sum of Squares, 回归平方和)： $\text{ESS} = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2$ ，度量模型可解释的变异。
RSS (Residual Sum of Squares, 残差平方和)： $\text{RSS} = \sum_{i=1}^n (y_i - \hat{y}_i)^2$ ，度量模型未捕捉的变异。

> 注意：命名惯例在不同教材中差异较大。有些教材将 ESS 记为 SSR (Sum of Squares due to Regression)，将 RSS 记为 SSE (Sum of Squares due to Error)。阅读文献时务必对照上下文核实符号约定。

核心恒等式：

\text{TSS} = \text{ESS} + \text{RSS}

其几何意义是：总变异 = 模型可解释的变异 + 残差中无法解释的变异。该分解在 OLS 包含截距项时严格成立，其本质是勾股定理在高维空间中的推广——拟合值向量 $\hat{\mathbf{y}}$ 与残差向量 $\mathbf{e}$ 正交，因此 $\|\mathbf{y} - \bar{\mathbf{y}}\|^2 = \|\hat{\mathbf{y}} - \bar{\mathbf{y}}\|^2 + \|\mathbf{y} - \hat{\mathbf{y}}\|^2$ 成立。

3. 在 OLS 回归中的角色

普通最小二乘法 (OLS) 的目标函数正是残差平方和的最小化：

\min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2

一阶条件导出正规方程，解得：

\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

由于 OLS 通过极小化 RSS 来估计系数，平方和的结构直接决定了参数估计的统计性质。在 Gauss–Markov 假设下，极小化 RSS 得到的估计量是 BLUE（最佳线性无偏估计量）。此外，RSS 是 $s^2 = \text{RSS}/(n-k-1)$ 的分子，而 $s^2$ 又是系数方差-协方差矩阵的基本构件，直接影响 $t$ 统计量和置信区间的宽度。

4. 拟合优度 $R^2$

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

$R^2 \in [0,1]$ ，度量了因变量变异中被自变量线性解释的比例。 $R^2 = 0.85$ 意味着 85\% 的 $y$ 波动可由 $x$ 的线性函数刻画。但需要注意若干陷阱：

$R^2$ 随自变量个数增加而单调上升（至少不降），即使加入无关变量也是如此。因此模型比较不应单纯依赖 $R^2$ ，应使用调整 $R^2$ 或信息准则如 AIC、BIC。
$R^2$ 高并不代表因果关系成立——可能仅是伪相关。例如，冰淇淋销量与溺水人数可能呈现高 $R^2$ ，但背后是夏季温度这个混杂因子。
在无截距回归中，传统的 $R^2$ 公式可能为负，因为 $\text{TSS} = \text{ESS} + \text{RSS}$ 等式不再成立，需要改用非中心 $R^2$ 。

5. ANOVA 与 $F$ 检验

平方和分解直接用于方差分析表。回归来源的平方和为 ESS，自由度为 $k$ ，均方为 $\text{MSR} = \text{ESS}/k$ 。残差来源的平方和为 RSS，自由度为 $n-k-1$ ，均方为 $\text{MSE} = \text{RSS}/(n-k-1)$ 。总平方和为 TSS，自由度为 $n-1$ ，均方为 $\text{MST} = \text{TSS}/(n-1)$ 。 $F$ 统计量为 $\text{MSR}/\text{MSE}$ 。

$F$ 统计量检验所有斜率系数是否联合为零。原假设 $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$ 。当 $p$ 值小于显著性水平时拒绝原假设，说明模型整体显著。从分解角度看， $F$ 越大说明 ESS 相对 RSS 越大，即模型解释力相对于残差越强。该检验的分布基础来自 Cochran 定理——在正态误差假设下，ESS 与 RSS 相互独立且分别服从 $\chi^2$ 分布。

6. 关键性质

非负性：平方和始终 $\geq 0$ ，仅在所有观测值相等（或残差全为零）时取零。
样本量依赖性：平方和随 $n$ 增大而累积，跨数据集比较时应使用均方 (Mean Square) 或 $R^2$ 等标准化指标。
对异常值敏感：平方操作二次放大了远离中心的观测点的影响，使得离群值能够显著拉升平方和，进而扭曲 OLS 估计结果。这也是稳健回归（如 Huber 或 Tukey 双权函数）存在的动机之一。
可加性 (在有截距时)： $\text{TSS} = \text{ESS} + \text{RSS}$ 仅在模型包含截距项时严格成立；无截距时该等式不再保证。
与自由度挂钩：平方和除以对应的自由度即得到均方，均方的期望在零假设下构成 $F$ 分布的基础。自由度的损失源于参数估计过程中消耗的信息量。
Cochran 定理：在正态假设下，TSS、ESS 与 RSS 在适当条件下相互独立，且分别服从（非中心） $\chi^2$ 分布。这是 $F$ 检验和 ANOVA 的理论支柱。

7. 扩展与变体

加权平方和： $\sum w_i (y_i - \hat{y}_i)^2$ ，用于异方差校正（加权最小二乘 WLS）或处理不同观测的精确度差异。权重常设为方差的倒数 $w_i = 1/\sigma_i^2$ 。
惩罚平方和：岭回归 (Ridge) 引入 $L_2$ 惩罚项 $\min \sum (y_i - \hat{y}_i)^2 + \lambda \sum \beta_j^2$ ，以牺牲无偏性获取更低的预测方差。LASSO 则使用 $L_1$ 惩罚以达到变量选择的效果。
矩阵形式： $\text{RSS} = \mathbf{e}'\mathbf{e} = \mathbf{y}'(\mathbf{I} - \mathbf{P})\mathbf{y}$ ，其中 $\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'$ 为投影矩阵（帽子矩阵）。该表示方便推广到多元回归、GLS 及广义线性模型。
广义平方和：在非欧氏框架下，平方和可以推广到马氏距离或基于核函数的重构误差，用于支持向量机、主成分分析等更广泛的机器学习模型。

8. 总结

TSS ( $\sum (y_i - \bar{y})^2$ )：回答" $y$ 自身有多分散？"
ESS ( $\sum (\hat{y}_i - \bar{y})^2$ )：回答"模型解释了多大比例的变异？"
RSS ( $\sum (y_i - \hat{y}_i)^2$ )：回答"还有多少未被模型捕捉？"
$R^2$ (ESS / TSS)：回答"拟合优度：解释能力有多强？"

平方和贯穿计量经济学的始终——从 OLS 估计到假设检验，从模型选择到方差分解，它是连接代数、几何与统计推断的桥梁。深刻理解平方和的分解及其在 OLS、ANOVA 和 $F$ 检验中的角色，也就掌握了回归分析的大半精髓。作为理论与实践的核心纽结，平方和体现了统计思维中"方差分解"这一极富洞察力的思想模式——将总量分解为可解释部分与不可解释部分，正是几乎所有统计模型的底层逻辑。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。