ARTICLE

残差平方和 (Sum of Squared Residuals, SSR)

残差平方和 (Sum of Squared Residuals, SSR) 残差平方和 (Sum of Squared Residuals, 简称 SSR)，亦常记作 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors)，是回归分析与方差分析中度量模型拟合偏差的核心统计量。它定义为所有观测值与

浏览 0 更新 2026-07-20

残差平方和 (Sum of Squared Residuals, SSR)

残差平方和 (Sum of Squared Residuals, 简称 SSR)，亦常记作 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors)，是回归分析与方差分析中度量模型拟合偏差的核心统计量。它定义为所有观测值与其对应的模型拟合值之差的平方总和，量化了模型未能解释的数据变异。在线性回归框架中，残差平方和是普通最小二乘法 (OLS) 的直接最小化目标函数，也是构建模型诊断统计量与拟合优度指标的基础。

数学定义与表达式

考虑包含 $n$ 个观测值的数据集。设 $y_i$ 为第 $i$ 个观测的因变量实际值， $\hat{y}_i$ 为回归模型给出的第 $i$ 个拟合（预测）值。则残差定义为：

e_i = y_i - \hat{y}_i, \quad i = 1, 2, \ldots, n

需注意残差 $e_i$ 与误差项 $\epsilon_i$ 的本质区别：误差项是理论模型中不可观测的随机扰动 $\epsilon_i = y_i - \mathbf{x}_i'\boldsymbol{\beta}$ ，而残差是基于样本估计后计算的可观测量 $e_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}$ 。残差可视为误差项的经验代理。

残差平方和即为所有残差的平方之和：

\text{SSR} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

以矩阵记号表示，令 $\mathbf{y}$ 为 $n \times 1$ 的因变量向量， $\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}$ 为拟合值向量，则残差向量 $\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}$ ，残差平方和为：

\text{SSR} = \mathbf{e}'\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})

OLS估计中的核心角色

普通最小二乘法的原理是选择回归系数 $\hat{\boldsymbol{\beta}}$ 使得残差平方和最小化：

\hat{\boldsymbol{\beta}}_{\text{OLS}} = \underset{\boldsymbol{\beta}}{\arg\min} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2

对目标函数求关于 $\boldsymbol{\beta}$ 的一阶导数并设为零，得到正规方程 (Normal Equations)：

\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y}

在 $\mathbf{X}'\mathbf{X}$ 可逆的条件下，解得：

\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

此解使得 SSR 达到全局最小值。OLS 残差具有两个重要的代数性质：其一，残差之和为零，即 $\sum_{i=1}^{n} e_i = 0$ （当模型包含截距项时）；其二，残差与所有解释变量的样本协方差为零，即 $\mathbf{X}'\mathbf{e} = \mathbf{0}$ 。后者表明残差向量与设计矩阵 $\mathbf{X}$ 的列空间正交。

平方和分解：TSS = ESS + SSR

在包含截距项的线性回归模型中，因变量的总变异可由以下恒等式分解：

\underbrace{\sum_{i=1}^{n} (y_i - \bar{y})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}_{\text{SSR}}

其中 TSS (Total Sum of Squares) 为总平方和，度量因变量围绕样本均值的总变异；ESS (Explained Sum of Squares) 为回归平方和，度量模型拟合值所捕捉的结构性变异；SSR 则为模型未能解释的剩余变异。这一正交分解的几何本质是：残差向量 $\mathbf{e}$ 与拟合值向量 $\hat{\mathbf{y}} - \bar{y}\mathbf{1}$ 正交，因而总变异的平方可加性成立。

该分解直接导出决定系数 $R^2$ 的定义：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}}

SSR 越小， $R^2$ 越接近 1，表明模型拟合越好。然而，SSR 随自变量的增加单调递减（或至少不增），故不能仅凭 SSR 的减小判断新增变量的边际贡献。

自由度与残差方差

残差平方和对应的自由度 (Degrees of Freedom) 为 $n - k - 1$ ，其中 $k$ 为解释变量个数（不含截距）， $n$ 为样本量。自由度的扣减源于 OLS 估计过程中施加了 $k+1$ 个线性约束（正规方程），使得残差向量的有效维度降低。基于此，残差方差的无偏估计量为：

\hat{\sigma}^2 = \frac{\text{SSR}}{n - k - 1}

其平方根 $\hat{\sigma} = \sqrt{\hat{\sigma}^2}$ 称为回归标准误 (Standard Error of the Regression, SER) 或均方根误差 (Root Mean Squared Error, RMSE)，是衡量模型预测精度的重要指标——它表示因变量观测值围绕回归线的平均离散程度，单位与因变量一致。

SSR与高斯-马尔可夫定理

在高斯-马尔可夫定理的经典假设下（误差项零均值、同方差且无自相关），OLS 估计量是最佳线性无偏估计量 (BLUE)。该性质等价于：在所有线性无偏估计量中，OLS 使残差平方和——从而残差方差——达到最小。因此，SSR 的最小化不仅是一种计算上的便利，更具有深刻的最优性理论基础。若进一步假设误差项服从正态分布，则 OLS 等价于最大似然估计 (MLE)，SSR 的最小化等同于似然函数的最大化，对数似然函数可写为：

\ln L = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{\text{SSR}}{2\sigma^2}

SSR在假设检验中的运用

残差平方和在回归模型的统计推断中扮演关键角色。比较受约束模型与无约束模型的 SSR 是多种假设检验的基础。

F检验。检验一组线性约束条件（如多个系数同时为零）时，F统计量构建如下：

F = \frac{(\text{SSR}_R - \text{SSR}_U) / q}{\text{SSR}_U / (n - k - 1)} \sim F(q, n - k - 1)

其中 $\text{SSR}_R$ 与 $\text{SSR}_U$ 分别为受约束模型与无约束模型的残差平方和， $q$ 为约束条件的个数。在零假设（约束成立）下，该统计量服从F分布。若约束使 SSR 显著增大，则拒绝零假设。

模型比较。赤池信息准则 (AIC) 与贝叶斯信息准则 (BIC) 均以 SSR 为基础构建：

\text{AIC} = n \ln\left(\frac{\text{SSR}}{n}\right) + 2(k + 1)

\text{BIC} = n \ln\left(\frac{\text{SSR}}{n}\right) + (k + 1) \ln n

这些准则在 SSR 降低（拟合改善）与参数个数增加（模型复杂度提高）之间进行权衡，用于模型选择。

残差诊断与模型检验

残差平方和本身是整体度量，但对残差向量的逐项分析构成回归诊断的核心内容。常见的残差诊断方法包括：

残差图 (Residual Plot)：以拟合值 $\hat{y}_i$ 为横轴、残差 $e_i$ 为纵轴绘制散点图。若模型设定正确，残差应围绕零线随机散布，无系统性模式。漏斗形（异方差迹象）或弯曲（非线性迹象）均提示模型设定偏误。
Q-Q图 (Quantile-Quantile Plot)：将标准化残差的分位数与标准正态的理论分位数对比，检验残差正态性假设。
标准化残差： $r_i = e_i / (\hat{\sigma}\sqrt{1 - h_{ii}})$ ，其中 $h_{ii}$ 为杠杆值 (leverage)。标准化残差消除了量纲和方差的异质性，便于识别异常值。
学生化残差：将第 $i$ 个观测排除后重新估计模型得到的标准化残差，对异常值更加敏感。绝对值超过 2 或 3 的学生化残差通常需要仔细检查。
Cook距离 (Cook's Distance)：综合衡量每个观测对全部拟合值的影响，将残差与杠杆值信息结合： $D_i = \frac{e_i^2}{(k+1)\hat{\sigma}^2} \cdot \frac{h_{ii}}{(1 - h_{ii})^2}$ 。当 $D_i > 4/n$ 时，对应观测可能为影响点。

SSR的局限性

尽管 SSR 是回归分析的基础量，其应用需注意以下局限。第一，SSR 的绝对值依赖于数据的量纲和样本规模，不宜直接跨数据集比较；标准化指标（如 $R^2$ 或 RMSE 的百分比形式）更为合适。第二，最小化 SSR（即 OLS）对异常值敏感，因为平方运算放大了大离差观测的影响——一个极端观测即可显著改变回归线的位置；此时稳健回归方法（如最小绝对离差估计 LAD 或 Huber M 估计）可能是更好的选择。第三，当样本量不大而参数较多时，样本内 SSR 可能严重低估样本外预测误差，应结合交叉验证 (Cross-Validation) 评估模型的泛化能力。第四，对于非独立数据（如时间序列、聚类样本或空间数据），OLS 残差可能呈现序列相关或聚类相关，此时需采用广义最小二乘法 (GLS) 或聚类稳健标准误进行校正。

小结

残差平方和是连接回归估计与统计推断的枢纽性概念。从 OLS 估计量的代数推导，到拟合优度指标 $R^2$ 的分解，再到 F 检验与模型选择的准则构建，SSR 贯穿于计量经济学分析的始终。正确理解 SSR 的定义、性质及分布特征，是掌握回归分析理论体系的关键一步。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。