ARTICLE

残差平方和 (Sum of Squared Residuals, SSR)

残差平方和 (Sum of Squared Residuals, SSR) 残差平方和 (Sum of Squared Residuals, 简称 SSR),亦常记作 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors),是回归分析与方差分析中度量模型拟合偏差的核心统计量。它定义为所有观测值与

浏览 0 更新 2026-07-20

残差平方和 (Sum of Squared Residuals, SSR)

残差平方和 (Sum of Squared Residuals, 简称 SSR),亦常记作 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors),是回归分析方差分析中度量模型拟合偏差的核心统计量。它定义为所有观测值与其对应的模型拟合值之差的平方总和,量化了模型未能解释的数据变异。在线性回归框架中,残差平方和是普通最小二乘法 (OLS) 的直接最小化目标函数,也是构建模型诊断统计量与拟合优度指标的基础。

数学定义与表达式

考虑包含 nn 个观测值的数据集。设 yiy_i 为第 ii 个观测的因变量实际值,y^i\hat{y}_i 为回归模型给出的第 ii 个拟合(预测)值。则残差定义为:

ei=yiy^i,i=1,2,,ne_i = y_i - \hat{y}_i, \quad i = 1, 2, \ldots, n

需注意残差 eie_i误差项 ϵi\epsilon_i 的本质区别:误差项是理论模型中不可观测的随机扰动 ϵi=yixiβ\epsilon_i = y_i - \mathbf{x}_i'\boldsymbol{\beta},而残差是基于样本估计后计算的可观测量 ei=yixiβ^e_i = y_i - \mathbf{x}_i'\hat{\boldsymbol{\beta}}。残差可视为误差项的经验代理。

残差平方和即为所有残差的平方之和:

SSR=i=1nei2=i=1n(yiy^i)2\text{SSR} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

以矩阵记号表示,令 y\mathbf{y}n×1n \times 1 的因变量向量,y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} 为拟合值向量,则残差向量 e=yy^\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}},残差平方和为:

SSR=ee=(yXβ^)(yXβ^)\text{SSR} = \mathbf{e}'\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})

OLS估计中的核心角色

普通最小二乘法的原理是选择回归系数 β^\hat{\boldsymbol{\beta}} 使得残差平方和最小化:

β^OLS=argminβi=1n(yixiβ)2\hat{\boldsymbol{\beta}}_{\text{OLS}} = \underset{\boldsymbol{\beta}}{\arg\min} \sum_{i=1}^{n} (y_i - \mathbf{x}_i'\boldsymbol{\beta})^2

对目标函数求关于 β\boldsymbol{\beta} 的一阶导数并设为零,得到正规方程 (Normal Equations):

XXβ^=Xy\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y}

XX\mathbf{X}'\mathbf{X} 可逆的条件下,解得:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

此解使得 SSR 达到全局最小值。OLS 残差具有两个重要的代数性质:其一,残差之和为零,即 i=1nei=0\sum_{i=1}^{n} e_i = 0(当模型包含截距项时);其二,残差与所有解释变量的样本协方差为零,即 Xe=0\mathbf{X}'\mathbf{e} = \mathbf{0}。后者表明残差向量与设计矩阵 X\mathbf{X} 的列空间正交。

平方和分解:TSS = ESS + SSR

在包含截距项的线性回归模型中,因变量的总变异可由以下恒等式分解:

i=1n(yiyˉ)2TSS=i=1n(y^iyˉ)2ESS+i=1n(yiy^i)2SSR\underbrace{\sum_{i=1}^{n} (y_i - \bar{y})^2}_{\text{TSS}} = \underbrace{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}_{\text{ESS}} + \underbrace{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}_{\text{SSR}}

其中 TSS (Total Sum of Squares) 为总平方和,度量因变量围绕样本均值的总变异;ESS (Explained Sum of Squares) 为回归平方和,度量模型拟合值所捕捉的结构性变异;SSR 则为模型未能解释的剩余变异。这一正交分解的几何本质是:残差向量 e\mathbf{e} 与拟合值向量 y^yˉ1\hat{\mathbf{y}} - \bar{y}\mathbf{1} 正交,因而总变异的平方可加性成立。

该分解直接导出决定系数 R2R^2 的定义:

R2=ESSTSS=1SSRTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}}

SSR 越小,R2R^2 越接近 1,表明模型拟合越好。然而,SSR 随自变量的增加单调递减(或至少不增),故不能仅凭 SSR 的减小判断新增变量的边际贡献。

自由度与残差方差

残差平方和对应的自由度 (Degrees of Freedom) 为 nk1n - k - 1,其中 kk 为解释变量个数(不含截距),nn 为样本量。自由度的扣减源于 OLS 估计过程中施加了 k+1k+1 个线性约束(正规方程),使得残差向量的有效维度降低。基于此,残差方差的无偏估计量为:

σ^2=SSRnk1\hat{\sigma}^2 = \frac{\text{SSR}}{n - k - 1}

其平方根 σ^=σ^2\hat{\sigma} = \sqrt{\hat{\sigma}^2} 称为回归标准误 (Standard Error of the Regression, SER) 或均方根误差 (Root Mean Squared Error, RMSE),是衡量模型预测精度的重要指标——它表示因变量观测值围绕回归线的平均离散程度,单位与因变量一致。

SSR与高斯-马尔可夫定理

高斯-马尔可夫定理的经典假设下(误差项零均值、同方差且无自相关),OLS 估计量是最佳线性无偏估计量 (BLUE)。该性质等价于:在所有线性无偏估计量中,OLS 使残差平方和——从而残差方差——达到最小。因此,SSR 的最小化不仅是一种计算上的便利,更具有深刻的最优性理论基础。若进一步假设误差项服从正态分布,则 OLS 等价于最大似然估计 (MLE),SSR 的最小化等同于似然函数的最大化,对数似然函数可写为:

lnL=n2ln(2πσ2)SSR2σ2\ln L = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{\text{SSR}}{2\sigma^2}

SSR在假设检验中的运用

残差平方和在回归模型的统计推断中扮演关键角色。比较受约束模型无约束模型的 SSR 是多种假设检验的基础。

F检验。检验一组线性约束条件(如多个系数同时为零)时,F统计量构建如下:

F=(SSRRSSRU)/qSSRU/(nk1)F(q,nk1)F = \frac{(\text{SSR}_R - \text{SSR}_U) / q}{\text{SSR}_U / (n - k - 1)} \sim F(q, n - k - 1)

其中 SSRR\text{SSR}_RSSRU\text{SSR}_U 分别为受约束模型与无约束模型的残差平方和,qq 为约束条件的个数。在零假设(约束成立)下,该统计量服从F分布。若约束使 SSR 显著增大,则拒绝零假设。

模型比较赤池信息准则 (AIC) 与贝叶斯信息准则 (BIC) 均以 SSR 为基础构建:

AIC=nln(SSRn)+2(k+1)\text{AIC} = n \ln\left(\frac{\text{SSR}}{n}\right) + 2(k + 1)
BIC=nln(SSRn)+(k+1)lnn\text{BIC} = n \ln\left(\frac{\text{SSR}}{n}\right) + (k + 1) \ln n

这些准则在 SSR 降低(拟合改善)与参数个数增加(模型复杂度提高)之间进行权衡,用于模型选择

残差诊断与模型检验

残差平方和本身是整体度量,但对残差向量的逐项分析构成回归诊断的核心内容。常见的残差诊断方法包括:

  • 残差图 (Residual Plot):以拟合值 y^i\hat{y}_i 为横轴、残差 eie_i 为纵轴绘制散点图。若模型设定正确,残差应围绕零线随机散布,无系统性模式。漏斗形(异方差迹象)或弯曲(非线性迹象)均提示模型设定偏误。
  • Q-Q图 (Quantile-Quantile Plot):将标准化残差的分位数与标准正态的理论分位数对比,检验残差正态性假设。
  • 标准化残差ri=ei/(σ^1hii)r_i = e_i / (\hat{\sigma}\sqrt{1 - h_{ii}}),其中 hiih_{ii}杠杆值 (leverage)。标准化残差消除了量纲和方差的异质性,便于识别异常值
  • 学生化残差:将第 ii 个观测排除后重新估计模型得到的标准化残差,对异常值更加敏感。绝对值超过 2 或 3 的学生化残差通常需要仔细检查。
  • Cook距离 (Cook's Distance):综合衡量每个观测对全部拟合值的影响,将残差与杠杆值信息结合:Di=ei2(k+1)σ^2hii(1hii)2D_i = \frac{e_i^2}{(k+1)\hat{\sigma}^2} \cdot \frac{h_{ii}}{(1 - h_{ii})^2}。当 Di>4/nD_i > 4/n 时,对应观测可能为影响点

SSR的局限性

尽管 SSR 是回归分析的基础量,其应用需注意以下局限。第一,SSR 的绝对值依赖于数据的量纲和样本规模,不宜直接跨数据集比较;标准化指标(如 R2R^2 或 RMSE 的百分比形式)更为合适。第二,最小化 SSR(即 OLS)对异常值敏感,因为平方运算放大了大离差观测的影响——一个极端观测即可显著改变回归线的位置;此时稳健回归方法(如最小绝对离差估计 LAD 或 Huber M 估计)可能是更好的选择。第三,当样本量不大而参数较多时,样本内 SSR 可能严重低估样本外预测误差,应结合交叉验证 (Cross-Validation) 评估模型的泛化能力。第四,对于非独立数据(如时间序列、聚类样本或空间数据),OLS 残差可能呈现序列相关或聚类相关,此时需采用广义最小二乘法 (GLS) 或聚类稳健标准误进行校正。

小结

残差平方和是连接回归估计与统计推断的枢纽性概念。从 OLS 估计量的代数推导,到拟合优度指标 R2R^2 的分解,再到 F 检验与模型选择的准则构建,SSR 贯穿于计量经济学分析的始终。正确理解 SSR 的定义、性质及分布特征,是掌握回归分析理论体系的关键一步。