ARTICLE

RSS (Residual Sum of Squares)

RSS(残差平方和) 残差平方和(Residual Sum of Squares,简称 RSS),亦称为误差平方和(Sum of Squared Errors,SSE)或剩余平方和,是回归分析与统计建模中衡量模型拟合优度的核心统计量。它定义为观测值 y_i 与模型预测值 y_i 之差的平方和: 其中 e_i = y_i - y_i 为第 i 个观测的残差。R

浏览 0 更新 2026-05-25

RSS(残差平方和)

残差平方和(Residual Sum of Squares,简称 RSS),亦称为误差平方和(Sum of Squared Errors,SSE)或剩余平方和,是回归分析统计建模中衡量模型拟合优度的核心统计量。它定义为观测值 yiy_i 与模型预测值 y^i\hat{y}_i 之差的平方和:

RSS=i=1n(yiy^i)2=i=1nei2\text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

其中 ei=yiy^ie_i = y_i - \hat{y}_i 为第 ii 个观测的残差。RSS 量化了模型未能解释的那部分数据变异性——RSS 越小,表明预测值与真实观测值越贴近,模型的拟合效果越好。极端情况下,若 RSS 为零,则意味着模型完美拟合了所有数据点。

平方和分解定理

在经典线性回归模型中,总平方和(Total Sum of Squares,TSS)可分解为回归平方和(Explained Sum of Squares,ESS)与残差平方和(RSS)两部分。这一分解成立的前提是模型包含截距项且采用 OLS 估计,此时残差之和为零且残差与拟合值正交:

TSS=ESS+RSS\text{TSS} = \text{ESS} + \text{RSS}

其中 TSS=i=1n(yiyˉ)2\text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 度量因变量 yy 的总变异性,ESS=i=1n(y^iyˉ)2\text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 度量模型通过解释变量能够解释的那部分变异性。这一分解关系是方差分析(ANOVA)的基本依据,也是理解模型拟合效果的理论基础。

由此直接导出决定系数 R2R^2

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2R^2 的取值范围在 [0,1][0,1] 之间,值越大表示模型解释的变异性比例越高。若 R2=0.85R^2 = 0.85,则意味着模型解释了 85\% 的因变量变异,剩余 15\% 的变异归因于随机误差或未纳入模型的因素。

最小二乘法的优化目标

普通最小二乘法(Ordinary Least Squares,OLS)的核心思想正是最小化残差平方和。求解参数估计量 β^\hat{\beta} 的优化问题表述为:

β^=argminβi=1n(yixiβ)2\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2

该二次优化问题具有良好的数学性质——其一阶条件(正规方程)为线性方程组,解具有闭合形式:

β^=(XX)1Xy\hat{\beta} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

在高斯-马尔可夫定理的经典假定(线性性、严格外生性、球形误差)下,OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator,BLUE)。这意味着在所有线性无偏估计量中,OLS 具有最小方差。而 RSS 在此过程中不仅作为优化目标,还用于估计误差项的方差:

σ^2=RSSnk1\hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1}

该估计量是误差方差 σ2\sigma^2 的无偏估计量,其中分母 nk1n-k-1 为残差的自由度,即样本量减去待估参数个数。

RSS 与假设检验

RSS 在回归模型的假设检验中扮演着关键角色。在F检验中,用于检验回归方程整体显著性的 F 统计量定义为:

F=ESS/kRSS/(nk1)=(TSSRSS)/kRSS/(nk1)F = \frac{\text{ESS} / k}{\text{RSS} / (n - k - 1)} = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)}

该统计量服从 F(k,nk1)F(k, n-k-1) 分布。同样,对于嵌套模型的比较,可构造似然比检验约束F检验。设无约束模型的残差平方和为 RSSU\text{RSS}_U,约束模型(即在原假设下施加了若干线性约束后的模型)的残差平方和为 RSSR\text{RSS}_R,则检验统计量为:

F=(RSSRRSSU)/qRSSU/(nk1)F = \frac{(\text{RSS}_R - \text{RSS}_U) / q}{\text{RSS}_U / (n - k - 1)}

其中 qq 为约束条件的个数。若原假设成立,RSSR\text{RSS}_RRSSU\text{RSS}_U 应相差不大;若原假设不成立,则 RSSR\text{RSS}_R 显著大于 RSSU\text{RSS}_U

模型选择与信息准则

RSS 本身不适合直接用于模型选择,因为它随解释变量数量的增加而单调递减(即使加入完全不相关的变量,RSS 至少不会上升),这必然导致过拟合。为解决这一问题,基于 RSS 发展出了多种信息准则:

  • 赤池信息准则(AIC)AIC=nln(RSS/n)+2k\text{AIC} = n\ln(\text{RSS}/n) + 2k,在拟合优度与模型简洁性之间寻求平衡。
  • 贝叶斯信息准则(BIC)BIC=nln(RSS/n)+klnn\text{BIC} = n\ln(\text{RSS}/n) + k\ln n,对复杂模型的惩罚力度比 AIC 更大,倾向于选择更简约的模型。
  • Mallows' CpC_p 统计量:Cp=RSSpσ^2+2pnC_p = \frac{\text{RSS}_p}{\hat{\sigma}^2} + 2p - n,其中 pp 为子模型中参数数量,σ^2\hat{\sigma}^2 为全模型的误差方差估计。

这些准则均以 RSS 为基础,通过加入对参数数量的惩罚项来修正单纯最小化 RSS 所导致的过拟合倾向。在实际应用中,研究者通常在候选模型集合中逐一计算这些准则值,选择取值最小的模型作为最优模型。

加权最小二乘法中的 RSS

异方差性(heteroskedasticity)存在时,OLS 估计虽仍保持无偏性,但不再具有最小方差。加权最小二乘法(Weighted Least Squares,WLS)通过给每个观测值赋予不同的权重来修正这一问题,其目标函数为加权残差平方和

RSSw=i=1nwi(yixiβ)2\text{RSS}_w = \sum_{i=1}^{n} w_i (y_i - \mathbf{x}_i' \beta)^2

其中权重 wiw_i 通常取为 1/σi21/\sigma_i^2,即误差方差越大的观测被赋予越小的权重。这一方法有效降低了异方差对估计效率的影响,其思想也延伸至广义最小二乘法(GLS)。

在机器学习领域的推广

机器学习统计学习中,RSS 的基本形式被广泛用作损失函数目标函数的组成部分。岭回归(Ridge Regression)在 RSS 基础上加入 L2 正则化项 λj=1kβj2\lambda \sum_{j=1}^{k} \beta_j^2,其目标函数为:

minβ{i=1n(yixiβ)2+λj=1kβj2}\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2 + \lambda \sum_{j=1}^{k} \beta_j^2 \right\}

LASSO(Least Absolute Shrinkage and Selection Operator)则加入 L1 惩罚项 λj=1kβj\lambda \sum_{j=1}^{k} |\beta_j|,兼具变量选择功能:

minβ{i=1n(yixiβ)2+λj=1kβj}\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2 + \lambda \sum_{j=1}^{k} |\beta_j| \right\}

这些正则化方法在最小化 RSS 与约束系数大小之间寻求平衡,以降低模型的方差、增强泛化能力。近年来,弹性网(Elastic Net)进一步结合了 L1 和 L2 惩罚。这些方法统称为正则化方法,在变量个数远多于样本量的高维场景(即 pnp \gg n 问题)中尤为有效。

局限性分析

RSS 存在若干不可忽视的局限性。首先,它对异常值极为敏感——由于残差被平方放大,单个极端观测值可能主导 RSS 的值,从而显著扭曲回归系数的估计结果。例如,一个偏离回归线 10 个单位的观测值,其残差平方为 100,相当于 100 个偏离 1 个单位的观测值的贡献之和。因此,在使用 OLS 之前进行异常值检测稳健回归分析是重要的诊断步骤。其次,RSS 高度依赖量纲:因变量单位改变(如从元改为万元)时 RSS 成比例变化,因此其绝对值在不同数据集或不同模型之间缺乏直接可比性。标准化的做法是使用决定系数 R2R^2均方误差(MSE)或均方根误差(RMSE)等无量纲或标度化的度量。此外,RSS 仅衡量样本内拟合效果,不能直接反映模型的样本外预测能力。一个在训练集上 RSS 很小的模型可能在测试集上表现糟糕——这便是过拟合(overfitting)的典型表现。因此,现代统计学习中广泛采用交叉验证(cross-validation)来评估模型的泛化误差,而非依赖样本内的 RSS。

数值示例

考虑一个简单线性回归模型 y=β0+β1x+ϵy = \beta_0 + \beta_1 x + \epsilon。设观测数据如下:

yiy^iei=yiy^i3.02.80.25.04.90.17.07.30.39.09.10.111.010.90.1\begin{array}{c|c|c} y_i & \hat{y}_i & e_i = y_i - \hat{y}_i \\ \hline 3.0 & 2.8 & 0.2 \\ 5.0 & 4.9 & 0.1 \\ 7.0 & 7.3 & -0.3 \\ 9.0 & 9.1 & -0.1 \\ 11.0 & 10.9 & 0.1 \\ \end{array}

计算各残差的平方:

RSS=0.22+0.12+(0.3)2+(0.1)2+0.12=0.04+0.01+0.09+0.01+0.01=0.16\text{RSS} = 0.2^2 + 0.1^2 + (-0.3)^2 + (-0.1)^2 + 0.1^2 = 0.04 + 0.01 + 0.09 + 0.01 + 0.01 = 0.16

该 RSS 值较小,表明线性模型对这组数据的预测效果良好。进一步地,若 yˉ=7.0\bar{y} = 7.0,则 TSS=(yi7)2=40\text{TSS} = \sum (y_i - 7)^2 = 40,可算得 R2=10.16/40=0.996R^2 = 1 - 0.16/40 = 0.996,即模型解释了 99.6\% 的总变异。

总结

RSS 作为回归分析中最基础且最重要的统计量之一,贯穿于参数估计、模型诊断、假设检验与模型选择等各个环节。它既是 OLS 估计的直接优化目标,也是构建 R2R^2、调整 R2R^2、AIC、BIC、Mallows' CpC_p 等众多模型评估指标的基础。深刻理解 RSS 及其在总变异分解中的角色,是掌握现代计量经济学和统计学习理论不可或缺的前提。RSS 作为连接理论推导与实际数据分析的桥梁,无论对于学术研究还是工业应用都具有基础性的重要意义。