ARTICLE

RSS (Residual Sum of Squares)

RSS（残差平方和）残差平方和（Residual Sum of Squares，简称 RSS），亦称为误差平方和（Sum of Squared Errors，SSE）或剩余平方和，是回归分析与统计建模中衡量模型拟合优度的核心统计量。它定义为观测值 y_i 与模型预测值 y_i 之差的平方和：其中 e_i = y_i - y_i 为第 i 个观测的残差。R

浏览 0 更新 2026-05-25

RSS（残差平方和）

残差平方和（Residual Sum of Squares，简称 RSS），亦称为误差平方和（Sum of Squared Errors，SSE）或剩余平方和，是回归分析与统计建模中衡量模型拟合优度的核心统计量。它定义为观测值 $y_i$ 与模型预测值 $\hat{y}_i$ 之差的平方和：

\text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} e_i^2

其中 $e_i = y_i - \hat{y}_i$ 为第 $i$ 个观测的残差。RSS 量化了模型未能解释的那部分数据变异性——RSS 越小，表明预测值与真实观测值越贴近，模型的拟合效果越好。极端情况下，若 RSS 为零，则意味着模型完美拟合了所有数据点。

平方和分解定理

在经典线性回归模型中，总平方和（Total Sum of Squares，TSS）可分解为回归平方和（Explained Sum of Squares，ESS）与残差平方和（RSS）两部分。这一分解成立的前提是模型包含截距项且采用 OLS 估计，此时残差之和为零且残差与拟合值正交：

\text{TSS} = \text{ESS} + \text{RSS}

其中 $\text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2$ 度量因变量 $y$ 的总变异性， $\text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2$ 度量模型通过解释变量能够解释的那部分变异性。这一分解关系是方差分析（ANOVA）的基本依据，也是理解模型拟合效果的理论基础。

由此直接导出决定系数 $R^2$ ：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

$R^2$ 的取值范围在 $[0,1]$ 之间，值越大表示模型解释的变异性比例越高。若 $R^2 = 0.85$ ，则意味着模型解释了 85\% 的因变量变异，剩余 15\% 的变异归因于随机误差或未纳入模型的因素。

最小二乘法的优化目标

普通最小二乘法（Ordinary Least Squares，OLS）的核心思想正是最小化残差平方和。求解参数估计量 $\hat{\beta}$ 的优化问题表述为：

\hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2

该二次优化问题具有良好的数学性质——其一阶条件（正规方程）为线性方程组，解具有闭合形式：

\hat{\beta} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

在高斯－马尔可夫定理的经典假定（线性性、严格外生性、球形误差）下，OLS 估计量是最佳线性无偏估计量（Best Linear Unbiased Estimator，BLUE）。这意味着在所有线性无偏估计量中，OLS 具有最小方差。而 RSS 在此过程中不仅作为优化目标，还用于估计误差项的方差：

\hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1}

该估计量是误差方差 $\sigma^2$ 的无偏估计量，其中分母 $n-k-1$ 为残差的自由度，即样本量减去待估参数个数。

RSS 与假设检验

RSS 在回归模型的假设检验中扮演着关键角色。在F检验中，用于检验回归方程整体显著性的 F 统计量定义为：

F = \frac{\text{ESS} / k}{\text{RSS} / (n - k - 1)} = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)}

该统计量服从 $F(k, n-k-1)$ 分布。同样，对于嵌套模型的比较，可构造似然比检验或约束F检验。设无约束模型的残差平方和为 $\text{RSS}_U$ ，约束模型（即在原假设下施加了若干线性约束后的模型）的残差平方和为 $\text{RSS}_R$ ，则检验统计量为：

F = \frac{(\text{RSS}_R - \text{RSS}_U) / q}{\text{RSS}_U / (n - k - 1)}

其中 $q$ 为约束条件的个数。若原假设成立， $\text{RSS}_R$ 与 $\text{RSS}_U$ 应相差不大；若原假设不成立，则 $\text{RSS}_R$ 显著大于 $\text{RSS}_U$ 。

模型选择与信息准则

RSS 本身不适合直接用于模型选择，因为它随解释变量数量的增加而单调递减（即使加入完全不相关的变量，RSS 至少不会上升），这必然导致过拟合。为解决这一问题，基于 RSS 发展出了多种信息准则：

赤池信息准则（AIC）： $\text{AIC} = n\ln(\text{RSS}/n) + 2k$ ，在拟合优度与模型简洁性之间寻求平衡。
贝叶斯信息准则（BIC）： $\text{BIC} = n\ln(\text{RSS}/n) + k\ln n$ ，对复杂模型的惩罚力度比 AIC 更大，倾向于选择更简约的模型。
Mallows' $C_p$ 统计量： $C_p = \frac{\text{RSS}_p}{\hat{\sigma}^2} + 2p - n$ ，其中 $p$ 为子模型中参数数量， $\hat{\sigma}^2$ 为全模型的误差方差估计。

这些准则均以 RSS 为基础，通过加入对参数数量的惩罚项来修正单纯最小化 RSS 所导致的过拟合倾向。在实际应用中，研究者通常在候选模型集合中逐一计算这些准则值，选择取值最小的模型作为最优模型。

加权最小二乘法中的 RSS

当异方差性（heteroskedasticity）存在时，OLS 估计虽仍保持无偏性，但不再具有最小方差。加权最小二乘法（Weighted Least Squares，WLS）通过给每个观测值赋予不同的权重来修正这一问题，其目标函数为加权残差平方和：

\text{RSS}_w = \sum_{i=1}^{n} w_i (y_i - \mathbf{x}_i' \beta)^2

其中权重 $w_i$ 通常取为 $1/\sigma_i^2$ ，即误差方差越大的观测被赋予越小的权重。这一方法有效降低了异方差对估计效率的影响，其思想也延伸至广义最小二乘法（GLS）。

在机器学习领域的推广

在机器学习与统计学习中，RSS 的基本形式被广泛用作损失函数或目标函数的组成部分。岭回归（Ridge Regression）在 RSS 基础上加入 L2 正则化项 $\lambda \sum_{j=1}^{k} \beta_j^2$ ，其目标函数为：

\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2 + \lambda \sum_{j=1}^{k} \beta_j^2 \right\}

LASSO（Least Absolute Shrinkage and Selection Operator）则加入 L1 惩罚项 $\lambda \sum_{j=1}^{k} |\beta_j|$ ，兼具变量选择功能：

\min_{\beta} \left\{ \sum_{i=1}^{n} (y_i - \mathbf{x}_i' \beta)^2 + \lambda \sum_{j=1}^{k} |\beta_j| \right\}

这些正则化方法在最小化 RSS 与约束系数大小之间寻求平衡，以降低模型的方差、增强泛化能力。近年来，弹性网（Elastic Net）进一步结合了 L1 和 L2 惩罚。这些方法统称为正则化方法，在变量个数远多于样本量的高维场景（即 $p \gg n$ 问题）中尤为有效。

局限性分析

RSS 存在若干不可忽视的局限性。首先，它对异常值极为敏感——由于残差被平方放大，单个极端观测值可能主导 RSS 的值，从而显著扭曲回归系数的估计结果。例如，一个偏离回归线 10 个单位的观测值，其残差平方为 100，相当于 100 个偏离 1 个单位的观测值的贡献之和。因此，在使用 OLS 之前进行异常值检测和稳健回归分析是重要的诊断步骤。其次，RSS 高度依赖量纲：因变量单位改变（如从元改为万元）时 RSS 成比例变化，因此其绝对值在不同数据集或不同模型之间缺乏直接可比性。标准化的做法是使用决定系数 $R^2$ 、均方误差（MSE）或均方根误差（RMSE）等无量纲或标度化的度量。此外，RSS 仅衡量样本内拟合效果，不能直接反映模型的样本外预测能力。一个在训练集上 RSS 很小的模型可能在测试集上表现糟糕——这便是过拟合（overfitting）的典型表现。因此，现代统计学习中广泛采用交叉验证（cross-validation）来评估模型的泛化误差，而非依赖样本内的 RSS。

数值示例

考虑一个简单线性回归模型 $y = \beta_0 + \beta_1 x + \epsilon$ 。设观测数据如下：

\begin{array}{c|c|c} y_i & \hat{y}_i & e_i = y_i - \hat{y}_i \\ \hline 3.0 & 2.8 & 0.2 \\ 5.0 & 4.9 & 0.1 \\ 7.0 & 7.3 & -0.3 \\ 9.0 & 9.1 & -0.1 \\ 11.0 & 10.9 & 0.1 \\ \end{array}

计算各残差的平方：

\text{RSS} = 0.2^2 + 0.1^2 + (-0.3)^2 + (-0.1)^2 + 0.1^2 = 0.04 + 0.01 + 0.09 + 0.01 + 0.01 = 0.16

该 RSS 值较小，表明线性模型对这组数据的预测效果良好。进一步地，若 $\bar{y} = 7.0$ ，则 $\text{TSS} = \sum (y_i - 7)^2 = 40$ ，可算得 $R^2 = 1 - 0.16/40 = 0.996$ ，即模型解释了 99.6\% 的总变异。

总结

RSS 作为回归分析中最基础且最重要的统计量之一，贯穿于参数估计、模型诊断、假设检验与模型选择等各个环节。它既是 OLS 估计的直接优化目标，也是构建 $R^2$ 、调整 $R^2$ 、AIC、BIC、Mallows' $C_p$ 等众多模型评估指标的基础。深刻理解 RSS 及其在总变异分解中的角色，是掌握现代计量经济学和统计学习理论不可或缺的前提。RSS 作为连接理论推导与实际数据分析的桥梁，无论对于学术研究还是工业应用都具有基础性的重要意义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。