词条：RSS_(Residual_Sum_of_Squares) · 卓越的经济金融统计考研辅导

# 残差平方和 (Residual Sum of Squares, RSS)

残差平方和 (Residual Sum of Squares, RSS)，也常被称为 误差平方和 (Sum of Squared Errors, SSE) 或 残差的二次方和，是{{{统计学}}}和{{{计量经济学}}}中，尤其是在{{{回归分析}}}领域，一个至关重要的概念。它用于衡量一个{{{统计模型}}}对其所拟合的{{{样本数据}}}的拟合优度。具体来说，RSS是在给定模型下，所有观测值的实际值与模型预测值之差（即{{{残差}}}) 的平方总和。

RSS的核心思想是量化模型的“错误”程度。一个模型的RSS值越小，代表该模型对数据的拟管状更优，其预测值与实际观测值的偏离程度越小。

## 数学定义

在数学上，残差平方和的定义非常直观。假设我们有一个包含 $n$ 个观测值的数据集。对于第 $i$ 个观测值：

* $y_i$ 表示因变量的实际观测值。 * $\hat{y}_i$ 表示通过我们的统计模型对第 $i$ 个观测值得出的预测值或拟合值。

那么，第 $i$ 个观测值的 {{{残差}}} (residual) $e_i$ 定义为： $$ e_i = y_i - \hat{y}_i $$ 这个残差代表了模型在第 $i$ 个数据点上的预测误差。

残差平方和 (RSS) 就是所有这些残差的平方之和： $$ \text{RSS} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

例如，在一个简单的{{{线性回归模型}}}中，模型形式为 $y = \beta_0 + \beta_1 x + \epsilon$。我们使用数据估计出参数 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 后，对于每一个 $x_i$，其预测值就是： $$ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i $$ 因此，该线性回归模型的RSS可以具体写作： $$ \text{RSS} = \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2 $$

## 在普通最小二乘法 (OLS) 中的核心作用

RSS最著名的应用是在 {{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 中作为目标函数。OLS是线性回归分析中最常用的参数估计方法，其基本原则就是选择一组模型参数，使得残差平方和 (RSS) 最小化。

换句话说，OLS的目标是找到一条“最佳拟合线”（或在{{{多元回归}}}中是一个超平面），这条线使得所有数据点到该线的垂直距离（即残差）的平方和达到最小值。从数学上讲，OLS估计量 $\hat{\beta}$ 是通过求解以下最优化问题得到的： $$ \hat{\beta} = \arg\min_{\beta} \text{RSS}(\beta) = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - x_i'\beta)^2 $$ 其中 $x_i'$ 是包含自变量的向量，$\beta$ 是待估计的系数向量。

这个最小化过程通常通过{{{微积分}}}实现，即对RSS函数关于每个参数求{{{偏导数}}}，并令其等于零，从而得到一组求解参数的方程，这组方程被称为 {{{正规方程组}}} (Normal Equations)。

### 为什么是“平方”和？

选择对残差进行平方处理，而不是直接求和或取绝对值，具有重要的统计学和数学意义：

1. 避免正负抵消：如果直接对残差 $e_i$ 求和，正的残差（模型低估）和负的残差（模型高估）会相互抵消。一个模型可能存在巨大的、方向相反的误差，但其残差和却接近于零，这会严重误导我们对模型好坏的判断。 2. 惩罚较大误差：平方操作会不成比例地放大较大的误差。例如，一个为2的残差对RSS的贡献是4，而一个为4的残差对RSS的贡献是16。这意味着OLS方法对{{{离群点}}} (outliers) 非常敏感，会尽力调整模型以避免产生巨大的预测误差。 3. 数学上的便利性：平方函数是连续且可微的，这使得基于微积分的{{{最优化理论}}}得以应用，可以方便地找到解析解（如正规方程组）。相比之下，如果使用{{{绝对值}}}之和（这会导致{{{最小绝对偏差回归}}}，即LAD），其目标函数在零点处不可微，求解过程更为复杂。

## RSS 与方差分解

RSS是理解模型解释能力的关键组成部分。在回归分析中，{{{因变量}}}的总变异可以被分解为两部分：一部分是由模型解释的变异，另一部分是模型未能解释的变异（即残差）。这构成了回归分析的方差分解基本恒等式。

1. {{{总平方和}}} (Total Sum of Squares, TSS)：衡量了因变量 $y$ 自身的总变异程度，即各观测值与其均值 $\bar{y}$ 的离差平方和。 $$ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$

2. {{{解释平方和}}} (Explained Sum of Squares, ESS)：也称为回归平方和 (Regression Sum of Squares)，衡量了由回归模型所解释的因变量变异部分，即预测值 $\hat{y}_i$ 与因变量均值 $\bar{y}$ 的离差平方和。 $$ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$

3. 残差平方和 (RSS)：即模型未能解释的变异部分。

这三者之间的关系（在包含截距项的线性模型中）为： $$ \text{TSS} = \text{ESS} + \text{RSS} $$ 这个等式表明：总变异 = 已解释变异 + 未解释变异。RSS在此处代表的就是“未解释变异”。

## RSS 的应用

除了作为OLS的目标函数，RSS还在以下方面有广泛应用：

1. {{{拟合优度}}}检验：RSS是计算{{{决定系数}}} ($R^2$) 的核心。$R^2$ 定义为ESS占TSS的比例，但它也可以通过RSS来表示： $$ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} $$ 在TSS固定的情况下，RSS越小，$R^2$ 就越接近1，表示模型的解释能力越强。

2. {{{假设检验}}}：在{{{F检验}}}中，RSS被用来检验模型中一个或多个系数的联合显著性。例如，要比较一个包含较多变量的“无约束模型”和一个将某些系数约束为零的“有约束模型”，F统计量可以由这两个模型的RSS构造： $$ F = \frac{(\text{RSS}_{\text{有约束}} - \text{RSS}_{\text{无约束}}) / q}{\text{RSS}_{\text{无约束}} / (n - k - 1)} $$ 其中 $q$ 是施加的约束数量，$n$ 是样本量，$k$ 是无约束模型中的自变量数量。直观上，如果增加变量后RSS显著减小，则说明这些新增变量是重要的。

3. {{{模型选择}}}：单独使用RSS来比较模型是有风险的，因为向模型中添加任何新变量几乎总会使RSS减小（或至少不会增加），即使该变量与因变量毫无关系。这可能导致{{{过拟合}}}。为了解决这个问题，许多{{{模型选择准则}}}在RSS的基础上加入了对模型复杂度的惩罚，例如： * {{{调整后R平方}}} (Adjusted R-squared) * {{{赤池信息量准则}}} (Akaike Information Criterion, AIC) * {{{贝叶斯信息量准则}}} (Bayesian Information Criterion, BIC) 这些准则都以RSS作为一个核心组成部分，但同时会对模型中的参数数量施加惩罚，从而在拟合优度和模型简洁性之间做出权衡。