# 残差平方和 (Residual Sum of Squares, RSS)
残差平方和 (Residual Sum of Squares, RSS),也常被称为 误差平方和 (Sum of Squared Errors, SSE) 或 残差的二次方和,是{{{统计学}}}和{{{计量经济学}}}中,尤其是在{{{回归分析}}}领域,一个至关重要的概念。它用于衡量一个{{{统计模型}}}对其所拟合的{{{样本数据}}}的拟合优度。具体来说,RSS是在给定模型下,所有观测值的实际值与模型预测值之差(即{{{残差}}}) 的平方总和。
RSS的核心思想是量化模型的“错误”程度。一个模型的RSS值越小,代表该模型对数据的拟管状更优,其预测值与实际观测值的偏离程度越小。
## 数学定义
在数学上,残差平方和的定义非常直观。假设我们有一个包含 $n$ 个观测值的数据集。对于第 $i$ 个观测值:
* $y_i$ 表示因变量的实际观测值。 * $\hat{y}_i$ 表示通过我们的统计模型对第 $i$ 个观测值得出的预测值或拟合值。
那么,第 $i$ 个观测值的 {{{残差}}} (residual) $e_i$ 定义为: $$ e_i = y_i - \hat{y}_i $$ 这个残差代表了模型在第 $i$ 个数据点上的预测误差。
残差平方和 (RSS) 就是所有这些残差的平方之和: $$ \text{RSS} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
例如,在一个简单的{{{线性回归模型}}}中,模型形式为 $y = \beta_0 + \beta_1 x + \epsilon$。我们使用数据估计出参数 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 后,对于每一个 $x_i$,其预测值就是: $$ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i $$ 因此,该线性回归模型的RSS可以具体写作: $$ \text{RSS} = \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2 $$
## 在普通最小二乘法 (OLS) 中的核心作用
RSS最著名的应用是在 {{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 中作为目标函数。OLS是线性回归分析中最常用的参数估计方法,其基本原则就是选择一组模型参数,使得残差平方和 (RSS) 最小化。
换句话说,OLS的目标是找到一条“最佳拟合线”(或在{{{多元回归}}}中是一个超平面),这条线使得所有数据点到该线的垂直距离(即残差)的平方和达到最小值。从数学上讲,OLS估计量 $\hat{\beta}$ 是通过求解以下最优化问题得到的: $$ \hat{\beta} = \arg\min_{\beta} \text{RSS}(\beta) = \arg\min_{\beta} \sum_{i=1}^{n} (y_i - x_i'\beta)^2 $$ 其中 $x_i'$ 是包含自变量的向量,$\beta$ 是待估计的系数向量。
这个最小化过程通常通过{{{微积分}}}实现,即对RSS函数关于每个参数求{{{偏导数}}},并令其等于零,从而得到一组求解参数的方程,这组方程被称为 {{{正规方程组}}} (Normal Equations)。
### 为什么是“平方”和?
选择对残差进行平方处理,而不是直接求和或取绝对值,具有重要的统计学和数学意义:
1. 避免正负抵消:如果直接对残差 $e_i$ 求和,正的残差(模型低估)和负的残差(模型高估)会相互抵消。一个模型可能存在巨大的、方向相反的误差,但其残差和却接近于零,这会严重误导我们对模型好坏的判断。 2. 惩罚较大误差:平方操作会不成比例地放大较大的误差。例如,一个为2的残差对RSS的贡献是4,而一个为4的残差对RSS的贡献是16。这意味着OLS方法对{{{离群点}}} (outliers) 非常敏感,会尽力调整模型以避免产生巨大的预测误差。 3. 数学上的便利性:平方函数是连续且可微的,这使得基于微积分的{{{最优化理论}}}得以应用,可以方便地找到解析解(如正规方程组)。相比之下,如果使用{{{绝对值}}}之和(这会导致{{{最小绝对偏差回归}}},即LAD),其目标函数在零点处不可微,求解过程更为复杂。
## RSS 与方差分解
RSS是理解模型解释能力的关键组成部分。在回归分析中,{{{因变量}}}的总变异可以被分解为两部分:一部分是由模型解释的变异,另一部分是模型未能解释的变异(即残差)。这构成了回归分析的方差分解基本恒等式。
1. {{{总平方和}}} (Total Sum of Squares, TSS):衡量了因变量 $y$ 自身的总变异程度,即各观测值与其均值 $\bar{y}$ 的离差平方和。 $$ \text{TSS} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$
2. {{{解释平方和}}} (Explained Sum of Squares, ESS):也称为回归平方和 (Regression Sum of Squares),衡量了由回归模型所解释的因变量变异部分,即预测值 $\hat{y}_i$ 与因变量均值 $\bar{y}$ 的离差平方和。 $$ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$
3. 残差平方和 (RSS):即模型未能解释的变异部分。
这三者之间的关系(在包含截距项的线性模型中)为: $$ \text{TSS} = \text{ESS} + \text{RSS} $$ 这个等式表明:总变异 = 已解释变异 + 未解释变异。RSS在此处代表的就是“未解释变异”。
## RSS 的应用
除了作为OLS的目标函数,RSS还在以下方面有广泛应用:
1. {{{拟合优度}}}检验:RSS是计算{{{决定系数}}} ($R^2$) 的核心。$R^2$ 定义为ESS占TSS的比例,但它也可以通过RSS来表示: $$ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} $$ 在TSS固定的情况下,RSS越小,$R^2$ 就越接近1,表示模型的解释能力越强。
2. {{{假设检验}}}:在{{{F检验}}}中,RSS被用来检验模型中一个或多个系数的联合显著性。例如,要比较一个包含较多变量的“无约束模型”和一个将某些系数约束为零的“有约束模型”,F统计量可以由这两个模型的RSS构造: $$ F = \frac{(\text{RSS}_{\text{有约束}} - \text{RSS}_{\text{无约束}}) / q}{\text{RSS}_{\text{无约束}} / (n - k - 1)} $$ 其中 $q$ 是施加的约束数量,$n$ 是样本量,$k$ 是无约束模型中的自变量数量。直观上,如果增加变量后RSS显著减小,则说明这些新增变量是重要的。
3. {{{模型选择}}}:单独使用RSS来比较模型是有风险的,因为向模型中添加任何新变量几乎总会使RSS减小(或至少不会增加),即使该变量与因变量毫无关系。这可能导致{{{过拟合}}}。为了解决这个问题,许多{{{模型选择准则}}}在RSS的基础上加入了对模型复杂度的惩罚,例如: * {{{调整后R平方}}} (Adjusted R-squared) * {{{赤池信息量准则}}} (Akaike Information Criterion, AIC) * {{{贝叶斯信息量准则}}} (Bayesian Information Criterion, BIC) 这些准则都以RSS作为一个核心组成部分,但同时会对模型中的参数数量施加惩罚,从而在拟合优度和模型简洁性之间做出权衡。