# 残差平方和 (Sum of Squared Residuals)
残差平方和 (Sum of Squared Residuals, SSR),在不同的文献中也常被称为 RSS (Residual Sum of Squares) 或 SSE (Sum of Squared Errors),是{{{统计学}}}和{{{计量经济学}}}中,尤其是在{{{回归分析}}}领域,一个至关重要的概念。它是一种衡量模型预测值与实际观测值之间差异的度量。具体来说,SSR是所有观测样本的{{{残差}}}的平方之和。
在评估一个统计模型的拟合优度时,残差平方和是一个核心指标。一个较小的SSR值通常意味着模型对数据的拟合程度更好,因为它表示模型未能解释的变异(即误差)较小。
## 数学定义
在统计模型中,我们用模型来预测因变量的值。对于数据集中的第 $i$ 个观测样本:
* $y_i$ 表示因变量的 实际观测值 (observed value)。 * $\hat{y}_i$ 表示模型根据自变量得出的对 $y_i$ 的 预测值 或 拟合值 (predicted/fitted value)。
那么,第 $i$ 个观测样本的 残差 (residual) $e_i$ 被定义为实际观测值与预测值之差:
$$ e_i = y_i - \hat{y}_i $$
残差代表了模型在第 $i$ 个样本上的预测误差。残差平方和 (SSR) 就是将数据集中所有 $n$ 个样本的残差的平方加总:
$$ \text{SSR} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$
为什么要平方? 对残差进行平方处理有几个重要原因: 1. 消除符号影响:残差有正有负(即模型可能高估或低估)。如果直接求和,正负残差会相互抵消,无法真实反映整体误差的大小。平方后所有项都变为非负数。 2. 放大较大误差:平方运算使得较大的误差在总和中的权重不成比例地增大。这意味着模型会更“努力”地去拟合那些偏离较远的点,这通常符合我们希望避免出现极端错误的直觉。 3. 数学便利性:平方和函数是连续且可微的,并且是一个{{{凸函数}}}。这些优良的数学性质使得通过{{{微积分}}}方法(如求导并令其为零)来找到使SSR最小化的模型参数成为可能,这正是{{{普通最小二乘法}}} (OLS) 的基础。
## 在普通最小二乘法 (OLS) 中的核心作用
残差平方和是{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 的{{{目标函数}}}。OLS是{{{线性回归模型}}}中最常用的{{{参数估计}}}方法。其核心思想是:选择一组模型参数,使得残差平方和达到最小值。
考虑一个简单的线性回归模型: $$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$ 其中,$\beta_0$ 是截距,$\beta_1$ 是斜率系数,$\epsilon_i$ 是误差项。
通过OLS方法估计出的参数记为 $\hat{\beta}_0$ 和 $\hat{\beta}_1$。对于每个观测值 $x_i$,模型的预测值为: $$ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i $$
OLS的目标就是找到能使以下SSR最小化的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的值: $$ \min_{\hat{\beta}_0, \hat{\beta}_1} \text{SSR} = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2 $$
通过对上述表达式分别求关于 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的偏导数,并令其等于零,可以解出一组唯一的参数估计值,这组估计值就是OLS估计量。因此,SSR最小化是OLS方法的定义性特征。
## 在方差分解和模型评估中的应用
在回归分析中,因变量的总变异可以被分解为模型可以解释的部分和模型无法解释的部分。这构成了{{{方差分析}}} (Analysis of Variance, ANOVA) 的基础。
1. {{{总平方和}}} (Total Sum of Squares, SST):衡量因变量 $y$ 自身总变异的指标,等于每个 $y_i$ 与其样本均值 $\bar{y}$ 之差的平方和。 $$ \text{SST} = \sum_{i=1}^{n} (y_i - \bar{y})^2 $$
2. {{{解释平方和}}} (Explained Sum of Squares, ESS):也称为回归平方和 (Sum of Squares due to Regression, SSReg),是模型所能解释的因变量变异部分,等于每个预测值 $\hat{y}_i$ 与样本均值 $\bar{y}$ 之差的平方和。 $$ \text{ESS} = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 $$
3. 残差平方和 (Sum of Squared Residuals, SSR):如前文定义,是模型未能解释的变异部分。
这三者之间存在一个基本恒等式: $$ \text{SST} = \text{ESS} + \text{SSR} $$ 总变异 = 解释的变异 + 未解释的变异
这个关系式是评估模型拟合优度的基础。基于此,我们可以定义{{{决定系数}}} ($R^2$): $$ R^2 = \frac{\text{ESS}}{\text{SST}} = 1 - \frac{\text{SSR}}{\text{SST}} $$ $R^2$ 表示因变量的总变异中能被自变量(模型)解释的比例。从公式可以看出,在SST固定的情况下,SSR越小, $R^2$ 就越高,代表模型的解释能力越强。
## 局限性与注意事项
尽管SSR非常有用,但直接使用它来比较不同模型时存在一些局限性:
* 单位依赖性:SSR的值受因变量 $y$ 的单位影响。如果将 $y$ 的单位从“元”改为“万元”,SSR的数值将缩小为原来的 $1/10000^2$,但这并不代表模型变好了。 * 样本量依赖性:SSR会随着样本量 $n$ 的增加而自然增大(因为是求和运算)。因此,不能直接比较基于不同大小样本的模型的SSR。 * 对模型复杂度的不敏感:在一个嵌套模型中,增加更多的自变量几乎总是会使SSR减小(或至少不会增加),即使这些新增的变量与因变量毫无关系。这可能导致{{{过度拟合}}}。
为了克服这些局限性,研究者们基于SSR发展出了一些标准化的指标:
* {{{均方误差}}} (Mean Squared Error, MSE):用SSR除以{{{自由度}}} ($df$),通常为 $n-k-1$(其中 $k$ 是自变量数量)。它在一定程度上校正了样本量和模型复杂度的影响。 $$ \text{MSE} = \frac{\text{SSR}}{n-k-1} $$ * {{{均方根误差}}} (Root Mean Squared Error, RMSE):是MSE的平方根,其单位与因变量相同,更易于解释。 $$ \text{RMSE} = \sqrt{\text{MSE}} $$ * {{{赤池信息准则}}} (AIC) 和 {{{贝叶斯信息准则}}} (BIC):这些模型选择准则都以SSR(或{{{似然函数}}})为基础,并对模型的参数数量(复杂度)施加惩罚,从而在拟合优度和模型简洁性之间进行权衡。 * {{{F检验}}}:在比较嵌套模型时,F统计量通过考察增加变量后SSR的减小程度是否“显著”来判断新变量的联合显著性。