# 残差 (Residual)
残差 (Residual) 是在{{{统计学}}}和{{{计量经济学}}}中,尤其是在{{{回归分析}}}的语境下,一个至关重要的概念。它被定义为 {{{观测值}}} (Observed Value) 与根据统计{{{模型}}}得出的{{{预测值}}} (Predicted Value) 或{{{拟合值}}} (Fitted Value) 之间的差异。残差直观地表示了模型未能解释的那部分信息。
在一个回归模型中,对于第 $i$ 个观测点,其残差 $e_i$(有时也记为 $\hat{u}_i$)的计算公式为:
$$ e_i = y_i - \hat{y}_i $$
其中: * $y_i$ 是第 $i$ 个观测点的{{{因变量}}}的实际观测值。 * $\hat{y}_i$ 是模型根据第 $i$ 个观测点的{{{自变量}}}数据所给出的因变量的预测值。
残差是评估模型拟合优度和进行{{{模型诊断}}}的基础。
## 残差的来源与核心作用
为了理解残差的本质,我们考虑一个简单的线性回归模型。其{{{总体}}}模型形式为:
$$ y_i = \beta_0 + \beta_1 x_i + u_i $$
在这个方程中: * $y_i$ 和 $x_i$ 是可观测的变量。 * $\beta_0$ 和 $\beta_1$ 是未知的总体参数。 * $u_i$ 是不可观测的{{{误差项}}} (Error Term),它代表了所有影响 $y_i$ 但未被包含在模型中的随机因素。
由于我们无法直接观测到总体,我们使用一组{{{样本}}}数据进行{{{参数估计}}},得到一个{{{样本回归函数}}} (Sample Regression Function):
$$ \hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i $$
这里,$\hat{\beta}_0$ 和 $\hat{\beta}_1$ 是对总体参数 $\beta_0$ 和 $\beta_1$ 的估计值。残差 $e_i$ 就是在这个估计过程中产生的,它是观测值 $y_i$ 和拟合值 $\hat{y}_i$ 之间的差值。
残差的核心作用体现在{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 中。OLS的目标是选择参数估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$,使得{{{残差平方和}}} (Residual Sum of Squares, RSS) 最小化:
$$ \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n e_i^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2 $$
因此,残差是OLS优化过程中的核心元素。
## 残差与误差项的区别
在学习中,一个常见的混淆点是残差 (Residual) 和{{{误差项}}} (Error Term)。虽然残差可以被看作是误差项的估计,但它们在概念上有本质区别。
| 特性 | 误差项 (Error Term, $u_i$) | 残差 (Residual, $e_i$) | | :--- | :--- | :--- | | 定义 | {{{总体}}}中,实际值 $y_i$ 与真实回归线 $E(y_i|x_i)$ 之间的差距。 | {{{样本}}}中,实际值 $y_i$ 与估计回归线 $\hat{y}_i$ 之间的差距。 | | 公式 | $u_i = y_i - (\beta_0 + \beta_1 x_i)$ | $e_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)$ | | 可观测性 | 不可观测。因为它依赖于未知的总体参数 $\beta_0$ 和 $\beta_1$。 | 可观测。一旦模型被估计出来,它就可以从数据中直接计算。 | | 来源 | 理论概念,存在于真实的{{{总体回归函数}}}中。 | 计算结果,产生于{{{样本回归函数}}}的估计过程。 |
简单来说,误差项是“神之手”画出的真实关系与单个数据点之间的差距,是理论上的。而残差是统计学家根据已有数据画出的最佳拟合线与数据点之间的差距,是经验上的。我们通过分析可观测的残差 $e_i$ 的性质,来推断不可观测的误差项 $u_i$ 是否满足某些重要假设。
## 残差的代数性质 (OLS)
当一个线性回归模型(包含截距项)通过OLS方法估计后,其残差具有以下确定的代数性质,这些性质是OLS最小化过程的直接数学推论:
1. 残差之和为零:OLS残差的算术平均值为零。 $$ \sum_{i=1}^n e_i = 0 $$ 这意味着模型在总体上没有系统性地高估或低估预测值。
2. 残差与自变量的协方差为零:样本中,每个{{{自变量}}}与OLS残差之间的{{{协方差}}}(和相关系数)都恰好为零。 $$ \sum_{i=1}^n x_{ji} e_i = 0 \quad (\text{对于每一个自变量 } j) $$ 这说明残差中不包含任何可以被自变量解释的线性信息;所有线性信息都已被模型提取。
3. 残差与拟合值的协方差为零:样本中,拟合值 $\hat{y}_i$ 与OLS残差 $e_i$ 之间的协方差也为零。 $$ \sum_{i=1}^n \hat{y}_i e_i = 0 $$ 这进一步说明了模型的预测部分与未解释部分是“正交”的,彼此不相关。
## 残差在模型诊断中的应用
残差最重要的实际应用是作为{{{模型诊断}}} (Model Diagnostics) 的工具。通过分析残差的模式,我们可以检验OLS回归的核心假设(如{{{高斯-马尔可夫定理}}}的假设)是否成立。这通常通过绘制{{{残差图}}} (Residual Plots) 来完成。
一. 检验{{{异方差性}}} (Heteroskedasticity) 古典假设之一是误差项具有恒定的{{{方差}}}(同方差性)。如果残差的方差随着一个自变量或拟合值的变化而变化,就存在异方差性。 * 诊断方法:绘制残差 $e_i$(或残差的平方 $e_i^2$)关于拟合值 $\hat{y}_i$ 或某个自变量 $x_i$ 的散点图。如果散点呈现出喇叭形(发散或收缩),则表明存在异方差性。
二. 检验{{{自相关}}} (Autocorrelation) 对于{{{时间序列数据}}},一个关键假设是误差项之间相互独立。如果误差项与其自身的滞后值相关,就存在自相关或序列相关。 * 诊断方法:绘制残差 $e_i$ 关于其滞后值 $e_{i-1}$ 的散点图,或者绘制残差关于时间的序列图。如果图中出现明显的趋势、周期性或模式,则可能存在自相关。正式的检验方法包括{{{杜宾-瓦特森检验}}}。
三. 检验误差项的{{{正态性}}} (Normality) 为了进行有效的假设检验(如t检验和F检验),通常需要假设误差项服从正态分布。 * 诊断方法:绘制残差的{{{直方图}}} (Histogram) 或{{{Q-Q图}}} (Quantile-Quantile Plot)。如果直方图接近钟形,或Q-Q图上的点大致分布在一条直线上,则可以认为满足正态性假设。正式检验包括{{{雅克-贝拉检验}}} (Jarque-Bera test)。
四. 检验{{{模型设定}}}错误 (Model Misspecification) 如果模型遗漏了重要的变量,或者误设了函数形式(例如,真实关系是二次方,但模型设定为线性),残差中会保留系统性的模式。 * 诊断方法:绘制残差 $e_i$ 关于某个自变量 $x_i$ 或拟合值 $\hat{y}_i$ 的散点图。如果残差呈现出明显的曲线模式(如U形或倒U形),则很可能意味着模型的函数形式设定有误。
## 相关术语
* {{{残差平方和}}} (RSS):$RSS = \sum e_i^2$,是模型未解释的总变异,OLS的目标就是使其最小化。它是计算{{{决定系数}}} ($R^2$) 和其他统计量的重要组成部分。
* {{{标准化残差}}} (Standardized Residual):将每个残差除以其估计的标准差得到的残差。这使得残差不再受度量单位的影响,便于比较和识别{{{离群值}}} (Outlier)。大于2或3的标准化残差通常被认为是异常的。
* {{{学生化残差}}} (Studentized Residual):一种更精细的标准化残差,在计算第 $i$ 个残差的标准差时,会将第 $i$ 个观测值排除在外,避免了该观测值本身对标准差估计的影响。它在检测离群值方面更为敏感。