ARTICLE

残差

verified: true 残差 (Residual) 残差 (Residual) 是在\%统计学\%和\%计量经济学\%中，尤其是在\%回归分析\%的语境下，一个至关重要的概念。它被定义为 \%观测值\% (Observed Value) 与根据统计\%模型\%得出的\%预测值\% (Predicted Value) 或\%拟合值\% (Fitted V

verified: true

残差 (Residual)

残差 (Residual) 是在\%统计学\%和\%计量经济学\%中，尤其是在\%回归分析\%的语境下，一个至关重要的概念。它被定义为 \%观测值\% (Observed Value) 与根据统计\%模型\%得出的\%预测值\% (Predicted Value) 或\%拟合值\% (Fitted Value) 之间的差异。残差直观地表示了模型未能解释的那部分信息。

在一个回归模型中，对于第 $i$ 个观测点，其残差 $e_i$ （有时也记为 $\hat{u}_i$ ）的计算公式为：

e_i = y_i - \hat{y}_i

其中：

$y_i$ 是第 $i$ 个观测点的\%因变量\%的实际观测值。
$\hat{y}_i$ 是模型根据第 $i$ 个观测点的\%自变量\%数据所给出的因变量的预测值。

残差是评估模型拟合优度和进行\%模型诊断\%的基础。

残差的来源与核心作用

为了理解残差的本质，我们考虑一个简单的线性回归模型。其\%总体\%模型形式为：

y_i = \beta_0 + \beta_1 x_i + u_i

在这个方程中：

$y_i$ 和 $x_i$ 是可观测的变量。
$\beta_0$ 和 $\beta_1$ 是未知的总体参数。
$u_i$ 是不可观测的\%误差项\% (Error Term)，它代表了所有影响 $y_i$ 但未被包含在模型中的随机因素。

由于我们无法直接观测到总体，我们使用一组\%样本\%数据进行\%参数估计\%，得到一个\%样本回归函数\% (Sample Regression Function)：

\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i

这里， $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 是对总体参数 $\beta_0$ 和 $\beta_1$ 的估计值。残差 $e_i$ 就是在这个估计过程中产生的，它是观测值 $y_i$ 和拟合值 $\hat{y}_i$ 之间的差值。

残差的核心作用体现在\%普通最小二乘法\% (Ordinary Least Squares, OLS) 中。OLS的目标是选择参数估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ ，使得\%残差平方和\% (Residual Sum of Squares, RSS) 最小化：

\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n e_i^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2

因此，残差是OLS优化过程中的核心元素。

残差与误差项的区别

在学习中，一个常见的混淆点是残差 (Residual) 和\%误差项\% (Error Term)。虽然残差可以被看作是误差项的估计，但它们在概念上有本质区别。

<table> <tr><th>特性</th><th>误差项 (Error Term, $u_i$ )</th><th>残差 (Residual, $e_i$ )</th></tr> <tr><td>定义</td><td>\%总体\%中，实际值 $y_i$ 与真实回归线 $E(y_i|x_i)$ 之间的差距。</td><td>\%样本\%中，实际值 $y_i$ 与估计回归线 $\hat{y}_i$ 之间的差距。</td></tr> <tr><td>公式</td><td> $u_i = y_i - (\beta_0 + \beta_1 x_i)$ </td><td> $e_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)$ </td></tr> <tr><td>可观测性</td><td>不可观测。因为它依赖于未知的总体参数 $\beta_0$ 和 $\beta_1$ 。</td><td>可观测。一旦模型被估计出来，它就可以从数据中直接计算。</td></tr> <tr><td>来源</td><td>理论概念，存在于真实的\%总体回归函数\%中。</td><td>计算结果，产生于\%样本回归函数\%的估计过程。</td></tr> </table>

简单来说，误差项是真实关系与单个数据点之间的理论差距，而残差是根据已有数据画出的最佳拟合线与数据点之间的经验差距。我们通过分析可观测的残差 $e_i$ 的性质，来推断不可观测的误差项 $u_i$ 是否满足某些重要假设。

残差的代数性质 (OLS)

当一个线性回归模型（包含截距项）通过OLS方法估计后，其残差具有以下确定的代数性质，这些性质是OLS最小化过程的直接数学推论：

残差之和为零：OLS残差的算术平均值为零。

\sum_{i=1}^n e_i = 0

这意味着模型在总体上没有系统性地高估或低估预测值。

残差与自变量的协方差为零：样本中，每个\%自变量\%与OLS残差之间的\%协方差\%（和相关系数）都恰好为零。

\sum_{i=1}^n x_{ji} e_i = 0 \quad (\text{对于每一个自变量 } j)

这说明残差中不包含任何可以被自变量解释的线性信息；所有线性信息都已被模型提取。

残差与拟合值的协方差为零：样本中，拟合值 $\hat{y}_i$ 与OLS残差 $e_i$ 之间的协方差也为零。

\sum_{i=1}^n \hat{y}_i e_i = 0

这进一步说明了模型的预测部分与未解释部分是正交的，彼此不相关。

残差在模型诊断中的应用

残差最重要的实际应用是作为\%模型诊断\% (Model Diagnostics) 的工具。通过分析残差的模式，我们可以检验OLS回归的核心假设是否成立。这通常通过绘制\%残差图\% (Residual Plots) 来完成。

检验\%异方差性\% (Heteroskedasticity)

古典假设之一是误差项具有恒定的\%方差\%（同方差性）。如果残差的方差随着一个自变量或拟合值的变化而变化，就存在异方差性。诊断方法：绘制残差 $e_i$ 关于拟合值 $\hat{y}_i$ 的散点图。如果散点呈现出喇叭形，则表明存在异方差性。

检验\%自相关\% (Autocorrelation)

对于\%时间序列数据\%，一个关键假设是误差项之间相互独立。如果误差项与其自身的滞后值相关，就存在自相关。诊断方法：绘制残差 $e_i$ 关于其滞后值 $e_{i-1}$ 的散点图。正式的检验方法包括\%杜宾-瓦特森检验\%。

检验误差项的\%正态性\% (Normality)

为了进行有效的假设检验，通常需要假设误差项服从正态分布。诊断方法：绘制残差的\%直方图\%或\%Q-Q图\%。如果直方图接近钟形或Q-Q图上的点大致分布在一条直线上，则可以认为满足正态性假设。正式检验包括\%雅克-贝拉检验\%。

检验\%模型设定\%错误 (Model Misspecification)

如果模型遗漏了重要的变量或误设了函数形式，残差中会保留系统性的模式。诊断方法：绘制残差 $e_i$ 关于拟合值 $\hat{y}_i$ 的散点图。如果残差呈现出明显的曲线模式，则很可能意味着模型的函数形式设定有误。

残差

残差 (Residual)

残差的来源与核心作用

残差与误差项的区别

残差的代数性质 (OLS)

残差在模型诊断中的应用

相关术语