ARTICLE

残差

verified: true 残差 (Residual) 残差 (Residual) 是在\%统计学\%和\%计量经济学\%中,尤其是在\%回归分析\%的语境下,一个至关重要的概念。它被定义为 \%观测值\% (Observed Value) 与根据统计\%模型\%得出的\%预测值\% (Predicted Value) 或\%拟合值\% (Fitted V

浏览 0

verified: true

残差 (Residual)

残差 (Residual) 是在\%统计学\%和\%计量经济学\%中,尤其是在\%回归分析\%的语境下,一个至关重要的概念。它被定义为 \%观测值\% (Observed Value) 与根据统计\%模型\%得出的\%预测值\% (Predicted Value) 或\%拟合值\% (Fitted Value) 之间的差异。残差直观地表示了模型未能解释的那部分信息。

在一个回归模型中,对于第 i i 个观测点,其残差 ei e_i (有时也记为 u^i \hat{u}_i )的计算公式为:

ei=yiy^ie_i = y_i - \hat{y}_i

其中:

  • yi y_i 是第 i i 个观测点的\%因变量\%的实际观测值。
  • y^i \hat{y}_i 是模型根据第 i i 个观测点的\%自变量\%数据所给出的因变量的预测值。

残差是评估模型拟合优度和进行\%模型诊断\%的基础。

残差的来源与核心作用

为了理解残差的本质,我们考虑一个简单的线性回归模型。其\%总体\%模型形式为:

yi=β0+β1xi+uiy_i = \beta_0 + \beta_1 x_i + u_i

在这个方程中:

  • yi y_i xi x_i 是可观测的变量。
  • β0 \beta_0 β1 \beta_1 是未知的总体参数。
  • ui u_i 是不可观测的\%误差项\% (Error Term),它代表了所有影响 yi y_i 但未被包含在模型中的随机因素。

由于我们无法直接观测到总体,我们使用一组\%样本\%数据进行\%参数估计\%,得到一个\%样本回归函数\% (Sample Regression Function):

y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i

这里,β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 是对总体参数 β0 \beta_0 β1 \beta_1 的估计值。残差 ei e_i 就是在这个估计过程中产生的,它是观测值 yi y_i 和拟合值 y^i \hat{y}_i 之间的差值。

残差的核心作用体现在\%普通最小二乘法\% (Ordinary Least Squares, OLS) 中。OLS的目标是选择参数估计值 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 ,使得\%残差平方和\% (Residual Sum of Squares, RSS) 最小化:

minβ^0,β^1i=1nei2=minβ^0,β^1i=1n(yiy^i)2=minβ^0,β^1i=1n(yi(β^0+β^1xi))2\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n e_i^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^n (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2

因此,残差是OLS优化过程中的核心元素。

残差与误差项的区别

在学习中,一个常见的混淆点是残差 (Residual) 和\%误差项\% (Error Term)。虽然残差可以被看作是误差项的估计,但它们在概念上有本质区别。

<table> <tr><th>特性</th><th>误差项 (Error Term, ui u_i )</th><th>残差 (Residual, ei e_i )</th></tr> <tr><td>定义</td><td>\%总体\%中,实际值 yi y_i 与真实回归线 E(yixi) E(y_i|x_i) 之间的差距。</td><td>\%样本\%中,实际值 yi y_i 与估计回归线 y^i \hat{y}_i 之间的差距。</td></tr> <tr><td>公式</td><td>ui=yi(β0+β1xi) u_i = y_i - (\beta_0 + \beta_1 x_i) </td><td>ei=yi(β^0+β^1xi) e_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i) </td></tr> <tr><td>可观测性</td><td>不可观测。因为它依赖于未知的总体参数 β0 \beta_0 β1 \beta_1 。</td><td>可观测。一旦模型被估计出来,它就可以从数据中直接计算。</td></tr> <tr><td>来源</td><td>理论概念,存在于真实的\%总体回归函数\%中。</td><td>计算结果,产生于\%样本回归函数\%的估计过程。</td></tr> </table>

简单来说,误差项是真实关系与单个数据点之间的理论差距,而残差是根据已有数据画出的最佳拟合线与数据点之间的经验差距。我们通过分析可观测的残差 ei e_i 的性质,来推断不可观测的误差项 ui u_i 是否满足某些重要假设。

残差的代数性质 (OLS)

当一个线性回归模型(包含截距项)通过OLS方法估计后,其残差具有以下确定的代数性质,这些性质是OLS最小化过程的直接数学推论:

  1. 残差之和为零:OLS残差的算术平均值为零。
i=1nei=0\sum_{i=1}^n e_i = 0

这意味着模型在总体上没有系统性地高估或低估预测值。

  1. 残差与自变量的协方差为零:样本中,每个\%自变量\%与OLS残差之间的\%协方差\%(和相关系数)都恰好为零。
i=1nxjiei=0(对于每一个自变量 j)\sum_{i=1}^n x_{ji} e_i = 0 \quad (\text{对于每一个自变量 } j)

这说明残差中不包含任何可以被自变量解释的线性信息;所有线性信息都已被模型提取。

  1. 残差与拟合值的协方差为零:样本中,拟合值 y^i \hat{y}_i 与OLS残差 ei e_i 之间的协方差也为零。
i=1ny^iei=0\sum_{i=1}^n \hat{y}_i e_i = 0

这进一步说明了模型的预测部分与未解释部分是正交的,彼此不相关。

残差在模型诊断中的应用

残差最重要的实际应用是作为\%模型诊断\% (Model Diagnostics) 的工具。通过分析残差的模式,我们可以检验OLS回归的核心假设是否成立。这通常通过绘制\%残差图\% (Residual Plots) 来完成。

  1. 检验\%异方差性\% (Heteroskedasticity)

古典假设之一是误差项具有恒定的\%方差\%(同方差性)。如果残差的方差随着一个自变量或拟合值的变化而变化,就存在异方差性。诊断方法:绘制残差 ei e_i 关于拟合值 y^i \hat{y}_i 的散点图。如果散点呈现出喇叭形,则表明存在异方差性。

  1. 检验\%自相关\% (Autocorrelation)

对于\%时间序列数据\%,一个关键假设是误差项之间相互独立。如果误差项与其自身的滞后值相关,就存在自相关。诊断方法:绘制残差 ei e_i 关于其滞后值 ei1 e_{i-1} 的散点图。正式的检验方法包括\%杜宾-瓦特森检验\%。

  1. 检验误差项的\%正态性\% (Normality)

为了进行有效的假设检验,通常需要假设误差项服从正态分布。诊断方法:绘制残差的\%直方图\%或\%Q-Q图\%。如果直方图接近钟形或Q-Q图上的点大致分布在一条直线上,则可以认为满足正态性假设。正式检验包括\%雅克-贝拉检验\%。

  1. 检验\%模型设定\%错误 (Model Misspecification)

如果模型遗漏了重要的变量或误设了函数形式,残差中会保留系统性的模式。诊断方法:绘制残差 ei e_i 关于拟合值 y^i \hat{y}_i 的散点图。如果残差呈现出明显的曲线模式,则很可能意味着模型的函数形式设定有误。

相关术语

  • \%残差平方和\% (RSS)RSS=ei2 RSS = \sum e_i^2 ,是模型未解释的总变异,OLS的目标就是使其最小化。它是计算\%决定系数\% (R2 R^2 ) 的重要组成部分。
  • \%标准化残差\% (Standardized Residual):将每个残差除以其估计的标准差得到的残差,便于比较和识别\%离群值\%。大于2或3的标准化残差通常被认为是异常的。
  • \%学生化残差\% (Studentized Residual):一种更精细的标准化残差,在计算第 i i 个残差的标准差时将第 i i 个观测值排除在外,在检测离群值方面更为敏感。