ARTICLE

标准化残差

标准化残差 (Standardized Residuals) 标准化残差(Standardized Residuals),在统计学和计量经济学中,是指经过归一化处理后的残差。它是回归分析及其诊断过程中的一个重要工具。通过将原始残差除以其估计的标准差,标准化残差消除数据的量纲影响,使得分析者可以在统一的尺度上评估模型的拟合程度,并有效地识别数据中的离群点。 原

浏览 6 更新 2025-12-08

标准化残差 (Standardized Residuals)

标准化残差(Standardized Residuals),在统计学计量经济学中,是指经过归一化处理后的残差。它是回归分析及其诊断过程中的一个重要工具。通过将原始残差除以其估计的标准差,标准化残差消除数据的量纲影响,使得分析者可以在统一的尺度上评估模型的拟合程度,并有效地识别数据中的离群点

原始残差及其局限性

在经典的线性回归模型中,第ii个观测值的原始残差eie_i定义为观测值yiy_i与模型预测值y^i\hat{y}_i的差:ei=yiy^ie_i = y_i - \hat{y}_i。虽然直观反映了预测误差,但直接使用原始残差存在两个主要问题。第一是量纲依赖性——原始残差的单位与因变量yy的单位相同,无法设定通用阈值判断残差是否过大。第二是方差非齐性——即使模型误差项ϵi\epsilon_i满足同方差性假设,观测残差eie_i的方差也未必恒定:距离数据中心较远的观测点(即具有高杠杆值的点)其残差往往具有较小的方差。

数学定义

最小二乘法(OLS)估计中,残差向量ee的方差-协方差矩阵为Var(e)=σ2(IH)Var(e) = \sigma^2 (I - H),其中HH帽子矩阵,其对角线元素hiih_{ii}被称为杠杆值。第ii个残差eie_i的方差为Var(ei)=σ2(1hii)Var(e_i) = \sigma^2 (1 - h_{ii})。由此得到学生化残差(Internally Studentized Residuals):

ri=eiσ^1hiir_i = \frac{e_i}{\hat{\sigma} \sqrt{1 - h_{ii}}}

其中σ^\hat{\sigma}是回归模型的标准误(即MSE\sqrt{MSE}),hiih_{ii}是第ii个观测值的杠杆值。分母中的1hii\sqrt{1 - h_{ii}}起到校正作用:当数据点具有高杠杆值(hiih_{ii}接近1)时,分母变小从而放大了该点的标准化残差值——有助于揭示那些虽然原始残差很小但实际上对模型参数估计影响巨大的高杠杆异常值。

另一种简单形式是皮尔逊残差或基础标准化zi=ei/σ^z_i = e_i / \hat{\sigma},假设所有残差具有相同方差,但在一般线性回归诊断中不如学生化残差严谨,通常建议使用考虑了杠杆值的公式。

统计解释与应用

标准化残差的主要目的是将残差转化为服从(或近似服从)标准正态分布N(0,1)N(0, 1)的无量纲变量。基于此可以进行以下关键分析:

离群点检测。标准化残差提供了统一的判断尺度。根据68-95-99.7法则,约95\%的标准化残差应落在[2,2][-2, 2]区间内,约99.7\%应落在[3,3][-3, 3]内。当ri>2|r_i| > 2时可视为潜在的离群点,需要进一步检查;当ri>3|r_i| > 3时该观测值为强影响点的可能性很大。

模型诊断与可视化。标准化残差图是回归诊断的核心工具。在残差对拟合值(或自变量)的散点图中,若标准化残差随机分布、无系统模式且95\%在[2,2][-2, 2]内,说明模型假定合理。漏斗形(方差随拟合值增大而变化)表明存在异方差性;U形或曲线形表明模型存在非线性的函数形式误设。

正态性评估。标准化残差的Q-Q图通过理论分位数与实际分位数的比较来分析残差是否来自正态分布。若点落在大致直线上,支持正态性假设;若表现出系统偏离(如S形),表明误差分布可能厚尾偏态——违反正态性假定。在广义线性模型(GLM)等更复杂的模型框架中,标准化残差(如偏差残差、工作残差等)也有着延伸定义和应用。