ARTICLE

学生化残差

学生化残差 (Studentized Residuals) 学生化残差(Studentized Residuals)是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 e_i = y_i - y_i 除以该残差自身标准差的估计量,从而消除异方差性和量纲的影响,使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世

浏览 8 更新 2026-07-20

学生化残差 (Studentized Residuals)

学生化残差(Studentized Residuals)是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 ei=yiy^ie_i = y_i - \hat{y}_i 除以该残差自身标准差的估计量,从而消除异方差性和量纲的影响,使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世纪中叶逐步发展成熟,其名称来源于它与学生t分布的紧密联系——在正态性假设下,外部学生化残差精确地服从自由度为 nk2n - k - 2 的学生t分布。

标准化残差相比,学生化残差的独特之处在于对第 ii 个残差标准差的估计中排除了第 ii 个观测值本身的影响。这一排除机制使得学生化残差在检测离群值(outliers)和强影响点(influential points)时比标准化残差更为敏感和可靠。从历史渊源来看,"学生化"一词沿用了William Sealy Gosset以"Student"为笔名发表t分布研究的传统——外部学生化残差恰好具有学生t分布的精确抽样性质,因而得名。

内部学生化残差

考虑标准线性回归模型 y=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}。令 帽子矩阵 H=X(XX)1X\mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}',其对角线元素 hiih_{ii} 为第 ii 个观测的杠杆值。在OLS估计下,残差向量 e=(IH)y\mathbf{e} = (\mathbf{I} - \mathbf{H})\mathbf{y},第 ii 个残差的方差为 Var(ei)=σ2(1hii)\text{Var}(e_i) = \sigma^2(1 - h_{ii})

内部学生化残差(Internally Studentized Residuals),有时也被称为标准化残差,定义为:

ri=eiσ^1hiir_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}

其中 σ^2=1nkj=1nej2=MSE\hat{\sigma}^2 = \frac{1}{n - k}\sum_{j=1}^{n} e_j^2 = \text{MSE} 为基于全部 nn 个观测的残差方差估计。注意此处的分母 σ^\hat{\sigma} 包含了第 ii 个观测值的信息——也就是说,待诊断的观测值本身参与了用于判断其异常性的方差估计。在正态性假设下,ri2/(nk)r_i^2/(n - k) 服从 Beta(12,nk12)\text{Beta}\left(\frac{1}{2}, \frac{n-k-1}{2}\right) 分布,故 rir_i 的分布并非精确的学生t分布,而是一种对称的尺度化beta分布。

内部学生化残差的主要局限在于:若第 ii 个观测值确为离群值(具有极大的真实误差),它会膨胀 σ^\hat{\sigma} 的估计值,从而使 rir_i 的绝对值被系统性压小——即离群值"自我掩蔽"效应。这正是引入外部学生化残差的动机所在。

外部学生化残差

外部学生化残差(Externally Studentized Residuals),又称 删除残差(Deleted Residuals)或 Jackknife残差,其构造在于从残差标准差估计中剔除第 ii 个观测值:

ti=eiσ^(i)1hiit_i = \frac{e_i}{\hat{\sigma}_{(i)}\sqrt{1 - h_{ii}}}

其中 σ^(i)2\hat{\sigma}_{(i)}^2 是删除第 ii 个观测后重新拟合回归所得的残差方差(MSE)。这一看似微小的修改具有深远意义:若第 ii 个观测是真正的离群值,σ^(i)\hat{\sigma}_{(i)} 不受其污染,因此 tit_i 能真实反映该观测相对于"干净模型"的偏离程度。

计算捷径。重新拟合 nn 次回归在计算上并不经济。利用Sherman-Morrison-Woodbury类型的更新公式,σ^(i)\hat{\sigma}_{(i)} 可以直接从全样本结果计算:

σ^(i)2=(nk)σ^2ei2/(1hii)nk1\hat{\sigma}_{(i)}^2 = \frac{(n - k)\hat{\sigma}^2 - e_i^2 / (1 - h_{ii})}{n - k - 1}

由此可得 tit_irir_i 之间的代数关系:

ti=rink1nkri2t_i = r_i \cdot \sqrt{\frac{n - k - 1}{n - k - r_i^2}}

ri2r_i^2 较大时,tit_i 的放大效应显著。例如 nk=30n - k = 30ri=2r_i = 2 时,ti2.07t_i \approx 2.07ri=3r_i = 3 时,ti3.54t_i \approx 3.54。这一放大揭示了内部学生化残差对离群值的"掩蔽"效应。

精确t分布与假设检验

外部学生化残差最优雅的性质在于其精确的抽样分布。在误差项 ϵN(0,σ2I)\boldsymbol{\epsilon} \sim N(\mathbf{0}, \sigma^2\mathbf{I}) 的假设下:

tit(nk1)t_i \sim t_{(n - k - 1)}

tit_i 精确地服从自由度为 nk1n - k - 1 的学生t分布。这一性质使得学生化残差不仅可用于描述性诊断,还可执行正式的统计检验。

Bonferroni离群值检验。当需要检验单个最大ti|t_i|观测是否为离群值时,由于同时检验了 nn 个假设,应采用Bonferroni校正。判断准则为:若 maxti>t(α/2n, nk1)\max|t_i| > t_{(\alpha / 2n,\ n - k - 1)},则在总体显著性水平 α\alpha 下拒绝"无离群值"的原假设。常见做法是取 tmax>2t_{\max} > 2 为警示线,tmax>3t_{\max} > 3 为强离群标志。在 R 中,\texttt{rstudent()} 函数直接计算外部学生化残差;在Stata中,\texttt{predict rstu, rstudent} 实现相同计算。

与其它诊断度量的关系

学生化残差是回归诊断体系中的核心构件,多个重要的综合影响力统计量均以其为基础。

DFFITS:衡量删除第 ii 个观测后拟合值变化的标准化度量:

DFFITSi=tihii1hii\text{DFFITS}_i = t_i \cdot \sqrt{\frac{h_{ii}}{1 - h_{ii}}}

DFFITS将学生化残差与杠杆值结合,直接评估观测对拟合值 y^i\hat{y}_i 的影响力。当 DFFITSi>2k/n|\text{DFFITS}_i| > 2\sqrt{k/n} 时该观测被视为强影响点。

Cook's Distance (库克距离):另一种结合学生化残差与杠杆值的影响力度量:

Di=ri2khii1hiiD_i = \frac{r_i^2}{k} \cdot \frac{h_{ii}}{1 - h_{ii}}

库克距离使用内部而非外部学生化残差,(1hii)(1 - h_{ii}) 在分母中同时来自残差方差校正和公式形式。当 Di>4/nD_i > 4/nDi>1D_i > 1 时应重点检查。

COVRATIODFBETAS:COVRATIO衡量删除第 ii 个观测后参数估计协方差矩阵行列式相对于全样本的变化率;若 COVRATIOi1>3k/n|\text{COVRATIO}_i - 1| > 3k/n 则表明该观测显著改变估计精度。DFBETAS衡量删除观测对每个回归系数 βj\beta_j 的标准化影响。二者均与外部学生化残差存在解析关联,反映了学生化残差在影响力评估体系中的枢纽地位。

解释与应用指南

在实际回归诊断中,学生化残差应结合其他诊断工具综合使用。建议的诊断流程为:①检查学生化残差关于拟合值 y^i\hat{y}_i 的散点图,观察是否存在系统模式或绝对学生化残差异常大的点;②将外部学生化残差与杠杆值 hiih_{ii} 联合考察——高杠杆高学生化残差是最危险的强影响组合;③对标记出的可疑观测(ti>2|t_i| > 2ti>3|t_i| > 3),返回原始数据核实是否为记录错误、测量误差,或具有实质含义的特殊样本;④在稳健回归中,学生化残差也是加权最小二乘法(IRLS)迭代过程中权重更新的核心输入。

学生化残差不仅适用于经典线性回归模型。在广义线性模型(GLM)中,偏差残差Pearson残差的student化版本同样被广泛使用,虽然在大样本下其分布仅为近似学生t而非精确t分布。在混合效应模型面板数据模型中,学生化残差的概念可推广至组内残差和组间残差的诊断框架。值得注意的是,在学生化残差与杠杆值构成的散点图中,理想的观测应集中于低杠杆、低学生化残差区域;高杠杆高学生化残差点为最危险的强影响点,高杠杆低学生化残差点虽拟合良好但可能主导回归斜率,低杠杆高学生化残差点则为典型离群值。