ARTICLE
学生化残差
学生化残差 (Studentized Residuals) 学生化残差(Studentized Residuals)是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 e_i = y_i - y_i 除以该残差自身标准差的估计量,从而消除异方差性和量纲的影响,使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世
学生化残差 (Studentized Residuals)
学生化残差(Studentized Residuals)是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 除以该残差自身标准差的估计量,从而消除异方差性和量纲的影响,使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世纪中叶逐步发展成熟,其名称来源于它与学生t分布的紧密联系——在正态性假设下,外部学生化残差精确地服从自由度为 的学生t分布。
与标准化残差相比,学生化残差的独特之处在于对第 个残差标准差的估计中排除了第 个观测值本身的影响。这一排除机制使得学生化残差在检测离群值(outliers)和强影响点(influential points)时比标准化残差更为敏感和可靠。从历史渊源来看,"学生化"一词沿用了William Sealy Gosset以"Student"为笔名发表t分布研究的传统——外部学生化残差恰好具有学生t分布的精确抽样性质,因而得名。
内部学生化残差
考虑标准线性回归模型 。令 帽子矩阵 ,其对角线元素 为第 个观测的杠杆值。在OLS估计下,残差向量 ,第 个残差的方差为 。
内部学生化残差(Internally Studentized Residuals),有时也被称为标准化残差,定义为:
其中 为基于全部 个观测的残差方差估计。注意此处的分母 包含了第 个观测值的信息——也就是说,待诊断的观测值本身参与了用于判断其异常性的方差估计。在正态性假设下, 服从 分布,故 的分布并非精确的学生t分布,而是一种对称的尺度化beta分布。
内部学生化残差的主要局限在于:若第 个观测值确为离群值(具有极大的真实误差),它会膨胀 的估计值,从而使 的绝对值被系统性压小——即离群值"自我掩蔽"效应。这正是引入外部学生化残差的动机所在。
外部学生化残差
外部学生化残差(Externally Studentized Residuals),又称 删除残差(Deleted Residuals)或 Jackknife残差,其构造在于从残差标准差估计中剔除第 个观测值:
其中 是删除第 个观测后重新拟合回归所得的残差方差(MSE)。这一看似微小的修改具有深远意义:若第 个观测是真正的离群值, 不受其污染,因此 能真实反映该观测相对于"干净模型"的偏离程度。
计算捷径。重新拟合 次回归在计算上并不经济。利用Sherman-Morrison-Woodbury类型的更新公式, 可以直接从全样本结果计算:
由此可得 与 之间的代数关系:
当 较大时, 的放大效应显著。例如 , 时,; 时,。这一放大揭示了内部学生化残差对离群值的"掩蔽"效应。
精确t分布与假设检验
外部学生化残差最优雅的性质在于其精确的抽样分布。在误差项 的假设下:
即 精确地服从自由度为 的学生t分布。这一性质使得学生化残差不仅可用于描述性诊断,还可执行正式的统计检验。
Bonferroni离群值检验。当需要检验单个最大观测是否为离群值时,由于同时检验了 个假设,应采用Bonferroni校正。判断准则为:若 ,则在总体显著性水平 下拒绝"无离群值"的原假设。常见做法是取 为警示线, 为强离群标志。在 R 中,\texttt{rstudent()} 函数直接计算外部学生化残差;在Stata中,\texttt{predict rstu, rstudent} 实现相同计算。
与其它诊断度量的关系
学生化残差是回归诊断体系中的核心构件,多个重要的综合影响力统计量均以其为基础。
DFFITS:衡量删除第 个观测后拟合值变化的标准化度量:
DFFITS将学生化残差与杠杆值结合,直接评估观测对拟合值 的影响力。当 时该观测被视为强影响点。
Cook's Distance (库克距离):另一种结合学生化残差与杠杆值的影响力度量:
库克距离使用内部而非外部学生化残差, 在分母中同时来自残差方差校正和公式形式。当 或 时应重点检查。
COVRATIO 及 DFBETAS:COVRATIO衡量删除第 个观测后参数估计协方差矩阵行列式相对于全样本的变化率;若 则表明该观测显著改变估计精度。DFBETAS衡量删除观测对每个回归系数 的标准化影响。二者均与外部学生化残差存在解析关联,反映了学生化残差在影响力评估体系中的枢纽地位。
解释与应用指南
在实际回归诊断中,学生化残差应结合其他诊断工具综合使用。建议的诊断流程为:①检查学生化残差关于拟合值 的散点图,观察是否存在系统模式或绝对学生化残差异常大的点;②将外部学生化残差与杠杆值 联合考察——高杠杆高学生化残差是最危险的强影响组合;③对标记出的可疑观测( 或 ),返回原始数据核实是否为记录错误、测量误差,或具有实质含义的特殊样本;④在稳健回归中,学生化残差也是加权最小二乘法(IRLS)迭代过程中权重更新的核心输入。
学生化残差不仅适用于经典线性回归模型。在广义线性模型(GLM)中,偏差残差和Pearson残差的student化版本同样被广泛使用,虽然在大样本下其分布仅为近似学生t而非精确t分布。在混合效应模型和面板数据模型中,学生化残差的概念可推广至组内残差和组间残差的诊断框架。值得注意的是,在学生化残差与杠杆值构成的散点图中,理想的观测应集中于低杠杆、低学生化残差区域;高杠杆高学生化残差点为最危险的强影响点,高杠杆低学生化残差点虽拟合良好但可能主导回归斜率,低杠杆高学生化残差点则为典型离群值。