ARTICLE

学生化残差

学生化残差 (Studentized Residuals) 学生化残差（Studentized Residuals）是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 e_i = y_i - y_i 除以该残差自身标准差的估计量，从而消除异方差性和量纲的影响，使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世

浏览 8 更新 2026-07-20

学生化残差 (Studentized Residuals)

学生化残差（Studentized Residuals）是回归分析中用于模型诊断的一类经过精细标准化的残差。其核心思想是将普通残差 $e_i = y_i - \hat{y}_i$ 除以该残差自身标准差的估计量，从而消除异方差性和量纲的影响，使得残差在统一的尺度上可比。学生化残差的概念由计量经济学家和统计学家在20世纪中叶逐步发展成熟，其名称来源于它与学生t分布的紧密联系——在正态性假设下，外部学生化残差精确地服从自由度为 $n - k - 2$ 的学生t分布。

与标准化残差相比，学生化残差的独特之处在于对第 $i$ 个残差标准差的估计中排除了第 $i$ 个观测值本身的影响。这一排除机制使得学生化残差在检测离群值（outliers）和强影响点（influential points）时比标准化残差更为敏感和可靠。从历史渊源来看，"学生化"一词沿用了William Sealy Gosset以"Student"为笔名发表t分布研究的传统——外部学生化残差恰好具有学生t分布的精确抽样性质，因而得名。

内部学生化残差

考虑标准线性回归模型 $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$ 。令帽子矩阵 $\mathbf{H} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'$ ，其对角线元素 $h_{ii}$ 为第 $i$ 个观测的杠杆值。在OLS估计下，残差向量 $\mathbf{e} = (\mathbf{I} - \mathbf{H})\mathbf{y}$ ，第 $i$ 个残差的方差为 $\text{Var}(e_i) = \sigma^2(1 - h_{ii})$ 。

内部学生化残差（Internally Studentized Residuals），有时也被称为标准化残差，定义为：

r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}

其中 $\hat{\sigma}^2 = \frac{1}{n - k}\sum_{j=1}^{n} e_j^2 = \text{MSE}$ 为基于全部 $n$ 个观测的残差方差估计。注意此处的分母 $\hat{\sigma}$ 包含了第 $i$ 个观测值的信息——也就是说，待诊断的观测值本身参与了用于判断其异常性的方差估计。在正态性假设下， $r_i^2/(n - k)$ 服从 $\text{Beta}\left(\frac{1}{2}, \frac{n-k-1}{2}\right)$ 分布，故 $r_i$ 的分布并非精确的学生t分布，而是一种对称的尺度化beta分布。

内部学生化残差的主要局限在于：若第 $i$ 个观测值确为离群值（具有极大的真实误差），它会膨胀 $\hat{\sigma}$ 的估计值，从而使 $r_i$ 的绝对值被系统性压小——即离群值"自我掩蔽"效应。这正是引入外部学生化残差的动机所在。

外部学生化残差

外部学生化残差（Externally Studentized Residuals），又称 删除残差（Deleted Residuals）或 Jackknife残差，其构造在于从残差标准差估计中剔除第 $i$ 个观测值：

t_i = \frac{e_i}{\hat{\sigma}_{(i)}\sqrt{1 - h_{ii}}}

其中 $\hat{\sigma}_{(i)}^2$ 是删除第 $i$ 个观测后重新拟合回归所得的残差方差（MSE）。这一看似微小的修改具有深远意义：若第 $i$ 个观测是真正的离群值， $\hat{\sigma}_{(i)}$ 不受其污染，因此 $t_i$ 能真实反映该观测相对于"干净模型"的偏离程度。

计算捷径。重新拟合 $n$ 次回归在计算上并不经济。利用Sherman-Morrison-Woodbury类型的更新公式， $\hat{\sigma}_{(i)}$ 可以直接从全样本结果计算：

\hat{\sigma}_{(i)}^2 = \frac{(n - k)\hat{\sigma}^2 - e_i^2 / (1 - h_{ii})}{n - k - 1}

由此可得 $t_i$ 与 $r_i$ 之间的代数关系：

t_i = r_i \cdot \sqrt{\frac{n - k - 1}{n - k - r_i^2}}

当 $r_i^2$ 较大时， $t_i$ 的放大效应显著。例如 $n - k = 30$ ， $r_i = 2$ 时， $t_i \approx 2.07$ ； $r_i = 3$ 时， $t_i \approx 3.54$ 。这一放大揭示了内部学生化残差对离群值的"掩蔽"效应。

精确t分布与假设检验

外部学生化残差最优雅的性质在于其精确的抽样分布。在误差项 $\boldsymbol{\epsilon} \sim N(\mathbf{0}, \sigma^2\mathbf{I})$ 的假设下：

t_i \sim t_{(n - k - 1)}

即 $t_i$ 精确地服从自由度为 $n - k - 1$ 的学生t分布。这一性质使得学生化残差不仅可用于描述性诊断，还可执行正式的统计检验。

Bonferroni离群值检验。当需要检验单个最大 $|t_i|$ 观测是否为离群值时，由于同时检验了 $n$ 个假设，应采用Bonferroni校正。判断准则为：若 $\max|t_i| > t_{(\alpha / 2n,\ n - k - 1)}$ ，则在总体显著性水平 $\alpha$ 下拒绝"无离群值"的原假设。常见做法是取 $t_{\max} > 2$ 为警示线， $t_{\max} > 3$ 为强离群标志。在 R 中，\texttt{rstudent()} 函数直接计算外部学生化残差；在Stata中，\texttt{predict rstu, rstudent} 实现相同计算。

与其它诊断度量的关系

学生化残差是回归诊断体系中的核心构件，多个重要的综合影响力统计量均以其为基础。

DFFITS：衡量删除第 $i$ 个观测后拟合值变化的标准化度量：

\text{DFFITS}_i = t_i \cdot \sqrt{\frac{h_{ii}}{1 - h_{ii}}}

DFFITS将学生化残差与杠杆值结合，直接评估观测对拟合值 $\hat{y}_i$ 的影响力。当 $|\text{DFFITS}_i| > 2\sqrt{k/n}$ 时该观测被视为强影响点。

Cook's Distance (库克距离)：另一种结合学生化残差与杠杆值的影响力度量：

D_i = \frac{r_i^2}{k} \cdot \frac{h_{ii}}{1 - h_{ii}}

库克距离使用内部而非外部学生化残差， $(1 - h_{ii})$ 在分母中同时来自残差方差校正和公式形式。当 $D_i > 4/n$ 或 $D_i > 1$ 时应重点检查。

COVRATIO 及 DFBETAS：COVRATIO衡量删除第 $i$ 个观测后参数估计协方差矩阵行列式相对于全样本的变化率；若 $|\text{COVRATIO}_i - 1| > 3k/n$ 则表明该观测显著改变估计精度。DFBETAS衡量删除观测对每个回归系数 $\beta_j$ 的标准化影响。二者均与外部学生化残差存在解析关联，反映了学生化残差在影响力评估体系中的枢纽地位。

解释与应用指南

在实际回归诊断中，学生化残差应结合其他诊断工具综合使用。建议的诊断流程为：①检查学生化残差关于拟合值 $\hat{y}_i$ 的散点图，观察是否存在系统模式或绝对学生化残差异常大的点；②将外部学生化残差与杠杆值 $h_{ii}$ 联合考察——高杠杆高学生化残差是最危险的强影响组合；③对标记出的可疑观测（ $|t_i| > 2$ 或 $|t_i| > 3$ ），返回原始数据核实是否为记录错误、测量误差，或具有实质含义的特殊样本；④在稳健回归中，学生化残差也是加权最小二乘法（IRLS）迭代过程中权重更新的核心输入。

学生化残差不仅适用于经典线性回归模型。在广义线性模型（GLM）中，偏差残差和Pearson残差的student化版本同样被广泛使用，虽然在大样本下其分布仅为近似学生t而非精确t分布。在混合效应模型和面板数据模型中，学生化残差的概念可推广至组内残差和组间残差的诊断框架。值得注意的是，在学生化残差与杠杆值构成的散点图中，理想的观测应集中于低杠杆、低学生化残差区域；高杠杆高学生化残差点为最危险的强影响点，高杠杆低学生化残差点虽拟合良好但可能主导回归斜率，低杠杆高学生化残差点则为典型离群值。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。