ARTICLE

残差诊断

残差诊断是回归分析中用于检验模型假定是否满足的一类重要方法。其核心思想是：如果回归模型设定正确，残差（观测值与拟合值之差）应当近似呈现白噪声特征，即均值为零、方差恒定、互不相关，且与解释变量无关。通过对残差进行图形展示和统计检验，研究者可以识别模型的设定偏误、异方差性、序列相关、非正态性以及异常观测值等问题。残差诊断不仅是回归建模的关键环节，也是确保统计推断

浏览 5 更新 2025-10-26

一、残差图分析

最基本的诊断工具是残差图。将残差（或标准化残差）对拟合值（或某个解释变量）作图，可以直观地检查多个假定。理想的残差图应呈现随机散布在零线周围的点云，无明显趋势或漏斗形。若残差随拟合值增大而扩散或收缩，提示存在异方差性。若残差呈现曲线模式（如U形或倒U形），则表明模型可能存在函数形式设定偏误，例如遗漏了平方项或交互项，或需要对因变量进行变换。此外，将残差对时间（或观测顺序）作图可用于检测序列相关：若相邻残差正相关，图中将呈现同向波动的簇状模式；若负相关，则残差频繁穿越零线。偏残差图（partial residual plot）还可用于检查每个解释变量的函数形式是否恰当，是诊断非线性关系的有效工具。

二、正态性检验

许多统计推断（如t检验、F检验）在小样本下依赖误差项的正态性假定。常用的正态性诊断方法包括：Q-Q图（分位数-分位数图），将残差的分位数与正态分布的理论分位数对比，若散点大致落在对角线上则正态性假定合理，若两端偏离对角线则提示厚尾或偏态分布；Jarque-Bera检验，基于残差的偏度和峰度构造统计量，在原假设（正态分布）下渐近服从自由度为2的卡方分布，当偏度偏离零或峰度偏离三时拒绝正态假定；Shapiro-Wilk检验在中小样本下具有较高的检验功效，是公认的正态性检验基准方法；Kolmogorov-Smirnov检验及其Lilliefors修正也可用于正态性判断，但功效通常低于Shapiro-Wilk检验。若残差严重偏离正态，可考虑对因变量进行变换（如对数变换、平方根变换、Box-Cox变换）或采用非参数方法。在样本量充足时，根据中心极限定理，参数估计的渐近正态性仍然成立，此时正态性假定在一定程度上可以放宽。

三、异方差性检验

当误差项的方差随解释变量变化时，普通最小二乘估计虽仍保持无偏性和一致性，但标准误有偏，导致t统计量和F统计量失效，置信区间不准确。常用检验包括：Breusch-Pagan检验，将残差平方对原解释变量做辅助回归，检验回归系数是否联合显著，其原假设为同方差，若辅助回归的LM统计量显著则拒绝原假设；White检验是Breusch-Pagan检验的一般化形式，在辅助回归中加入解释变量的平方项和交叉项，不依赖于特定的异方差结构，因此检测范围更广但自由度损失也更大。Goldfeld-Quandt检验适用于已知的二分法情形，将样本按某个变量排序后分为两组，比较两组残差平方和是否显著不同。若检测到异方差，可使用异方差稳健标准误（White标准误或Eicker-Huber-White标准误）进行修正，在大样本下提供一致的统计推断。另一种处理方式是采用加权最小二乘法，但需要正确指定方差函数的权重形式。

四、序列相关性检验

时间序列数据或面板数据中，误差项可能跨期相关，违反独立同分布假定。此时OLS估计虽无偏，但标准误低估，t统计量虚高，导致过度拒绝原假设。Durbin-Watson检验针对一阶自回归AR(1)结构，检验统计量d约为2(1−r)，其中r为残差的一阶自相关系数。d取值接近2表示无自相关，接近0表示正自相关，接近4表示负自相关。但Durbin-Watson检验存在无法覆盖的盲区，且不适用于模型中包含滞后因变量的情况。Breusch-Godfrey检验（LM检验）则更灵活，可检验任意阶数的自相关结构，且允许模型中包含滞后因变量，适用范围更广。Ljung-Box检验常用于时间序列模型的残差诊断，检验多个滞后期上残差自相关系数是否联合为零。处理序列相关的方法包括使用Newey-West异方差自相关一致标准误（HAC标准误）进行稳健推断，或采用广义最小二乘法（如Cochrane-Orcutt估计、Prais-Winsten估计）对模型进行重新估计。

五、异常值与强影响点诊断

个别观测值可能对回归结果产生不成比例的影响，甚至主导整个回归系数的估计。杠杆值（leverage）衡量自变量空间中观测值的极端程度，取值范围在0到1之间，平均杠杆值为k/n（k为解释变量个数）；标准化残差（或学生化残差）衡量因变量方向的异常程度，绝对值大于2或3的残差通常被视为异常；Cook距离（Cook's distance）综合杠杆值和残差大小，量化删除该观测后回归系数的整体变化幅度，一般认为Cook距离大于4/n的观测值值得重点关注。DFBETAS和DFFITS分别衡量单个观测对每个回归系数和拟合值的影响，是更细致的诊断指标。方差膨胀因子（VIF）则用于诊断多重共线性问题，VIF大于10（或严格标准为5）通常表明存在严重的共线性，导致系数估计方差过大。对异常值应仔细审查其产生原因，判断是数据录入错误、模型遗漏变量还是真实的极端情形，不可随意删除。

综上，残差诊断是回归建模中不可或缺的环节。研究者应结合图形方法与正式检验，系统地评估模型假定的合理性，并根据诊断结果采取相应的修正措施，从而保证统计推断的可靠性和结论的稳健性。在实践中，残差诊断应当在模型估计后立即执行，并作为经验研究的标准程序加以遵循。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。