ARTICLE

影响点

影响点 (Influence Point) 影响点是回归诊断中的核心概念，指那些对最小二乘法回归结果产生不成比例影响的观测数据点。一个点是否具有"影响"取决于两个维度的交互：它在解释变量空间中的极端程度（杠杆值）以及其响应变量偏离回归趋势的程度（离群值）。仅当高杠杆与大残差兼备时，一个点才真正"拉动"回归线，构成名副其实的影响点。影响点的识别是现代统计建模

浏览 4 更新 2025-12-15

影响点 (Influence Point)

影响点是回归诊断中的核心概念，指那些对最小二乘法回归结果产生不成比例影响的观测数据点。一个点是否具有"影响"取决于两个维度的交互：它在解释变量空间中的极端程度（杠杆值）以及其响应变量偏离回归趋势的程度（离群值）。仅当高杠杆与大残差兼备时，一个点才真正"拉动"回归线，构成名副其实的影响点。

影响点的识别是现代统计建模中不可或缺的诊断步骤。在经济计量学中，一个极端年份的数据可能完全颠覆政策评估结论；在医学统计中，少数异常病例的纳入与否可能反转一项治疗的效果判断；在机器学习中，理解训练样本的影响力更是模型可解释性研究的前沿课题。忽视影响点而直接报告回归结果，无异于在不知数据面貌的情况下发表结论，风险极大。

杠杆值 (Leverage)

杠杆值衡量一个观测点在解释变量空间中距离数据中心有多远。它由帽子矩阵 $H = X(X^TX)^{-1}X^T$ 的对角线元素 $h_{ii}$ 给出。帽子矩阵之所以得名，是因为它将观测向量 $y$ "投射"为拟合向量 $\hat{y} = Hy$ ，犹如给 $y$ 戴上一顶帽子。

杠杆值 $h_{ii}$ 满足两个重要约束：取值范围在 $1/n$ 到 $1$ 之间（ $n$ 为样本量），且所有 $h_{ii}$ 之和等于参数个数 $p$ （即 $\sum h_{ii} = p$ ），故其均值为 $p/n$ 。实践中常用 $2p/n$ 或 $3p/n$ 作为高杠杆的警示阈值。

值得注意的是，高杠杆点本身不一定有害——如果它在响应变量上也贴近回归趋势，反而能为斜率估计提供有力的信息支撑。真正危险的是高杠杆与离群属性的叠加。

库克距离 (Cook's Distance)

库克距离由统计学家R. Dennis Cook于1977年在《Technometrics》上提出，至今仍是最广泛使用的影响度量。其核心思想是：逐次删除每一个观测点，观察所有拟合值随之发生多大的整体变动。数学上定义为：

D_i = \frac{\sum_{j=1}^{n} (\hat{y}_j - \hat{y}_{j(i)})^2}{p \cdot \text{MSE}} = \frac{r_i^2}{p} \cdot \frac{h_{ii}}{1 - h_{ii}}

其中 $\hat{y}_{j(i)}$ 是删除第 $i$ 个观测后第 $j$ 个点的拟合值， $r_i$ 为学生化残差，MSE 为均方误差。该公式揭示了库克距离的本质结构——它恰好分解为残差项的平方与杠杆项的乘积。换言之，一个点要获得大的库克距离，必须同时在残差和杠杆两个维度上都"出格"。

就判断标准而言， $D_i > 4/n$ （其中 $n$ 为样本量）通常被认为值得关注，而 $D_i > 1$ 则意味着该点对整体拟合产生了实质性影响。在大样本研究中，前者是更常用的参考线。

DFFITS 与 DFBETAS

DFFITS由Belsley、Kuh与Welsch在1980年合著的《Regression Diagnostics》中系统提出。与库克距离着眼于所有拟合值的整体变化不同，DFFITS 聚焦于删除第 $i$ 个观测后该点自身拟合值的变化，并以标准误进行尺度化：

\text{DFFITS}_i = \frac{\hat{y}_i - \hat{y}_{i(i)}}{\text{SE}(\hat{y}_i)} = r_i^* \sqrt{\frac{h_{ii}}{1 - h_{ii}}}

其中 $r_i^*$ 为外部学生化残差（即剔除该点后估计的残差标准误）。推荐阈值为 $2\sqrt{p/n}$ ，超出此界限的点被视为影响点。

DFBETAS则将影响进一步拆解到每个回归系数的层面。具体而言， $\text{DFBETAS}_{i,\,j}$ 衡量删除第 $i$ 个观测后第 $j$ 个回归系数 $\hat{\beta}_j$ 的变化幅度（以 $\hat{\beta}_j$ 的标准差为单位）。常用阈值取 $2/\sqrt{n}$ 。这一诊断工具使研究者能够精确定位：某个影响点究竟在"扭曲"截距项、某个关键解释变量的系数，还是整个模型的结构。例如，在一项工资方程的研究中，CEO样本可能仅对截距产生 DFBETAS 超标，而对教育回报率的系数影响不大——这种细分信息对判断如何处理影响点至关重要。

其他影响度量

除上述经典度量外，协方差比 (Covariance Ratio, COVRATIO) 衡量删除第 $i$ 个点后系数估计的协方差矩阵行列式的相对变化，综合反映了该点对估计精度的影响。当 $|\text{COVRATIO}_i - 1|$ 超过 $3p/n$ 时需引起警觉。此外，Welsch距离 (Welsch Distance) 和似然距离 (Likelihood Distance) 为广义线性模型和更复杂模型中的影响评估提供了推广路径。

影响点的成因与处理

影响点的来源大致可分为三类。其一，数据录入或测量误差——例如小数点错位、单位混淆或仪器故障，这类错误如能确认，修正或剔除是合理的。其二，样本异质性——数据中混入了不属于目标总体的个体（如成年人身高数据中混入了儿童的记录），此时应审慎考虑样本纳入标准。其三，真实但极端的观测——例如研究企业规模与创新的关系时，少数超大企业的数据天然具有高杠杆，它们反映的是真实的分布尾端信息，不应简单删除。

对应的处理策略依情形而定：

核实数据来源：对每个标记的影响点回溯原始记录。若可确证错误，修正后再行分析。
稳健回归方法：当影响点来自真实的厚尾分布时，可改用对极端值不敏感的估计方法，如M估计（使用Huber损失函数或Tukey双权函数）、最小截平方和回归 (LTS) 或分位数回归。这些方法通过自适应地降低潜在影响点的权重来实现稳健推断。
敏感性报告：分别汇报包含与排除影响点的回归结果，讨论核心结论对少数观测的依赖程度。这是目前社会科学和医学统计中最受推崇的做法。
变量变换：对数变换、平方根变换或Box-Cox变换有时能同时缩减杠杆值和残差，从根源上缓解影响问题。

与相关概念的辨析

影响点与若干邻近概念常被混淆，有必要厘清。离群值仅涉及响应变量方向上的异常，一个点可能残差极大但杠杆值不高；高杠杆点仅涉及解释变量方向上的异常，一个点可能在自变量空间中极端却完美落在回归线附近。影响点是二者的交集——既在 $X$ 空间极端，又在 $Y$ 方向上偏离趋势。理解这一区分是正确开展回归诊断的前提。

在更广阔的背景下，影响点的思想已从经典线性回归扩展到广义线性模型（通过Pregibon的 $\Delta\beta$ 统计量）、混合效应模型和生存分析等框架。在机器学习领域，Koh和Liang于2017年将稳健统计中的影响函数重新引入深度学习语境，利用Hessian向量积高效近似单个训练样本对模型参数和预测的影响，为理解黑箱模型的预测行为提供了有力的分析工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。