ARTICLE

影响点

影响点 (Influence Point) 影响点是回归诊断中的核心概念,指那些对最小二乘法回归结果产生不成比例影响的观测数据点。一个点是否具有"影响"取决于两个维度的交互:它在解释变量空间中的极端程度(杠杆值)以及其响应变量偏离回归趋势的程度(离群值)。仅当高杠杆与大残差兼备时,一个点才真正"拉动"回归线,构成名副其实的影响点。 影响点的识别是现代统计建模

浏览 4 更新 2025-12-15

影响点 (Influence Point)

影响点回归诊断中的核心概念,指那些对最小二乘法回归结果产生不成比例影响的观测数据点。一个点是否具有"影响"取决于两个维度的交互:它在解释变量空间中的极端程度(杠杆值)以及其响应变量偏离回归趋势的程度(离群值)。仅当高杠杆与大残差兼备时,一个点才真正"拉动"回归线,构成名副其实的影响点。

影响点的识别是现代统计建模中不可或缺的诊断步骤。在经济计量学中,一个极端年份的数据可能完全颠覆政策评估结论;在医学统计中,少数异常病例的纳入与否可能反转一项治疗的效果判断;在机器学习中,理解训练样本的影响力更是模型可解释性研究的前沿课题。忽视影响点而直接报告回归结果,无异于在不知数据面貌的情况下发表结论,风险极大。

杠杆值 (Leverage)

杠杆值衡量一个观测点在解释变量空间中距离数据中心有多远。它由帽子矩阵 H=X(XTX)1XTH = X(X^TX)^{-1}X^T 的对角线元素 hiih_{ii} 给出。帽子矩阵之所以得名,是因为它将观测向量 yy "投射"为拟合向量 y^=Hy\hat{y} = Hy,犹如给 yy 戴上一顶帽子。

杠杆值 hiih_{ii} 满足两个重要约束:取值范围在 1/n1/n11 之间(nn 为样本量),且所有 hiih_{ii} 之和等于参数个数 pp(即 hii=p\sum h_{ii} = p),故其均值为 p/np/n。实践中常用 2p/n2p/n3p/n3p/n 作为高杠杆的警示阈值。

值得注意的是,高杠杆点本身不一定有害——如果它在响应变量上也贴近回归趋势,反而能为斜率估计提供有力的信息支撑。真正危险的是高杠杆与离群属性的叠加。

库克距离 (Cook's Distance)

库克距离由统计学家R. Dennis Cook于1977年在《Technometrics》上提出,至今仍是最广泛使用的影响度量。其核心思想是:逐次删除每一个观测点,观察所有拟合值随之发生多大的整体变动。数学上定义为:

Di=j=1n(y^jy^j(i))2pMSE=ri2phii1hiiD_i = \frac{\sum_{j=1}^{n} (\hat{y}_j - \hat{y}_{j(i)})^2}{p \cdot \text{MSE}} = \frac{r_i^2}{p} \cdot \frac{h_{ii}}{1 - h_{ii}}

其中 y^j(i)\hat{y}_{j(i)} 是删除第 ii 个观测后第 jj 个点的拟合值,rir_i学生化残差,MSE 为均方误差。该公式揭示了库克距离的本质结构——它恰好分解为残差项的平方与杠杆项的乘积。换言之,一个点要获得大的库克距离,必须同时在残差和杠杆两个维度上都"出格"。

就判断标准而言,Di>4/nD_i > 4/n(其中 nn 为样本量)通常被认为值得关注,而 Di>1D_i > 1 则意味着该点对整体拟合产生了实质性影响。在大样本研究中,前者是更常用的参考线。

DFFITS 与 DFBETAS

DFFITSBelsleyKuhWelsch在1980年合著的《Regression Diagnostics》中系统提出。与库克距离着眼于所有拟合值的整体变化不同,DFFITS 聚焦于删除第 ii 个观测后该点自身拟合值的变化,并以标准误进行尺度化:

DFFITSi=y^iy^i(i)SE(y^i)=rihii1hii\text{DFFITS}_i = \frac{\hat{y}_i - \hat{y}_{i(i)}}{\text{SE}(\hat{y}_i)} = r_i^* \sqrt{\frac{h_{ii}}{1 - h_{ii}}}

其中 rir_i^*外部学生化残差(即剔除该点后估计的残差标准误)。推荐阈值为 2p/n2\sqrt{p/n},超出此界限的点被视为影响点。

DFBETAS则将影响进一步拆解到每个回归系数的层面。具体而言,DFBETASi,j\text{DFBETAS}_{i,\,j} 衡量删除第 ii 个观测后第 jj 个回归系数 β^j\hat{\beta}_j 的变化幅度(以 β^j\hat{\beta}_j 的标准差为单位)。常用阈值取 2/n2/\sqrt{n}。这一诊断工具使研究者能够精确定位:某个影响点究竟在"扭曲"截距项、某个关键解释变量的系数,还是整个模型的结构。例如,在一项工资方程的研究中,CEO样本可能仅对截距产生 DFBETAS 超标,而对教育回报率的系数影响不大——这种细分信息对判断如何处理影响点至关重要。

其他影响度量

除上述经典度量外,协方差比 (Covariance Ratio, COVRATIO) 衡量删除第 ii 个点后系数估计的协方差矩阵行列式的相对变化,综合反映了该点对估计精度的影响。当 COVRATIOi1|\text{COVRATIO}_i - 1| 超过 3p/n3p/n 时需引起警觉。此外,Welsch距离 (Welsch Distance) 和似然距离 (Likelihood Distance) 为广义线性模型和更复杂模型中的影响评估提供了推广路径。

影响点的成因与处理

影响点的来源大致可分为三类。其一,数据录入或测量误差——例如小数点错位、单位混淆或仪器故障,这类错误如能确认,修正或剔除是合理的。其二,样本异质性——数据中混入了不属于目标总体的个体(如成年人身高数据中混入了儿童的记录),此时应审慎考虑样本纳入标准。其三,真实但极端的观测——例如研究企业规模与创新的关系时,少数超大企业的数据天然具有高杠杆,它们反映的是真实的分布尾端信息,不应简单删除。

对应的处理策略依情形而定:

  1. 核实数据来源:对每个标记的影响点回溯原始记录。若可确证错误,修正后再行分析。
  2. 稳健回归方法:当影响点来自真实的厚尾分布时,可改用对极端值不敏感的估计方法,如M估计(使用Huber损失函数Tukey双权函数)、最小截平方和回归 (LTS) 或分位数回归。这些方法通过自适应地降低潜在影响点的权重来实现稳健推断。
  3. 敏感性报告:分别汇报包含与排除影响点的回归结果,讨论核心结论对少数观测的依赖程度。这是目前社会科学和医学统计中最受推崇的做法。
  4. 变量变换:对数变换、平方根变换或Box-Cox变换有时能同时缩减杠杆值和残差,从根源上缓解影响问题。

与相关概念的辨析

影响点与若干邻近概念常被混淆,有必要厘清。离群值仅涉及响应变量方向上的异常,一个点可能残差极大但杠杆值不高;高杠杆点仅涉及解释变量方向上的异常,一个点可能在自变量空间中极端却完美落在回归线附近。影响点是二者的交集——既在 XX 空间极端,又在 YY 方向上偏离趋势。理解这一区分是正确开展回归诊断的前提。

在更广阔的背景下,影响点的思想已从经典线性回归扩展到广义线性模型(通过Pregibon的Δβ\Delta\beta统计量)、混合效应模型生存分析等框架。在机器学习领域,Koh和Liang于2017年将稳健统计中的影响函数重新引入深度学习语境,利用Hessian向量积高效近似单个训练样本对模型参数和预测的影响,为理解黑箱模型的预测行为提供了有力的分析工具。