ARTICLE

库克距离

库克距离 (Cook's Distance) 库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量,由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时,回归模型中所有拟合值所发生的整体变化程度。库克距离越大,表明该观测点对回归结果的

浏览 8 更新 2025-10-29

库克距离 (Cook's Distance)

库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量,由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时,回归模型中所有拟合值所发生的整体变化程度。库克距离越大,表明该观测点对回归结果的影响越强。

定义与公式

在标准线性回归模型 y=Xβ+ε y = X\beta + \varepsilon 中,设共有 n n 个观测值,p p 个解释变量(含截距项)。库克距离 Di D_i 的定义为:

Di=(β^β^(i))XX(β^β^(i))pMSED_i = \frac{(\hat{\beta} - \hat{\beta}_{(i)})^\top X^\top X (\hat{\beta} - \hat{\beta}_{(i)})}{p \cdot \text{MSE}}

其中 β^ \hat{\beta} 为全样本的参数估计向量,β^(i) \hat{\beta}_{(i)} 为删除第 i i 个观测值后的参数估计向量,MSE 为全样本的均方误差。该公式也可等价地表示为:

Di=ei2pMSEhii(1hii)2D_i = \frac{e_i^2}{p \cdot \text{MSE}} \cdot \frac{h_{ii}}{(1 - h_{ii})^2}

其中 ei e_i 为第 i i 个观测值的残差hii h_{ii} 帽子矩阵的第 i i 个对角元素(即杠杆值)。这一分解形式直观展示了库克距离的两个核心组成部分:残差大小和杠杆值。

判断标准

关于库克距离的临界值,尚无统一的严格标准。常用的经验法则包括:

  • Di>4/n D_i > 4/n :该观测点值得进一步关注,这是最常用的阈值,其中 n n 为样本量。
  • Di>1 D_i > 1 :该观测点对回归结果的影响较大,可能需要处理。

在实际应用中,通常将库克距离与散点图或索引图结合使用,通过可视化手段更直观地识别异常点。

性质与关系

库克距离具有以下重要性质:非负性 (Di0 D_i \geq 0 );综合衡量——同时考虑残差大小和杠杆值;尺度无关——与 y y 变量的测量单位无关。

库克距离与其他回归诊断统计量密切相关:杠杆值仅衡量自变量空间中的极端程度;DFBETAS 衡量单个参数的变化;DFFITS 衡量单个拟合值的变化;而库克距离衡量所有拟合值的整体变化。

应用与局限

库克距离广泛应用于数据清洗与预处理、模型稳健性检验、经济与社会科学分析等领域。需要注意,库克距离无法识别掩盖效应 (Masking Effect),即多个异常点相互掩盖彼此影响的情况。此外,临界值仅为经验参考,缺乏严格的统计显著性检验框架。

主流统计软件均提供库克距离的计算功能:R 使用 \texttt{cooks.distance()} 函数;Python 的 \texttt{statsmodels} 库中 \texttt{OLSInfluence} 对象提供该属性;Stata 回归后使用 \texttt{predict d, cooksd} 命令。一旦识别出强影响点,研究者可核实数据、使用稳健回归方法、或进行变量变换来处理。

总结

库克距离是一种简单且有效的强影响点诊断工具,帮助研究者识别对回归结果产生不成比例影响的观测点,从而提升统计建模的可靠性和稳健性。在實際分析中,建议将其与残差图QQ图等其他诊断手段配合使用,形成全面的模型评估策略。