ARTICLE

库克距离

库克距离 (Cook's Distance) 库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量，由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时，回归模型中所有拟合值所发生的整体变化程度。库克距离越大，表明该观测点对回归结果的

浏览 8 更新 2025-10-29

库克距离 (Cook's Distance)

库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量，由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时，回归模型中所有拟合值所发生的整体变化程度。库克距离越大，表明该观测点对回归结果的影响越强。

定义与公式

在标准线性回归模型 $y = X\beta + \varepsilon$ 中，设共有 $n$ 个观测值， $p$ 个解释变量（含截距项）。库克距离 $D_i$ 的定义为：

D_i = \frac{(\hat{\beta} - \hat{\beta}_{(i)})^\top X^\top X (\hat{\beta} - \hat{\beta}_{(i)})}{p \cdot \text{MSE}}

其中 $\hat{\beta}$ 为全样本的参数估计向量， $\hat{\beta}_{(i)}$ 为删除第 $i$ 个观测值后的参数估计向量，MSE 为全样本的均方误差。该公式也可等价地表示为：

D_i = \frac{e_i^2}{p \cdot \text{MSE}} \cdot \frac{h_{ii}}{(1 - h_{ii})^2}

其中 $e_i$ 为第 $i$ 个观测值的残差， $h_{ii}$ 为帽子矩阵的第 $i$ 个对角元素（即杠杆值）。这一分解形式直观展示了库克距离的两个核心组成部分：残差大小和杠杆值。

判断标准

关于库克距离的临界值，尚无统一的严格标准。常用的经验法则包括：

$D_i > 4/n$ ：该观测点值得进一步关注，这是最常用的阈值，其中 $n$ 为样本量。
$D_i > 1$ ：该观测点对回归结果的影响较大，可能需要处理。

在实际应用中，通常将库克距离与散点图或索引图结合使用，通过可视化手段更直观地识别异常点。

性质与关系

库克距离具有以下重要性质：非负性 ( $D_i \geq 0$ )；综合衡量——同时考虑残差大小和杠杆值；尺度无关——与 $y$ 变量的测量单位无关。

库克距离与其他回归诊断统计量密切相关：杠杆值仅衡量自变量空间中的极端程度；DFBETAS 衡量单个参数的变化；DFFITS 衡量单个拟合值的变化；而库克距离衡量所有拟合值的整体变化。

应用与局限

库克距离广泛应用于数据清洗与预处理、模型稳健性检验、经济与社会科学分析等领域。需要注意，库克距离无法识别掩盖效应 (Masking Effect)，即多个异常点相互掩盖彼此影响的情况。此外，临界值仅为经验参考，缺乏严格的统计显著性检验框架。

主流统计软件均提供库克距离的计算功能：R 使用 \texttt{cooks.distance()} 函数；Python 的 \texttt{statsmodels} 库中 \texttt{OLSInfluence} 对象提供该属性；Stata 回归后使用 \texttt{predict d, cooksd} 命令。一旦识别出强影响点，研究者可核实数据、使用稳健回归方法、或进行变量变换来处理。

总结

库克距离是一种简单且有效的强影响点诊断工具，帮助研究者识别对回归结果产生不成比例影响的观测点，从而提升统计建模的可靠性和稳健性。在實際分析中，建议将其与残差图、QQ图等其他诊断手段配合使用，形成全面的模型评估策略。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。