ARTICLE
库克距离
库克距离 (Cook's Distance) 库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量,由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时,回归模型中所有拟合值所发生的整体变化程度。库克距离越大,表明该观测点对回归结果的
库克距离 (Cook's Distance)
库克距离 (Cook's Distance) 是回归分析中用于识别强影响点 (Influential Points) 的一种常用诊断统计量,由美国统计学家 R. Dennis Cook 于 1977 年提出。它衡量当删除某个观测值时,回归模型中所有拟合值所发生的整体变化程度。库克距离越大,表明该观测点对回归结果的影响越强。
定义与公式
在标准线性回归模型 中,设共有 个观测值, 个解释变量(含截距项)。库克距离 的定义为:
其中 为全样本的参数估计向量, 为删除第 个观测值后的参数估计向量,MSE 为全样本的均方误差。该公式也可等价地表示为:
其中 为第 个观测值的残差, 为帽子矩阵的第 个对角元素(即杠杆值)。这一分解形式直观展示了库克距离的两个核心组成部分:残差大小和杠杆值。
判断标准
关于库克距离的临界值,尚无统一的严格标准。常用的经验法则包括:
- :该观测点值得进一步关注,这是最常用的阈值,其中 为样本量。
- :该观测点对回归结果的影响较大,可能需要处理。
在实际应用中,通常将库克距离与散点图或索引图结合使用,通过可视化手段更直观地识别异常点。
性质与关系
库克距离具有以下重要性质:非负性 ();综合衡量——同时考虑残差大小和杠杆值;尺度无关——与 变量的测量单位无关。
库克距离与其他回归诊断统计量密切相关:杠杆值仅衡量自变量空间中的极端程度;DFBETAS 衡量单个参数的变化;DFFITS 衡量单个拟合值的变化;而库克距离衡量所有拟合值的整体变化。
应用与局限
库克距离广泛应用于数据清洗与预处理、模型稳健性检验、经济与社会科学分析等领域。需要注意,库克距离无法识别掩盖效应 (Masking Effect),即多个异常点相互掩盖彼此影响的情况。此外,临界值仅为经验参考,缺乏严格的统计显著性检验框架。
主流统计软件均提供库克距离的计算功能:R 使用 \texttt{cooks.distance()} 函数;Python 的 \texttt{statsmodels} 库中 \texttt{OLSInfluence} 对象提供该属性;Stata 回归后使用 \texttt{predict d, cooksd} 命令。一旦识别出强影响点,研究者可核实数据、使用稳健回归方法、或进行变量变换来处理。
总结
库克距离是一种简单且有效的强影响点诊断工具,帮助研究者识别对回归结果产生不成比例影响的观测点,从而提升统计建模的可靠性和稳健性。在實際分析中,建议将其与残差图、QQ图等其他诊断手段配合使用,形成全面的模型评估策略。