ARTICLE

Jackknife

Jackknife(刀切法) Jackknife(刀切法,又称折刀法或切分法)是一种经典的重抽样(resampling)技术,主要用于统计推断中评估估计量的偏差、方差以及构建置信区间。该方法由Maurice Quenouille于1949年首次提出用于偏差矫正,由John Tukey于1958年扩展并正式命名。作为一种非参数方法,Jackknife通过系统地

浏览 390 更新 2025-11-12

Jackknife(刀切法)

Jackknife(刀切法,又称折刀法或切分法)是一种经典的重抽样(resampling)技术,主要用于统计推断中评估估计量偏差方差以及构建置信区间。该方法由Maurice Quenouille于1949年首次提出用于偏差矫正,由John Tukey于1958年扩展并正式命名。作为一种非参数方法,Jackknife通过系统地剔除观测值来评估单个数据点对整体估计的影响,为估计量的统计性质提供稳健评估——正如其名称寓意,这是一种类似瑞士军刀般用途广泛的统计工具。

基本思想与原理

Jackknife的核心思想是通过"留一法"(leave-one-out)系统地评估单个观测值的影响。对于包含nn个观测值的样本,Jackknife构造nn个刀切样本(jackknife samples),每个样本剔除一个不同的观测值。给定原始样本X=(X1,,Xn)X = (X_1,\ldots,X_n)和估计量θ^=T(X)\hat{\theta} = T(X):第ii个刀切样本为剔除第ii个观测后的X(i)X_{(i)}(含n1n-1个观测),相应的刀切重复值为θ^(i)=T(X(i))\hat{\theta}_{(i)} = T(X_{(i)})。基于这些重复值计算伪值(pseudo-values):θ~i=nθ^(n1)θ^(i)\tilde{\theta}_i = n\hat{\theta} - (n-1)\hat{\theta}_{(i)}——伪值量化了第ii个观测对总体估计的贡献程度。当估计量为线性估计量时伪值恰好等于各观测的独立贡献;对于非线性估计量伪值近似视为各观测对估计的影响度量。

偏差估计与方差估计

Jackknife偏差估计为Bias^jack=(n1)(θˉ()θ^)\widehat{Bias}_{jack} = (n-1)(\bar{\theta}_{(\cdot)} - \hat{\theta}),其中θˉ()\bar{\theta}_{(\cdot)}为所有刀切重复值的均值。直觉上,若剔除一个观测导致估计量显著变化,则表明原始估计量可能存在较大偏差;因子(n1)(n-1)的引入是为了获得偏差的一致估计。基于偏差估计构造Jackknife偏差矫正估计量θ^jack=nθ^(n1)θˉ()\hat{\theta}_{jack} = n\hat{\theta} - (n-1)\bar{\theta}_{(\cdot)}——这也等于伪值均值。对于许多平滑估计量(smooth estimators),矫正后偏差阶数从O(n1)O(n^{-1})降至O(n2)O(n^{-2}),实现显著去偏效果。

方差估计方面,Jackknife方差估计量为Var^jack(θ^)=n1ni=1n(θ^(i)θˉ())2\widehat{Var}_{jack}(\hat{\theta}) = \frac{n-1}{n}\sum_{i=1}^n(\hat{\theta}_{(i)} - \bar{\theta}_{(\cdot)})^2——利用刀切重复值时在平均值周围的变异程度来估计原始估计量的抽样方差。Jackknife方差估计的一致性取决于估计量的光滑性:对于样本均值等光滑估计量Jackknife方差估计一致,但对于样本中位数等非光滑估计量Jackknife方差估计可能不一致——这是Jackknife方法的一个关键局限(Bootstrap在非光滑统计量上通常表现更优)。

与Bootstrap的比较及应用

Jackknife可视为Bootstrap方法的前身和简化版。主要区别在于重抽样方式:Jackknife是确定性方法——固定构造nn个各缺一个观测的子样本;Bootstrap是随机方法——从原始样本中有放回随机抽取B个子样本(通常B远大于n)。Jackknife计算量较小(仅为nn次重复),适用于光滑估计量的偏差和方差估计;Bootstrap计算量较大但适用范围更广,对非光滑统计量也有效。

计量经济学实证研究中,Jackknife在以下场景尤为常用:稳健标准误的估计、偏误矫正、影响分析(识别对估计量影响最大的观测值)、以及受限因变量模型等非线性模型的方差估计。在机器学习中leave-one-out交叉验证(LOOCV)本质上也是Jackknife思想的直接体现——逐次留出一份样本用于验证其余样本训练的模型。Jackknife以其计算效率和理论简洁性,在重抽样方法体系中与Bootstrap互补,构成了现代数据驱动统计推断的重要工具箱。