ARTICLE

稳健统计量

稳健统计量 (Robust Statistics) 稳健统计量是 数理统计 中一类对数据分布的假设偏离(尤其是 异常值 和分布厚尾)具有不敏感性的统计方法。经典统计方法(如样本均值和最小二乘估计)在正态假设下具有优良性质,但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅

浏览 4 更新 2026-07-15

稳健统计量 (Robust Statistics)

稳健统计量数理统计 中一类对数据分布的假设偏离(尤其是 异常值 和分布厚尾)具有不敏感性的统计方法。经典统计方法(如样本均值和最小二乘估计)在正态假设下具有优良性质,但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅偏离理想模型时不致灾难性失效的统计推断程序。

稳健性的量化:影响函数与崩溃点

稳健性的形式化度量依赖两个核心概念。第一,影响函数(Influence Function, IF),由 Hampel(1974)引入,度量在给定分布 FF 下添加一个位于点 xx 的点质量污染对统计量 TT 的边际影响:

IF(x;T,F)=limε0T((1ε)F+εδx)T(F)ε\text{IF}(x; T, F) = \lim_{\varepsilon \to 0} \frac{T((1-\varepsilon)F + \varepsilon \delta_x) - T(F)}{\varepsilon}

若 IF 有界,统计量对任意位置的单个异常值具有有限敏感度;若 IF 无界(如样本均值),则极端异常值可造成任意大的偏误。第二,崩溃点(Breakdown Point)是使统计量完全失效所需的最小污染比例。样本均值的渐近崩溃点为 0——单个极端观察值即足以使其趋于无穷;样本中位数的崩溃点为 1/21/2,即需要至少一半数据被污染才能使其失效。崩溃点 1/21/2 是平移等变估计可达的理论上限。

二者互补地刻画了稳健性:影响函数描述小量污染的局部敏感度,崩溃点描述抵抗大规模污染的全局容忍度。高崩溃点且影响函数有界的统计量在理论和应用上均具有理想性质。

M-估计量

M-估计量(M-estimator)是最大似然估计的推广,由 Huber(1964)奠基。给定样本 x1,,xnx_1, \dots, x_n,M-估计量对位置参数 θ\theta 定义为最小化问题的解:

θ^=argminθi=1nρ(xiθσ)\hat{\theta} = \arg\min_{\theta} \sum_{i=1}^{n} \rho\left( \frac{x_i - \theta}{\sigma} \right)

其中 ρ()\rho(\cdot) 为选定的损失函数,σ\sigma 为尺度参数。对 θ\theta 求导得估计方程:

i=1nψ(xiθ^σ)=0,ψ=ρ\sum_{i=1}^{n} \psi\left( \frac{x_i - \hat{\theta}}{\sigma} \right) = 0, \quad \psi = \rho'

损失函数的选择决定了稳健性特征。Huber 损失 在中心区域采用二次损失(保留正态下的高效率),在尾部切换为线性损失(控制异常值影响):

ρH(u)={12u2,ukku12k2,u>k\rho_H(u) = \begin{cases} \frac{1}{2}u^2, & |u| \leq k \\ k|u| - \frac{1}{2}k^2, & |u| > k \end{cases}

其中调谐参数 kk 控制效率-稳健性权衡:kk \to \infty 退化为样本均值(最大效率但零崩溃点),k0k \to 0 趋近于样本中位数。通常取 k=1.345k = 1.345 使正态下渐近相对效率为 95\%。

Tukey 双权损失 进一步引入重降(redescending)的 ψ\psi 函数,使极端远距离观测值的影响完全为零:

ρB(u)={k26[1(1(u/k)2)3],ukk2/6,u>k\rho_B(u) = \begin{cases} \frac{k^2}{6}\left[1 - \left(1 - (u/k)^2\right)^3\right], & |u| \leq k \\ k^2/6, & |u| > k \end{cases}

重降 ψ\psi 函数赋予 M-估计量更高的崩溃点,但同时使目标函数非凸,求解需良好的初始值(通常由高崩溃点估计提供,如中位数或 LMS)。

其他稳健估计方法

第一,L-估计量(L-estimator)是次序统计量的线性组合,其一般形式为:

Tn=i=1ncniX(i)T_n = \sum_{i=1}^{n} c_{ni} X_{(i)}

其中 X(1)X(2)X(n)X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)} 为次序统计量。最常用的 α\alpha-修剪均值(Trimmed Mean)去掉上下各 α\alpha 比例的数据后取均值,通过调节修剪比例在均值与中位数之间连续过渡。中位数本身是最极端的修剪均值(α0.5\alpha \to 0.5)。L-估计量计算简便且直观,但影响函数呈阶梯形,在以精确 IF 有界性为关键准则的场合不如精心设计的 M-估计量。

第二,R-估计量(R-estimator)基于秩检验统计量的反演:从样本中任取两个观测值,计算其成对均值(Walsh 平均值),取其中位数即为 Hodges-Lehmann 估计量

θ^HL=medijXi+Xj2\hat{\theta}_{HL} = \text{med}_{i \leq j} \frac{X_i + X_j}{2}

HL 估计量在对称分布下具有优良效率,且崩溃点约为 11/20.2931 - 1/\sqrt{2} \approx 0.293,介于均值和普通中位数之间。

稳健尺度与相关估计

位置的稳健估计需要尺度参数的协同估计,因为标准化残差中的尺度直接影响异常值判别。标准选择是 中位数绝对离差(MAD):

MAD=mediXimedjXj\text{MAD} = \text{med}_i |X_i - \text{med}_j X_j|

经一致性因子 1.4826 缩放后,MAD 在正态分布下一致地估计标准差。MAD 的崩溃点为 1/21/2,远优于样本标准差的崩溃点 0。MAD 与中位数共同构成了稳健统计推断最基本的描述性工具组合。

稳健回归

在回归分析中,最小二乘法对响应变量中的异常值高度敏感,单一杠杆点即可显著扭曲回归系数。稳健回归方法通过替换二次损失来克服这一缺陷。

第一,M-估计回归 将位置估计中的 ρ\rho 函数推广至线性模型 yi=xiβ+εiy_i = \mathbf{x}_i^{\top}\boldsymbol{\beta} + \varepsilon_i

β^=argminβi=1nρ(yixiβσ)\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} \rho\left( \frac{y_i - \mathbf{x}_i^{\top}\boldsymbol{\beta}}{\sigma} \right)

迭代重加权最小二乘(IRLS)是标准求解算法。

第二,高崩溃点回归 是应对同时存在杠杆点和响应异常值的关键工具。最小中位方差估计(LMS)最小化残差平方的中位数而非总和;最小修剪平方和(LTS)仅保留最小 hh 个残差平方用于拟合,崩溃点可达 1/21/2。LTS 相比 LMS 具有更平滑的目标函数和更优的渐近性质,是现代高稳健回归的主流选择。实际应用中常采用"MM-估计"策略——以高崩溃点估计(如 LTS)为初始值,再以高效 M-估计做一步精炼,同时获得高崩溃点和高渐近效率。

应用与局限性

稳健统计方法在 计量经济学 中应用广泛:处理经济数据中常见的厚尾分布、录入错误与结构性断裂;在 实证产业组织 中用于估计需求弹性时抵御极端价格观测值的影响;在 金融计量 中的波动率建模亦受益于稳健协方差估计。然而稳健方法并非万能:当异常值承载实质性经济信息(如金融危机中的极端事件)时,自动降权可能丢失关键信号;高崩溃点方法在小样本下效率损失显著;稳健性调节参数的选择需结合领域知识审慎权衡。稳健统计的核心训诫不在于机械地使用稳健方法替代经典方法,而在于建立一套对数据实际行为保持警觉、对模型假设偏离保持抵抗力的统计思维习惯。