ARTICLE
稳健统计量
稳健统计量 (Robust Statistics) 稳健统计量是 数理统计 中一类对数据分布的假设偏离(尤其是 异常值 和分布厚尾)具有不敏感性的统计方法。经典统计方法(如样本均值和最小二乘估计)在正态假设下具有优良性质,但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅
稳健统计量 (Robust Statistics)
稳健统计量是 数理统计 中一类对数据分布的假设偏离(尤其是 异常值 和分布厚尾)具有不敏感性的统计方法。经典统计方法(如样本均值和最小二乘估计)在正态假设下具有优良性质,但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅偏离理想模型时不致灾难性失效的统计推断程序。
稳健性的量化:影响函数与崩溃点
稳健性的形式化度量依赖两个核心概念。第一,影响函数(Influence Function, IF),由 Hampel(1974)引入,度量在给定分布 下添加一个位于点 的点质量污染对统计量 的边际影响:
若 IF 有界,统计量对任意位置的单个异常值具有有限敏感度;若 IF 无界(如样本均值),则极端异常值可造成任意大的偏误。第二,崩溃点(Breakdown Point)是使统计量完全失效所需的最小污染比例。样本均值的渐近崩溃点为 0——单个极端观察值即足以使其趋于无穷;样本中位数的崩溃点为 ,即需要至少一半数据被污染才能使其失效。崩溃点 是平移等变估计可达的理论上限。
二者互补地刻画了稳健性:影响函数描述小量污染的局部敏感度,崩溃点描述抵抗大规模污染的全局容忍度。高崩溃点且影响函数有界的统计量在理论和应用上均具有理想性质。
M-估计量
M-估计量(M-estimator)是最大似然估计的推广,由 Huber(1964)奠基。给定样本 ,M-估计量对位置参数 定义为最小化问题的解:
其中 为选定的损失函数, 为尺度参数。对 求导得估计方程:
损失函数的选择决定了稳健性特征。Huber 损失 在中心区域采用二次损失(保留正态下的高效率),在尾部切换为线性损失(控制异常值影响):
其中调谐参数 控制效率-稳健性权衡: 退化为样本均值(最大效率但零崩溃点), 趋近于样本中位数。通常取 使正态下渐近相对效率为 95\%。
Tukey 双权损失 进一步引入重降(redescending)的 函数,使极端远距离观测值的影响完全为零:
重降 函数赋予 M-估计量更高的崩溃点,但同时使目标函数非凸,求解需良好的初始值(通常由高崩溃点估计提供,如中位数或 LMS)。
其他稳健估计方法
第一,L-估计量(L-estimator)是次序统计量的线性组合,其一般形式为:
其中 为次序统计量。最常用的 -修剪均值(Trimmed Mean)去掉上下各 比例的数据后取均值,通过调节修剪比例在均值与中位数之间连续过渡。中位数本身是最极端的修剪均值()。L-估计量计算简便且直观,但影响函数呈阶梯形,在以精确 IF 有界性为关键准则的场合不如精心设计的 M-估计量。
第二,R-估计量(R-estimator)基于秩检验统计量的反演:从样本中任取两个观测值,计算其成对均值(Walsh 平均值),取其中位数即为 Hodges-Lehmann 估计量:
HL 估计量在对称分布下具有优良效率,且崩溃点约为 ,介于均值和普通中位数之间。
稳健尺度与相关估计
位置的稳健估计需要尺度参数的协同估计,因为标准化残差中的尺度直接影响异常值判别。标准选择是 中位数绝对离差(MAD):
经一致性因子 1.4826 缩放后,MAD 在正态分布下一致地估计标准差。MAD 的崩溃点为 ,远优于样本标准差的崩溃点 0。MAD 与中位数共同构成了稳健统计推断最基本的描述性工具组合。
稳健回归
在回归分析中,最小二乘法对响应变量中的异常值高度敏感,单一杠杆点即可显著扭曲回归系数。稳健回归方法通过替换二次损失来克服这一缺陷。
第一,M-估计回归 将位置估计中的 函数推广至线性模型 :
迭代重加权最小二乘(IRLS)是标准求解算法。
第二,高崩溃点回归 是应对同时存在杠杆点和响应异常值的关键工具。最小中位方差估计(LMS)最小化残差平方的中位数而非总和;最小修剪平方和(LTS)仅保留最小 个残差平方用于拟合,崩溃点可达 。LTS 相比 LMS 具有更平滑的目标函数和更优的渐近性质,是现代高稳健回归的主流选择。实际应用中常采用"MM-估计"策略——以高崩溃点估计(如 LTS)为初始值,再以高效 M-估计做一步精炼,同时获得高崩溃点和高渐近效率。
应用与局限性
稳健统计方法在 计量经济学 中应用广泛:处理经济数据中常见的厚尾分布、录入错误与结构性断裂;在 实证产业组织 中用于估计需求弹性时抵御极端价格观测值的影响;在 金融计量 中的波动率建模亦受益于稳健协方差估计。然而稳健方法并非万能:当异常值承载实质性经济信息(如金融危机中的极端事件)时,自动降权可能丢失关键信号;高崩溃点方法在小样本下效率损失显著;稳健性调节参数的选择需结合领域知识审慎权衡。稳健统计的核心训诫不在于机械地使用稳健方法替代经典方法,而在于建立一套对数据实际行为保持警觉、对模型假设偏离保持抵抗力的统计思维习惯。