ARTICLE
稳健统计学
稳健统计学 (Robust Statistics) 稳健统计学是统计学的一个分支,研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时,统计方法仍能给出可靠推断的性质。经典统计方法(如样本均值、普通最小二乘法)在严格满足假设时是最优的,但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"
稳健统计学 (Robust Statistics)
稳健统计学是统计学的一个分支,研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时,统计方法仍能给出可靠推断的性质。经典统计方法(如样本均值、普通最小二乘法)在严格满足假设时是最优的,但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"的模型下仍具有实用可靠性。
核心概念
影响函数与定性稳健性
Hampel (1971, 1974) 引入了影响函数 (Influence Function, IF) 作为分析估计量对微小污染敏感性的核心工具。设 为定义在分布 上的泛函,其在分布 处的影响函数定义为:
其中 为点 处的退化分布。IF 描述单个观测值对估计量的边际影响:若 IF 无界——如样本均值 ——则单个极端值即可摧毁估计;若 IF 有界——如样本中位数——则是定性稳健的。
崩溃点
崩溃点 (Breakdown Point) 是衡量稳健性的全局指标,定义为使估计量变得完全无用的最小污染比例。样本均值的崩溃点仅为 (渐近于 0),而样本中位数的崩溃点为 ,即最多可容忍近 50\% 的污染。在线性回归中,OLS 的崩溃点为 0,高崩溃点方法如 LTS (最小截尾平方和) 可达 50\%。Hampel 指出,崩溃点是"定量稳健性"最直观的全局测度。
M-估计量
Huber (1964) 提出的M-估计量是极大似然估计的推广,通过求解
来估计位置参数 。 函数的选择决定了稳健性与效率的权衡:(无界)给出样本均值;Huber 的截尾 在正态分布下高效且稳健;Tukey 的双权重 (biweight) 对极端值赋予零权重,进一步压制远离中心的污染点。
经典方法与稳健方法对比
\begin{tabular}{lll} \hline 任务 \& 经典方法 \& 稳健方法 \\ \hline 位置估计 \& 样本均值 \& 中位数 / 截尾均值 / Huber M-估计 \\ 尺度估计 \& 标准差 \& MAD / IQR / \\ 回归分析 \& OLS \& Huber回归 / LTS / MM-估计 \\ 相关分析 \& Pearson \& Spearman / Kendall \\ \hline \end{tabular}
其中 MAD (中位绝对离差) 定义为 ,崩溃点 50\%,远比标准差稳健。Rousseeuw 和 Croux (1993) 提出的 具有同等崩溃点和更高的正态分布效率。
稳健回归
在线性回归 中,OLS 最小化 ,对高杠杆点和大的残差惩罚过重。稳健回归的核心策略包括:
- M-回归 (Huber, 1973):最小化 ,其中 增长慢于二次。Huber 的 函数在 时使用二次损失,在 时切换为线性,从而限制离群值的权重。
- LTS (最小截尾平方和):仅对残差平方最小的 个观测()求和,其余观测被自动剔除,崩溃点由 控制,最高约 50\%。
- MM-估计 (Yohai, 1987):分两步——先获得高崩溃点初始尺度估计,再在约束尺度不变的条件下用高效 函数优化系数,同时实现高崩溃点(第一阶段)和高效率(第二阶段)。
现代应用与前沿
稳健统计学的思想已渗透到现代数据科学的多个领域。机器学习中的Huber损失是 M-估计的直接延伸,广泛用于大噪声场景下的鲁棒回归。计量经济学中的HAC稳健标准误确保推断在异方差和自相关情形下保持有效。金融风险管理中,稳健协方差矩阵估计(如 MCD, Minimum Covariance Determinant)用于识别多变量异常值。Hampel 等人 (1986) 的专著 Robust Statistics: The Approach Based on Influence Functions 是该领域的里程碑。当代前沿包括高维稳健估计(崩溃点概念在 下的推广)、鲁棒深度学习和分布式稳健聚合方法。