ARTICLE

稳健统计学

稳健统计学 (Robust Statistics) 稳健统计学是统计学的一个分支,研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时,统计方法仍能给出可靠推断的性质。经典统计方法(如样本均值、普通最小二乘法)在严格满足假设时是最优的,但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"

浏览 5 更新 2026-07-20

稳健统计学 (Robust Statistics)

稳健统计学是统计学的一个分支,研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时,统计方法仍能给出可靠推断的性质。经典统计方法(如样本均值、普通最小二乘法)在严格满足假设时是最优的,但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"的模型下仍具有实用可靠性。

核心概念

影响函数与定性稳健性

Hampel (1971, 1974) 引入了影响函数 (Influence Function, IF) 作为分析估计量对微小污染敏感性的核心工具。设 T(G)T(G) 为定义在分布 GG 上的泛函,其在分布 FF 处的影响函数定义为:

IF(x;T,F)=limε0T((1ε)F+εδx)T(F)ε\text{IF}(x; T, F) = \lim_{\varepsilon \to 0} \frac{T((1-\varepsilon)F + \varepsilon \delta_x) - T(F)}{\varepsilon}

其中 δx\delta_x 为点 xx 处的退化分布。IF 描述单个观测值对估计量的边际影响:若 IF 无界——如样本均值 IF(x)=xμ\text{IF}(x) = x - \mu——则单个极端值即可摧毁估计;若 IF 有界——如样本中位数——则是定性稳健的。

崩溃点

崩溃点 (Breakdown Point) 是衡量稳健性的全局指标,定义为使估计量变得完全无用的最小污染比例。样本均值的崩溃点仅为 1/n1/n(渐近于 0),而样本中位数的崩溃点为 1/21/2,即最多可容忍近 50\% 的污染。在线性回归中,OLS 的崩溃点为 0,高崩溃点方法如 LTS (最小截尾平方和) 可达 50\%。Hampel 指出,崩溃点是"定量稳健性"最直观的全局测度。

M-估计量

Huber (1964) 提出的M-估计量极大似然估计的推广,通过求解

i=1nψ(xiθ^σ^)=0\sum_{i=1}^{n} \psi\left(\frac{x_i - \hat{\theta}}{\hat{\sigma}}\right) = 0

来估计位置参数 θ\thetaψ\psi 函数的选择决定了稳健性与效率的权衡:ψ(u)=u\psi(u) = u(无界)给出样本均值;Huber 的截尾 ψ(u)=max[k,min(k,u)]\psi(u) = \max[-k, \min(k, u)] 在正态分布下高效且稳健;Tukey 的双权重 (biweight) ψ(u)=u(1u2)21u1\psi(u) = u (1-u^2)^2 \cdot \mathbf{1}_{|u| \le 1} 对极端值赋予零权重,进一步压制远离中心的污染点。

经典方法与稳健方法对比

\begin{tabular}{lll} \hline 任务 \& 经典方法 \& 稳健方法 \\ \hline 位置估计 \& 样本均值 \& 中位数 / 截尾均值 / Huber M-估计 \\ 尺度估计 \& 标准差 \& MAD / IQR / QnQ_n \\ 回归分析 \& OLS \& Huber回归 / LTS / MM-估计 \\ 相关分析 \& Pearson rr \& Spearman ρ\rho / Kendall τ\tau \\ \hline \end{tabular}

其中 MAD (中位绝对离差) 定义为 MAD=medianiximedianj(xj)\text{MAD} = \text{median}_i |x_i - \text{median}_j(x_j)|,崩溃点 50\%,远比标准差稳健。Rousseeuw 和 Croux (1993) 提出的 QnQ_n 具有同等崩溃点和更高的正态分布效率。

稳健回归

在线性回归 yi=xiβ+εiy_i = \mathbf{x}_i^\top \beta + \varepsilon_i 中,OLS 最小化 ri2\sum r_i^2,对高杠杆点和大的残差惩罚过重。稳健回归的核心策略包括:

  1. M-回归 (Huber, 1973):最小化 ρ(ri/σ)\sum \rho(r_i/\sigma),其中 ρ\rho 增长慢于二次。Huber 的 ρ\rho 函数在 rk|r| \le k 时使用二次损失,在 r>k|r| > k 时切换为线性,从而限制离群值的权重。
  2. LTS (最小截尾平方和):仅对残差平方最小的 hh 个观测(h<nh < n)求和,其余观测被自动剔除,崩溃点由 h/nh/n 控制,最高约 50\%。
  3. MM-估计 (Yohai, 1987):分两步——先获得高崩溃点初始尺度估计,再在约束尺度不变的条件下用高效 ρ\rho 函数优化系数,同时实现高崩溃点(第一阶段)和高效率(第二阶段)。

现代应用与前沿

稳健统计学的思想已渗透到现代数据科学的多个领域。机器学习中的Huber损失是 M-估计的直接延伸,广泛用于大噪声场景下的鲁棒回归。计量经济学中的HAC稳健标准误确保推断在异方差和自相关情形下保持有效。金融风险管理中,稳健协方差矩阵估计(如 MCD, Minimum Covariance Determinant)用于识别多变量异常值。Hampel 等人 (1986) 的专著 Robust Statistics: The Approach Based on Influence Functions 是该领域的里程碑。当代前沿包括高维稳健估计(崩溃点概念在 pnp \gg n 下的推广)、鲁棒深度学习和分布式稳健聚合方法。