ARTICLE

稳健统计学

稳健统计学 (Robust Statistics) 稳健统计学是统计学的一个分支，研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时，统计方法仍能给出可靠推断的性质。经典统计方法（如样本均值、普通最小二乘法）在严格满足假设时是最优的，但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"

浏览 5 更新 2026-07-20

稳健统计学 (Robust Statistics)

稳健统计学是统计学的一个分支，研究当数据偏离理想模型假设——如正态性、独立性、无异常值——时，统计方法仍能给出可靠推断的性质。经典统计方法（如样本均值、普通最小二乘法）在严格满足假设时是最优的，但少量离群值或分布尾部略厚于正态即可使其性能急剧恶化。稳健统计学的核心目标是确保推断在"近似正确"而非"精确正确"的模型下仍具有实用可靠性。

核心概念

影响函数与定性稳健性

Hampel (1971, 1974) 引入了影响函数 (Influence Function, IF) 作为分析估计量对微小污染敏感性的核心工具。设 $T(G)$ 为定义在分布 $G$ 上的泛函，其在分布 $F$ 处的影响函数定义为：

\text{IF}(x; T, F) = \lim_{\varepsilon \to 0} \frac{T((1-\varepsilon)F + \varepsilon \delta_x) - T(F)}{\varepsilon}

其中 $\delta_x$ 为点 $x$ 处的退化分布。IF 描述单个观测值对估计量的边际影响：若 IF 无界——如样本均值 $\text{IF}(x) = x - \mu$ ——则单个极端值即可摧毁估计；若 IF 有界——如样本中位数——则是定性稳健的。

崩溃点

崩溃点 (Breakdown Point) 是衡量稳健性的全局指标，定义为使估计量变得完全无用的最小污染比例。样本均值的崩溃点仅为 $1/n$ （渐近于 0），而样本中位数的崩溃点为 $1/2$ ，即最多可容忍近 50\% 的污染。在线性回归中，OLS 的崩溃点为 0，高崩溃点方法如 LTS (最小截尾平方和) 可达 50\%。Hampel 指出，崩溃点是"定量稳健性"最直观的全局测度。

M-估计量

Huber (1964) 提出的M-估计量是极大似然估计的推广，通过求解

\sum_{i=1}^{n} \psi\left(\frac{x_i - \hat{\theta}}{\hat{\sigma}}\right) = 0

来估计位置参数 $\theta$ 。 $\psi$ 函数的选择决定了稳健性与效率的权衡： $\psi(u) = u$ （无界）给出样本均值；Huber 的截尾 $\psi(u) = \max[-k, \min(k, u)]$ 在正态分布下高效且稳健；Tukey 的双权重 (biweight) $\psi(u) = u (1-u^2)^2 \cdot \mathbf{1}_{|u| \le 1}$ 对极端值赋予零权重，进一步压制远离中心的污染点。

经典方法与稳健方法对比

\begin{tabular}{lll} \hline 任务 \& 经典方法 \& 稳健方法 \\ \hline 位置估计 \& 样本均值 \& 中位数 / 截尾均值 / Huber M-估计 \\ 尺度估计 \& 标准差 \& MAD / IQR / $Q_n$ \\ 回归分析 \& OLS \& Huber回归 / LTS / MM-估计 \\ 相关分析 \& Pearson $r$ \& Spearman $\rho$ / Kendall $\tau$ \\ \hline \end{tabular}

其中 MAD (中位绝对离差) 定义为 $\text{MAD} = \text{median}_i |x_i - \text{median}_j(x_j)|$ ，崩溃点 50\%，远比标准差稳健。Rousseeuw 和 Croux (1993) 提出的 $Q_n$ 具有同等崩溃点和更高的正态分布效率。

稳健回归

在线性回归 $y_i = \mathbf{x}_i^\top \beta + \varepsilon_i$ 中，OLS 最小化 $\sum r_i^2$ ，对高杠杆点和大的残差惩罚过重。稳健回归的核心策略包括：

M-回归 (Huber, 1973)：最小化 $\sum \rho(r_i/\sigma)$ ，其中 $\rho$ 增长慢于二次。Huber 的 $\rho$ 函数在 $|r| \le k$ 时使用二次损失，在 $|r| > k$ 时切换为线性，从而限制离群值的权重。
LTS (最小截尾平方和)：仅对残差平方最小的 $h$ 个观测（ $h < n$ ）求和，其余观测被自动剔除，崩溃点由 $h/n$ 控制，最高约 50\%。
MM-估计 (Yohai, 1987)：分两步——先获得高崩溃点初始尺度估计，再在约束尺度不变的条件下用高效 $\rho$ 函数优化系数，同时实现高崩溃点（第一阶段）和高效率（第二阶段）。

现代应用与前沿

稳健统计学的思想已渗透到现代数据科学的多个领域。机器学习中的Huber损失是 M-估计的直接延伸，广泛用于大噪声场景下的鲁棒回归。计量经济学中的HAC稳健标准误确保推断在异方差和自相关情形下保持有效。金融风险管理中，稳健协方差矩阵估计（如 MCD, Minimum Covariance Determinant）用于识别多变量异常值。Hampel 等人 (1986) 的专著 Robust Statistics: The Approach Based on Influence Functions 是该领域的里程碑。当代前沿包括高维稳健估计（崩溃点概念在 $p \gg n$ 下的推广）、鲁棒深度学习和分布式稳健聚合方法。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。