ARTICLE

稳健统计量

稳健统计量 (Robust Statistics) 稳健统计量是数理统计中一类对数据分布的假设偏离（尤其是异常值和分布厚尾）具有不敏感性的统计方法。经典统计方法（如样本均值和最小二乘估计）在正态假设下具有优良性质，但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅

浏览 4 更新 2026-07-15

稳健统计量 (Robust Statistics)

稳健统计量是数理统计中一类对数据分布的假设偏离（尤其是异常值和分布厚尾）具有不敏感性的统计方法。经典统计方法（如样本均值和最小二乘估计）在正态假设下具有优良性质，但其效率对偏离正态性极度脆弱——单个极端观测值即可使样本均值任意偏离真实位置。稳健统计量的核心关切是构造在理想模型下保持高效率、同时在小幅偏离理想模型时不致灾难性失效的统计推断程序。

稳健性的量化：影响函数与崩溃点

稳健性的形式化度量依赖两个核心概念。第一，影响函数（Influence Function, IF），由 Hampel（1974）引入，度量在给定分布 $F$ 下添加一个位于点 $x$ 的点质量污染对统计量 $T$ 的边际影响：

\text{IF}(x; T, F) = \lim_{\varepsilon \to 0} \frac{T((1-\varepsilon)F + \varepsilon \delta_x) - T(F)}{\varepsilon}

若 IF 有界，统计量对任意位置的单个异常值具有有限敏感度；若 IF 无界（如样本均值），则极端异常值可造成任意大的偏误。第二，崩溃点（Breakdown Point）是使统计量完全失效所需的最小污染比例。样本均值的渐近崩溃点为 0——单个极端观察值即足以使其趋于无穷；样本中位数的崩溃点为 $1/2$ ，即需要至少一半数据被污染才能使其失效。崩溃点 $1/2$ 是平移等变估计可达的理论上限。

二者互补地刻画了稳健性：影响函数描述小量污染的局部敏感度，崩溃点描述抵抗大规模污染的全局容忍度。高崩溃点且影响函数有界的统计量在理论和应用上均具有理想性质。

M-估计量

M-估计量（M-estimator）是最大似然估计的推广，由 Huber（1964）奠基。给定样本 $x_1, \dots, x_n$ ，M-估计量对位置参数 $\theta$ 定义为最小化问题的解：

\hat{\theta} = \arg\min_{\theta} \sum_{i=1}^{n} \rho\left( \frac{x_i - \theta}{\sigma} \right)

其中 $\rho(\cdot)$ 为选定的损失函数， $\sigma$ 为尺度参数。对 $\theta$ 求导得估计方程：

\sum_{i=1}^{n} \psi\left( \frac{x_i - \hat{\theta}}{\sigma} \right) = 0, \quad \psi = \rho'

损失函数的选择决定了稳健性特征。Huber 损失 在中心区域采用二次损失（保留正态下的高效率），在尾部切换为线性损失（控制异常值影响）：

\rho_H(u) = \begin{cases} \frac{1}{2}u^2, & |u| \leq k \\ k|u| - \frac{1}{2}k^2, & |u| > k \end{cases}

其中调谐参数 $k$ 控制效率-稳健性权衡： $k \to \infty$ 退化为样本均值（最大效率但零崩溃点）， $k \to 0$ 趋近于样本中位数。通常取 $k = 1.345$ 使正态下渐近相对效率为 95\%。

Tukey 双权损失 进一步引入重降（redescending）的 $\psi$ 函数，使极端远距离观测值的影响完全为零：

\rho_B(u) = \begin{cases} \frac{k^2}{6}\left[1 - \left(1 - (u/k)^2\right)^3\right], & |u| \leq k \\ k^2/6, & |u| > k \end{cases}

重降 $\psi$ 函数赋予 M-估计量更高的崩溃点，但同时使目标函数非凸，求解需良好的初始值（通常由高崩溃点估计提供，如中位数或 LMS）。

其他稳健估计方法

第一，L-估计量（L-estimator）是次序统计量的线性组合，其一般形式为：

T_n = \sum_{i=1}^{n} c_{ni} X_{(i)}

其中 $X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}$ 为次序统计量。最常用的 $\alpha$ -修剪均值（Trimmed Mean）去掉上下各 $\alpha$ 比例的数据后取均值，通过调节修剪比例在均值与中位数之间连续过渡。中位数本身是最极端的修剪均值（ $\alpha \to 0.5$ ）。L-估计量计算简便且直观，但影响函数呈阶梯形，在以精确 IF 有界性为关键准则的场合不如精心设计的 M-估计量。

第二，R-估计量（R-estimator）基于秩检验统计量的反演：从样本中任取两个观测值，计算其成对均值（Walsh 平均值），取其中位数即为 Hodges-Lehmann 估计量：

\hat{\theta}_{HL} = \text{med}_{i \leq j} \frac{X_i + X_j}{2}

HL 估计量在对称分布下具有优良效率，且崩溃点约为 $1 - 1/\sqrt{2} \approx 0.293$ ，介于均值和普通中位数之间。

稳健尺度与相关估计

位置的稳健估计需要尺度参数的协同估计，因为标准化残差中的尺度直接影响异常值判别。标准选择是 中位数绝对离差（MAD）：

\text{MAD} = \text{med}_i |X_i - \text{med}_j X_j|

经一致性因子 1.4826 缩放后，MAD 在正态分布下一致地估计标准差。MAD 的崩溃点为 $1/2$ ，远优于样本标准差的崩溃点 0。MAD 与中位数共同构成了稳健统计推断最基本的描述性工具组合。

稳健回归

在回归分析中，最小二乘法对响应变量中的异常值高度敏感，单一杠杆点即可显著扭曲回归系数。稳健回归方法通过替换二次损失来克服这一缺陷。

第一，M-估计回归 将位置估计中的 $\rho$ 函数推广至线性模型 $y_i = \mathbf{x}_i^{\top}\boldsymbol{\beta} + \varepsilon_i$ ：

\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} \rho\left( \frac{y_i - \mathbf{x}_i^{\top}\boldsymbol{\beta}}{\sigma} \right)

迭代重加权最小二乘（IRLS）是标准求解算法。

第二，高崩溃点回归 是应对同时存在杠杆点和响应异常值的关键工具。最小中位方差估计（LMS）最小化残差平方的中位数而非总和；最小修剪平方和（LTS）仅保留最小 $h$ 个残差平方用于拟合，崩溃点可达 $1/2$ 。LTS 相比 LMS 具有更平滑的目标函数和更优的渐近性质，是现代高稳健回归的主流选择。实际应用中常采用"MM-估计"策略——以高崩溃点估计（如 LTS）为初始值，再以高效 M-估计做一步精炼，同时获得高崩溃点和高渐近效率。

应用与局限性

稳健统计方法在计量经济学中应用广泛：处理经济数据中常见的厚尾分布、录入错误与结构性断裂；在实证产业组织中用于估计需求弹性时抵御极端价格观测值的影响；在金融计量中的波动率建模亦受益于稳健协方差估计。然而稳健方法并非万能：当异常值承载实质性经济信息（如金融危机中的极端事件）时，自动降权可能丢失关键信号；高崩溃点方法在小样本下效率损失显著；稳健性调节参数的选择需结合领域知识审慎权衡。稳健统计的核心训诫不在于机械地使用稳健方法替代经典方法，而在于建立一套对数据实际行为保持警觉、对模型假设偏离保持抵抗力的统计思维习惯。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。