ARTICLE

M-估计量

M-估计量 (M-Estimator) M-估计量(M-Estimator)是统计学中一类极为广泛的参数估计框架,其名称中的"M"源自"Maximum Likelihood-type"(极大似然型),由瑞士统计学家 Peter J. Huber 于 1964 年在其开创性论文中正式提出。M-估计量将 极大似然估计(MLE)和 最小二乘法(OLS)统一为一种一

浏览 0 更新 2025-12-03

M-估计量 (M-Estimator)

M-估计量(M-Estimator)是统计学中一类极为广泛的参数估计框架,其名称中的"M"源自"Maximum Likelihood-type"(极大似然型),由瑞士统计学家 Peter J. Huber 于 1964 年在其开创性论文中正式提出。M-估计量将 极大似然估计(MLE)和 最小二乘法(OLS)统一为一种一般化的极值问题:通过最小化(或最大化)某个关于数据和参数的目标函数(objective function)的样本平均来定义估计量。该框架的核心优势在于其灵活性与统一性——通过选取不同的目标函数,M-估计量可以涵盖从经典参数估计到稳健估计的广阔领域,是现代稳健统计学的理论基石。

定义与基本形式

X1,X2,,XnX_1, X_2, \ldots, X_n 为独立同分布的样本,来自分布 FθF_\theta,其中 θΘRp\theta \in \Theta \subseteq \mathbb{R}^p 为待估参数。M-估计量 θ^n\hat{\theta}_n 定义为最小化以下目标函数的解:

θ^n=argminθΘi=1nρ(Xi;θ)\hat{\theta}_n = \arg\min_{\theta \in \Theta} \sum_{i=1}^{n} \rho(X_i; \theta)

其中 ρ(;θ)\rho(\cdot; \theta) 是事先选定的损失函数(loss function),也称为 ρ\rho-函数。当 ρ\rho 关于 θ\theta 可微时,M-估计量等价地满足以下估计方程(estimating equation):

i=1nψ(Xi;θ^n)=0\sum_{i=1}^{n} \psi(X_i; \hat{\theta}_n) = 0

其中 ψ(x;θ)=ρ(x;θ)/θ\psi(x; \theta) = \partial \rho(x; \theta) / \partial \theta 称为 ψ\psi-函数得分函数(score function)。这一形式揭示了一个关键洞见:M-估计量并非直接"计算"参数,而是通过求解一阶条件的零点来间接定义,因此其存在性与唯一性依赖于 ρ\rho 函数的凸性等正则条件。

经典特例

M-估计量框架的优雅之处在于,通过选取不同的 ρ\rho 函数,几乎所有的经典估计方法均可纳入其中:

  1. 极大似然估计(MLE):取 ρ(x;θ)=logf(xθ)\rho(x; \theta) = -\log f(x \mid \theta),其中 ff 为概率密度函数。此时 ψ(x;θ)=logf(xθ)/θ\psi(x; \theta) = -\partial \log f(x \mid \theta) / \partial \theta 即为经典的得分函数,M-估计量与 MLE 完全等价。
  2. 普通最小二乘法(OLS):在线性回归模型 yi=xiβ+εiy_i = \mathbf{x}_i^{\top}\beta + \varepsilon_i 中,取 ρ(yi,xi;β)=(yixiβ)2\rho(y_i, \mathbf{x}_i; \beta) = (y_i - \mathbf{x}_i^{\top}\beta)^2,则 ψ=2(yixiβ)xi\psi = -2(y_i - \mathbf{x}_i^{\top}\beta)\mathbf{x}_i,解得 M-估计量即为 OLS 估计量。
  3. 最小绝对偏差(LAD):取 ρ=yixiβ\rho = |y_i - \mathbf{x}_i^{\top}\beta|,得到中位数回归,对异常值具有天然的稳健性。
  4. 分位数回归:Koënker 和 Bassett(1978)提出的分位数回归是 M-估计量的重要变体,其损失函数为 ρτ(u)=u(τ1{u<0})\rho_\tau(u) = u(\tau - \mathbf{1}\{u < 0\}),其中 τ(0,1)\tau \in (0, 1) 为目标分位数。

影响函数与稳健性

M-估计量的稳健性理论依赖于 Hampel(1974)提出的影响函数(Influence Function, IF)概念。对于在分布 FF 处定义的泛函 T(F)T(F),其影响函数定义为:

IF(x;T,F)=limε0+T((1ε)F+εδx)T(F)ε\operatorname{IF}(x; T, F) = \lim_{\varepsilon \to 0^{+}} \frac{T((1-\varepsilon)F + \varepsilon \delta_x) - T(F)}{\varepsilon}

其中 δx\delta_x 是在点 xx 处的退化分布。影响函数度量了单个观测值对估计量的边际影响:当 IF\operatorname{IF} 无界时,一个极端观测即可使估计量任意偏离,这正是 样本均值(对应于 OLS)对异常值敏感的根源。

对于 M-估计量,影响函数与 ψ\psi-函数具有简单关系:

IF(x;T,F)=ψ(x;T(F))EF[ψ(X;θ)/θθ=T(F)]\operatorname{IF}(x; T, F) = \frac{\psi(x; T(F))}{-\mathbb{E}_F\left[\partial \psi(X; \theta) / \partial \theta \big|_{\theta = T(F)}\right]}

这一公式是稳健统计学的核心工具:通过设计有界的 ψ\psi-函数,可以构造出具有有界影响函数的 M-估计量,从而在保持估计效率的同时获得对异常值的稳健性。

Huber 的稳健 M-估计量

Huber(1964)的原创贡献是提出了一种在正态模型下既保持高效率又对重尾污染具有稳健性的 ψ\psi-函数:

\psi_k(u) = \begin{cases}

u, \& |u| \leq k, \\

k \cdot \operatorname{sign}(u), & |u| > k. \end{cases}

其中 k>0k > 0 为调节参数,控制稳健性与效率之间的权衡。当 kk \to \infty 时,Huber 估计量退化为样本均值(完全高效但非稳健);当 k0k \to 0 时,退化为样本中位数(高度稳健但效率降低)。通常取 k=1.345σk = 1.345\sigma 可在正态模型下达到 95\% 的渐近相对效率。对应的 ρ\rho-函数在 uk|u| \leq k 时为二次函数 u2/2u^2/2,在 u>k|u| > k 时为线性函数 kuk2/2k|u| - k^2/2,从而对大残差施加线性惩罚而非二次惩罚,有效抑制异常值的影响。

其他常见稳健 M-估计量

除 Huber 估计量外,文献中还广泛使用以下变体:

  • Tukey 双权(Bisquare)估计量ψ(u)=u[1(u/k)2]21{uk}\psi(u) = u \cdot [1 - (u/k)^2]^2 \cdot \mathbf{1}\{|u| \leq k\}。该函数在边界 kk 处平滑归零,对极端异常值实行完全剔除(redescending 性质),但可能导致估计方程出现多解,需配合良好的初始值(如从 Huber 估计量出发迭代)。
  • Hampel 三段估计量ψ\psi 函数分为中心线性段、渐近段和归零段,提供更精细的异常值处理策略,在保持高崩溃点的同时最大化效率。
  • Andrews 正弦估计量ψ(u)=sin(u/k)1{ukπ}\psi(u) = \sin(u/k) \cdot \mathbf{1}\{|u| \leq k\pi\},同为 redescending 类型,在特定场景下具有优化性质。

渐近性质

在适当的正则条件下(ρ\rho 凸性、ψ\psi 的有界性或可积性、参数空间紧致性等),M-估计量具有以下优良的大样本性质:

一致性θ^npθ0\hat{\theta}_n \xrightarrow{p} \theta_0,其中 θ0\theta_0 是使 E[ρ(X;θ)]\mathbb{E}[\rho(X; \theta)] 最小化的真值。这由 大数定律 和 argmin 连续性定理(如 Wald 一致性定理的推广)保证。

渐近正态性

n(θ^nθ0)dN(0,A1BA1)\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} \mathcal{N}\left(0, \, \mathbf{A}^{-1} \mathbf{B} \mathbf{A}^{-1}\right)

其中:

A=E[ψ(X;θ0)θ],B=E[ψ(X;θ0)ψ(X;θ0)]\mathbf{A} = \mathbb{E}\left[\frac{\partial \psi(X; \theta_0)}{\partial \theta^{\top}}\right], \quad \mathbf{B} = \mathbb{E}\left[\psi(X; \theta_0) \psi(X; \theta_0)^{\top}\right]

这一"三明治"形式的渐近协方差矩阵是 M-估计量理论的标志性结果。当模型正确指定(即 ρ=logf\rho = -\log f)时,Fisher 信息等式 A=B\mathbf{A} = -\mathbf{B} 成立,协方差简化为经典形式 A1\mathbf{A}^{-1},M-估计量达到 Cramér-Rao 下界。在模型误设或使用稳健 ρ\rho 函数时,AB\mathbf{A} \neq -\mathbf{B},需要使用稳健标准误(如 Huber-White 三明治估计量)进行推断。

与 Z-估计量和 GMM 的关系

M-估计量是更广泛的 Z-估计量(Z-Estimator)的特例。Z-估计量直接通过估计方程 iψ(Xi;θ)=0\sum_i \psi(X_i; \theta) = 0 定义,不要求 ψ\psi 是某个 ρ\rho 函数的导数。当 ψ\psi 恰好为某 ρ\rho 的梯度时,Z-估计量退化为 M-估计量。进一步地,广义矩估计(GMM)将 Z-估计量的标量矩条件推广到向量矩条件:E[g(Xi;θ)]=0\mathbb{E}[g(X_i; \theta)] = 0 且矩条件数量可超过参数维度(过度识别),通过加权二次型最小化来定义估计量。因此,M-估计量可视为 GMM 在"矩条件数等于参数维度"且"矩条件可由单一 ρ\rho 函数导出"时的退化形式。

计算与求解

M-估计量的实际计算通常依赖迭代再加权最小二乘法(Iteratively Reweighted Least Squares, IRLS)。对于位置-尺度模型,定义权重函数 w(u)=ψ(u)/uw(u) = \psi(u) / u(当 u0u \neq 0),则估计方程可重写为加权最小二乘形式:

i=1nw(ri)rixi=0,ri=yixiβ\sum_{i=1}^{n} w(r_i) \cdot r_i \cdot \mathbf{x}_i = 0, \quad r_i = y_i - \mathbf{x}_i^{\top}\beta

IRLS 算法在第 tt 步使用当前残差计算权重 wi(t)=w(ri(t1))w_i^{(t)} = w(r_i^{(t-1)}),然后求解加权最小二乘问题更新 β(t)\beta^{(t)},反复迭代至收敛。为处理 redescending ψ\psi 函数的多解问题,通常以单调 ψ\psi 估计量(如 Huber)的输出作为初始值。现代统计软件(R 中的 \texttt{MASS::rlm}、Python 中的 \texttt{statsmodels.RLM})均已内置这些算法。

应用与局限

M-估计量在以下领域有广泛应用:

  • 稳健回归:当数据存在异常值或误差分布偏离正态(重尾、有偏)时,使用 Huber 或 Tukey 双权 M-估计量替代 OLS 可大幅提升估计的可靠性。
  • 金融计量:资产收益率常呈现厚尾特征,稳健 M-估计量在估计 CAPMβ\beta 系数或波动率模型时更为可靠。
  • 生物统计:实验数据经常包含测量错误或离群个体,稳健 M-估计量提供了一种无需手动剔除数据的方法。
  • 机器学习的稳健损失:Huber 损失(Smooth L1 Loss)被广泛用于目标检测和回归任务中,平衡了 MSE 的梯度敏感性和 MAE 的稀疏性。

M-估计量的主要局限包括:ρ\rho 函数的选取涉及效率与稳健性的主观权衡;redescending ψ\psi 函数可能导致多重局部极值;在超高维设置下,M-估计量的理论和算法(如与 LASSO 的结合)仍在发展中。尽管有这些局限,M-估计量作为连接经典估计理论与稳健统计学的核心桥梁,在理论计量经济学和应用统计学中始终占据不可替代的位置。