ARTICLE

M估计

M估计(M-estimation)是统计学中一类泛化的参数估计方法,由休伯(Peter Huber)于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"(Maximum likelihood-type estimation):它将极大似然估计(MLE)视为特例,但允许更灵活的目标函数构造,从而在数据偏离理想模型假设时仍能保持估计的可

浏览 0 更新 2025-11-08

M估计(M-estimation)是统计学中一类泛化的参数估计方法,由休伯(Peter Huber)于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"(Maximum likelihood-type estimation):它将极大似然估计(MLE)视为特例,但允许更灵活的目标函数构造,从而在数据偏离理想模型假设时仍能保持估计的可靠性。M估计不仅是稳健统计学的核心工具,也是广义估计方程(GEE)与半参数推断的理论基石,在现代计量经济学、生物统计和机器学习中具有广泛的应用。

M估计的思想最初源于对极大似然估计局限性的反思。经典极大似然估计在模型正确设定时具有最优渐近效率,但其最优性以模型假设的精确性为代价——一旦数据分布与假设模型存在微小偏离(如含有异常值或重尾分布),MLE的表現可能急剧恶化。休伯的工作正是为了解决这一矛盾:在保持较高效率的前提下,构造对模型偏离不敏感的稳健估计量。这一思路与后来发展的广义矩方法有着深层的理论亲缘关系。

1. 定义与形式

1.1 基本形式

设有独立同分布样本 X1,X2,,XnRd X_1, X_2, \dots, X_n \in \mathbb{R}^d ,参数 θΘRp \theta \in \Theta \subseteq \mathbb{R}^p 。M估计通过最小化一个关于数据的经验损失函数来定义估计量:

θ^n=argminθΘi=1nρ(Xi,θ)\hat{\theta}_n = \arg\min_{\theta \in \Theta} \sum_{i=1}^n \rho(X_i, \theta)

其中 ρ() \rho(\cdot) 是给定的目标函数。当 ρ(x,θ)=logf(xθ) \rho(x, \theta) = -\log f(x|\theta) 时,M估计退化为传统的极大似然估计。更一般地,若 ρ \rho 可微,则可通过求解得分方程等价地定义M估计:

i=1nψ(Xi,θ^n)=0,其中 ψ(x,θ)=θρ(x,θ)\sum_{i=1}^n \psi(X_i, \hat{\theta}_n) = 0, \quad 其中 \ \psi(x, \theta) = \frac{\partial}{\partial \theta} \rho(x, \theta)

函数 ψ \psi 称为得分函数(score function)或影响函数的雏形。这种通过估计方程定义估计量的方式使M估计与广义矩方法(GMM)建立了内在联系。

1.2 三类经典M估计

在位置参数估计的经典框架下,根据 ρ \rho 函数的不同选择,可区分三种代表性M估计:

最小二乘估计ρ(x,μ)=(xμ)2 \rho(x, \mu) = (x - \mu)^2 ,得分函数 ψ(x,μ)=2(xμ) \psi(x, \mu) = 2(x - \mu) 。该估计在正态假设下最优,但对异常值极其敏感——一个极端值即可使估计量无限偏离。

绝对偏差估计(L1估计):ρ(x,μ)=xμ \rho(x, \mu) = |x - \mu| ,得分函数 ψ(x,μ)=sgn(xμ) \psi(x, \mu) = \text{sgn}(x - \mu) 。所得估计量为样本中位数,对异常值具有天然的抵抗力,但效率在正态分布下仅为样本均值的 64\%。

Huber估计:休伯提出的折中方案采用分段函数 ρ(x,μ)={(xμ)2/2,xμkkxμk2/2,xμ>k \rho(x, \mu) = \begin{cases} (x - \mu)^2/2, & |x - \mu| \le k \\ k|x - \mu| - k^2/2, & |x - \mu| > k \end{cases} 。常数 k k 控制稳健性与效率的平衡:k=1.345 k = 1.345 时Huber估计在正态分布下达到 95\% 的相对效率,同时在重尾污染下保持稳健。

2. 渐近性质

2.1 相合性与渐近正态性

在适当的正则条件下(目标函数的凸性或局部识别性、得分函数的矩条件),M估计具有优良的大样本性质。设 θ0 \theta_0 为真实参数值,则在一阶条件下:

n(θ^nθ0)dN(0,V),V=A1BA1\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, V), \quad V = A^{-1} B A^{-1}

其中 A=E[θψ(X,θ0)] A = E[\nabla_\theta \psi(X, \theta_0)] 称为灵敏度矩阵B=E[ψ(X,θ0)ψ(X,θ0)] B = E[\psi(X, \theta_0)\psi(X, \theta_0)^\top] 为得分函数的方差矩阵。V=A1BA1 V = A^{-1} B A^{-1} 即著名的三明治方差估计量(sandwich estimator),因其在协方差结构中同时捕捉了模型曲率(A A )和数据变异性(B B )而得名。当模型正确设定且 ψ \psi 恰为似然函数的导数时,信息等式成立:A=B A = -B ,方差退化为 V=A1 V = A^{-1} ,即经典Fisher信息量的逆。

2.2 影响函数与稳健性

影响函数(Influence Function, IF)是M估计稳健性分析的核心概念,由汉佩尔(Hampel, 1974)提出。对于M估计,影响函数取形式:

IF(x;θ^,F)=ψ(x,θ0)/θψ(y,θ0)dF(y)\text{IF}(x; \hat{\theta}, F) = \psi(x, \theta_0) / \int \nabla_\theta \psi(y, \theta_0) dF(y)

影响函数刻画了单个观测值 x x 在无穷小污染下对估计量的影响程度。若 ψ \psi 为无界函数(如最小二乘的线性得分函数),则单个极端值就能将估计量"拉向无穷远"——这是经典估计量不稳健的数学根源。反之,若 ψ \psi 为有界函数(如Huber得分函数在尾部截断),则影响函数有界,估计量具有定性稳健性。进一步地,若 ψ \psi 在极端值处"回缩"(即 ψ(x)0 \psi(x) \to 0 x |x| \to \infty ),则估计量具有拒绝异常值的能力(redescending M-estimator),如Tukey的二权函数(biweight)估计量。

3. 计算方法

M估计的数值求解通常采用迭代重加权最小二乘法(IRWLS, Iteratively Reweighted Least Squares)。该算法将M估计问题转化为一系列加权最小二乘子问题:在第 t+1 t+1 步,给定当前参数 θ(t) \theta^{(t)} ,计算权重 wi=w(Xi,θ(t)) w_i = w(X_i, \theta^{(t)}) ,然后求解加权最小二乘更新 θ(t+1) \theta^{(t+1)} 。以位置参数为例,权重由 wi=ψ(Xiμ(t))/(Xiμ(t)) w_i = \psi(X_i - \mu^{(t)}) / (X_i - \mu^{(t)}) 给出。IRWLS收敛稳定且在适当条件下具有线性收敛速率。在回归场景中,IRWLS的每一步等价于一个加权最小二乘回归,可调用标准线性代数工具高效求解。

除IRWLS外,牛顿-拉夫森法和拟牛顿法(如BFGS)也可用于M估计的数值优化。对于凸目标函数,这些方法通常能找到全局最优解;对于非凸目标函数(如某些redescending M估计量),则需多个初始点以避免局部极值。在实际统计软件中,R语言的\texttt{rlm}函数(MASS包)和Python的\texttt{statsmodels}中的\texttt{RLM}类均实现了基于IRWLS的稳健M回归。

4. 应用与拓展

4.1 稳健回归

在线性回归 Yi=Xiβ+εi Y_i = X_i^\top \beta + \varepsilon_i 中,M估计通过最小化 ρ(YiXiβ) \sum \rho(Y_i - X_i^\top \beta) 获得回归系数的稳健估计。相较于经典最小二乘,稳健M回归能有效抵抗因异常响应值或杠杆点(高影响力观测)造成的估计偏差。实际应用中常配合杠杆点诊断(如hat矩阵)和Huber或Tukey双权函数使用。

4.2 广义估计方程

M估计的思想延伸至广义估计方程(GEE)框架,其中估计量由 i=1nDiVi1(Yiμi)=0 \sum_{i=1}^n D_i^\top V_i^{-1} (Y_i - \mu_i) = 0 定义。GEE的核心形式与M估计的得分方程完全一致:DiVi1 D_i^\top V_i^{-1} 扮演了 ψ \psi 函数中"调节影响"的角色,而 Yiμi Y_i - \mu_i 是残差。三明治方差估计量正是源自这一M估计框架,使GEE能对工作相关矩阵的误设提供稳健的标准误。

4.3 高维与机器学习

在现代高维统计中,M估计可通过添加罚项实现正则化:θ^n=argminρ(Xi,θ)+λP(θ) \hat{\theta}_n = \arg\min \sum \rho(X_i, \theta) + \lambda P(\theta) 。LASSO、弹性网、SCAD等罚函数本质上是对M估计目标函数的扩展。此时M估计的渐近理论(如 1 \ell_1 -penalized M-estimation 的相合性)为非光滑目标函数下的高维推断提供了理论支撑。

在深度学习与机器学习领域,M估计的思想也渗透于损失函数的设计之中。例如,Huber损失在回归任务中被广泛用作均方误差与绝对误差的平滑折中;分位数回归的钉锤损失函数(check loss)也属于M估计的范畴。此外,对抗性训练中使用的鲁棒损失函数常借鉴M估计中影响函数有界的思路,以抑制异常样本对模型训练的过度影响。

5. 延伸阅读

M估计的经典文献始于休伯(Huber, 1964)的《Robust Estimation of a Location Parameter》及休伯与隆切蒂(Huber \& Ronchetti, 2009)的专著《Robust Statistics》。汉佩尔等(Hampel et al., 1986)在《Robust Statistics: The Approach Based on Influence Functions》中系统阐述了影响函数理论。关于M估计的渐近理论,斯特凡·范德法特(van der Vaart, 1998)的《Asymptotic Statistics》提供了从经验过程角度切入的严格处理。中文文献可参见薛毅与陈立萍(2007)的《统计建模与R软件》中关于稳健回归的实践章节。