ARTICLE
M估计
M估计(M-estimation)是统计学中一类泛化的参数估计方法,由休伯(Peter Huber)于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"(Maximum likelihood-type estimation):它将极大似然估计(MLE)视为特例,但允许更灵活的目标函数构造,从而在数据偏离理想模型假设时仍能保持估计的可
M估计(M-estimation)是统计学中一类泛化的参数估计方法,由休伯(Peter Huber)于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"(Maximum likelihood-type estimation):它将极大似然估计(MLE)视为特例,但允许更灵活的目标函数构造,从而在数据偏离理想模型假设时仍能保持估计的可靠性。M估计不仅是稳健统计学的核心工具,也是广义估计方程(GEE)与半参数推断的理论基石,在现代计量经济学、生物统计和机器学习中具有广泛的应用。
M估计的思想最初源于对极大似然估计局限性的反思。经典极大似然估计在模型正确设定时具有最优渐近效率,但其最优性以模型假设的精确性为代价——一旦数据分布与假设模型存在微小偏离(如含有异常值或重尾分布),MLE的表現可能急剧恶化。休伯的工作正是为了解决这一矛盾:在保持较高效率的前提下,构造对模型偏离不敏感的稳健估计量。这一思路与后来发展的广义矩方法有着深层的理论亲缘关系。
1. 定义与形式
1.1 基本形式
设有独立同分布样本 ,参数 。M估计通过最小化一个关于数据的经验损失函数来定义估计量:
其中 是给定的目标函数。当 时,M估计退化为传统的极大似然估计。更一般地,若 可微,则可通过求解得分方程等价地定义M估计:
函数 称为得分函数(score function)或影响函数的雏形。这种通过估计方程定义估计量的方式使M估计与广义矩方法(GMM)建立了内在联系。
1.2 三类经典M估计
在位置参数估计的经典框架下,根据 函数的不同选择,可区分三种代表性M估计:
最小二乘估计:,得分函数 。该估计在正态假设下最优,但对异常值极其敏感——一个极端值即可使估计量无限偏离。
绝对偏差估计(L1估计):,得分函数 。所得估计量为样本中位数,对异常值具有天然的抵抗力,但效率在正态分布下仅为样本均值的 64\%。
Huber估计:休伯提出的折中方案采用分段函数 。常数 控制稳健性与效率的平衡: 时Huber估计在正态分布下达到 95\% 的相对效率,同时在重尾污染下保持稳健。
2. 渐近性质
2.1 相合性与渐近正态性
在适当的正则条件下(目标函数的凸性或局部识别性、得分函数的矩条件),M估计具有优良的大样本性质。设 为真实参数值,则在一阶条件下:
其中 称为灵敏度矩阵, 为得分函数的方差矩阵。 即著名的三明治方差估计量(sandwich estimator),因其在协方差结构中同时捕捉了模型曲率()和数据变异性()而得名。当模型正确设定且 恰为似然函数的导数时,信息等式成立:,方差退化为 ,即经典Fisher信息量的逆。
2.2 影响函数与稳健性
影响函数(Influence Function, IF)是M估计稳健性分析的核心概念,由汉佩尔(Hampel, 1974)提出。对于M估计,影响函数取形式:
影响函数刻画了单个观测值 在无穷小污染下对估计量的影响程度。若 为无界函数(如最小二乘的线性得分函数),则单个极端值就能将估计量"拉向无穷远"——这是经典估计量不稳健的数学根源。反之,若 为有界函数(如Huber得分函数在尾部截断),则影响函数有界,估计量具有定性稳健性。进一步地,若 在极端值处"回缩"(即 当 ),则估计量具有拒绝异常值的能力(redescending M-estimator),如Tukey的二权函数(biweight)估计量。
3. 计算方法
M估计的数值求解通常采用迭代重加权最小二乘法(IRWLS, Iteratively Reweighted Least Squares)。该算法将M估计问题转化为一系列加权最小二乘子问题:在第 步,给定当前参数 ,计算权重 ,然后求解加权最小二乘更新 。以位置参数为例,权重由 给出。IRWLS收敛稳定且在适当条件下具有线性收敛速率。在回归场景中,IRWLS的每一步等价于一个加权最小二乘回归,可调用标准线性代数工具高效求解。
除IRWLS外,牛顿-拉夫森法和拟牛顿法(如BFGS)也可用于M估计的数值优化。对于凸目标函数,这些方法通常能找到全局最优解;对于非凸目标函数(如某些redescending M估计量),则需多个初始点以避免局部极值。在实际统计软件中,R语言的\texttt{rlm}函数(MASS包)和Python的\texttt{statsmodels}中的\texttt{RLM}类均实现了基于IRWLS的稳健M回归。
4. 应用与拓展
4.1 稳健回归
在线性回归 中,M估计通过最小化 获得回归系数的稳健估计。相较于经典最小二乘,稳健M回归能有效抵抗因异常响应值或杠杆点(高影响力观测)造成的估计偏差。实际应用中常配合杠杆点诊断(如hat矩阵)和Huber或Tukey双权函数使用。
4.2 广义估计方程
M估计的思想延伸至广义估计方程(GEE)框架,其中估计量由 定义。GEE的核心形式与M估计的得分方程完全一致: 扮演了 函数中"调节影响"的角色,而 是残差。三明治方差估计量正是源自这一M估计框架,使GEE能对工作相关矩阵的误设提供稳健的标准误。
4.3 高维与机器学习
在现代高维统计中,M估计可通过添加罚项实现正则化:。LASSO、弹性网、SCAD等罚函数本质上是对M估计目标函数的扩展。此时M估计的渐近理论(如 -penalized M-estimation 的相合性)为非光滑目标函数下的高维推断提供了理论支撑。
在深度学习与机器学习领域,M估计的思想也渗透于损失函数的设计之中。例如,Huber损失在回归任务中被广泛用作均方误差与绝对误差的平滑折中;分位数回归的钉锤损失函数(check loss)也属于M估计的范畴。此外,对抗性训练中使用的鲁棒损失函数常借鉴M估计中影响函数有界的思路,以抑制异常样本对模型训练的过度影响。
5. 延伸阅读
M估计的经典文献始于休伯(Huber, 1964)的《Robust Estimation of a Location Parameter》及休伯与隆切蒂(Huber \& Ronchetti, 2009)的专著《Robust Statistics》。汉佩尔等(Hampel et al., 1986)在《Robust Statistics: The Approach Based on Influence Functions》中系统阐述了影响函数理论。关于M估计的渐近理论,斯特凡·范德法特(van der Vaart, 1998)的《Asymptotic Statistics》提供了从经验过程角度切入的严格处理。中文文献可参见薛毅与陈立萍(2007)的《统计建模与R软件》中关于稳健回归的实践章节。