ARTICLE

M估计

M估计（M-estimation）是统计学中一类泛化的参数估计方法，由休伯（Peter Huber）于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"（Maximum likelihood-type estimation）：它将极大似然估计（MLE）视为特例，但允许更灵活的目标函数构造，从而在数据偏离理想模型假设时仍能保持估计的可

浏览 0 更新 2025-11-08

M估计（M-estimation）是统计学中一类泛化的参数估计方法，由休伯（Peter Huber）于1964年在稳健统计的奠基性论文中系统提出。M估计之名取自"极大似然型估计"（Maximum likelihood-type estimation）：它将极大似然估计（MLE）视为特例，但允许更灵活的目标函数构造，从而在数据偏离理想模型假设时仍能保持估计的可靠性。M估计不仅是稳健统计学的核心工具，也是广义估计方程（GEE）与半参数推断的理论基石，在现代计量经济学、生物统计和机器学习中具有广泛的应用。

M估计的思想最初源于对极大似然估计局限性的反思。经典极大似然估计在模型正确设定时具有最优渐近效率，但其最优性以模型假设的精确性为代价——一旦数据分布与假设模型存在微小偏离（如含有异常值或重尾分布），MLE的表現可能急剧恶化。休伯的工作正是为了解决这一矛盾：在保持较高效率的前提下，构造对模型偏离不敏感的稳健估计量。这一思路与后来发展的广义矩方法有着深层的理论亲缘关系。

1. 定义与形式

1.1 基本形式

设有独立同分布样本 $X_1, X_2, \dots, X_n \in \mathbb{R}^d$ ，参数 $\theta \in \Theta \subseteq \mathbb{R}^p$ 。M估计通过最小化一个关于数据的经验损失函数来定义估计量：

\hat{\theta}_n = \arg\min_{\theta \in \Theta} \sum_{i=1}^n \rho(X_i, \theta)

其中 $\rho(\cdot)$ 是给定的目标函数。当 $\rho(x, \theta) = -\log f(x|\theta)$ 时，M估计退化为传统的极大似然估计。更一般地，若 $\rho$ 可微，则可通过求解得分方程等价地定义M估计：

\sum_{i=1}^n \psi(X_i, \hat{\theta}_n) = 0, \quad 其中 \ \psi(x, \theta) = \frac{\partial}{\partial \theta} \rho(x, \theta)

函数 $\psi$ 称为得分函数（score function）或影响函数的雏形。这种通过估计方程定义估计量的方式使M估计与广义矩方法（GMM）建立了内在联系。

1.2 三类经典M估计

在位置参数估计的经典框架下，根据 $\rho$ 函数的不同选择，可区分三种代表性M估计：

最小二乘估计： $\rho(x, \mu) = (x - \mu)^2$ ，得分函数 $\psi(x, \mu) = 2(x - \mu)$ 。该估计在正态假设下最优，但对异常值极其敏感——一个极端值即可使估计量无限偏离。

绝对偏差估计（L1估计）： $\rho(x, \mu) = |x - \mu|$ ，得分函数 $\psi(x, \mu) = \text{sgn}(x - \mu)$ 。所得估计量为样本中位数，对异常值具有天然的抵抗力，但效率在正态分布下仅为样本均值的 64\%。

Huber估计：休伯提出的折中方案采用分段函数 $\rho(x, \mu) = \begin{cases} (x - \mu)^2/2, & |x - \mu| \le k \\ k|x - \mu| - k^2/2, & |x - \mu| > k \end{cases}$ 。常数 $k$ 控制稳健性与效率的平衡： $k = 1.345$ 时Huber估计在正态分布下达到 95\% 的相对效率，同时在重尾污染下保持稳健。

2. 渐近性质

2.1 相合性与渐近正态性

在适当的正则条件下（目标函数的凸性或局部识别性、得分函数的矩条件），M估计具有优良的大样本性质。设 $\theta_0$ 为真实参数值，则在一阶条件下：

\sqrt{n}(\hat{\theta}_n - \theta_0) \xrightarrow{d} N(0, V), \quad V = A^{-1} B A^{-1}

其中 $A = E[\nabla_\theta \psi(X, \theta_0)]$ 称为灵敏度矩阵， $B = E[\psi(X, \theta_0)\psi(X, \theta_0)^\top]$ 为得分函数的方差矩阵。 $V = A^{-1} B A^{-1}$ 即著名的三明治方差估计量（sandwich estimator），因其在协方差结构中同时捕捉了模型曲率（ $A$ ）和数据变异性（ $B$ ）而得名。当模型正确设定且 $\psi$ 恰为似然函数的导数时，信息等式成立： $A = -B$ ，方差退化为 $V = A^{-1}$ ，即经典Fisher信息量的逆。

2.2 影响函数与稳健性

影响函数（Influence Function, IF）是M估计稳健性分析的核心概念，由汉佩尔（Hampel, 1974）提出。对于M估计，影响函数取形式：

\text{IF}(x; \hat{\theta}, F) = \psi(x, \theta_0) / \int \nabla_\theta \psi(y, \theta_0) dF(y)

影响函数刻画了单个观测值 $x$ 在无穷小污染下对估计量的影响程度。若 $\psi$ 为无界函数（如最小二乘的线性得分函数），则单个极端值就能将估计量"拉向无穷远"——这是经典估计量不稳健的数学根源。反之，若 $\psi$ 为有界函数（如Huber得分函数在尾部截断），则影响函数有界，估计量具有定性稳健性。进一步地，若 $\psi$ 在极端值处"回缩"（即 $\psi(x) \to 0$ 当 $|x| \to \infty$ ），则估计量具有拒绝异常值的能力（redescending M-estimator），如Tukey的二权函数（biweight）估计量。

3. 计算方法

M估计的数值求解通常采用迭代重加权最小二乘法（IRWLS, Iteratively Reweighted Least Squares）。该算法将M估计问题转化为一系列加权最小二乘子问题：在第 $t+1$ 步，给定当前参数 $\theta^{(t)}$ ，计算权重 $w_i = w(X_i, \theta^{(t)})$ ，然后求解加权最小二乘更新 $\theta^{(t+1)}$ 。以位置参数为例，权重由 $w_i = \psi(X_i - \mu^{(t)}) / (X_i - \mu^{(t)})$ 给出。IRWLS收敛稳定且在适当条件下具有线性收敛速率。在回归场景中，IRWLS的每一步等价于一个加权最小二乘回归，可调用标准线性代数工具高效求解。

除IRWLS外，牛顿-拉夫森法和拟牛顿法（如BFGS）也可用于M估计的数值优化。对于凸目标函数，这些方法通常能找到全局最优解；对于非凸目标函数（如某些redescending M估计量），则需多个初始点以避免局部极值。在实际统计软件中，R语言的\texttt{rlm}函数（MASS包）和Python的\texttt{statsmodels}中的\texttt{RLM}类均实现了基于IRWLS的稳健M回归。

4. 应用与拓展

4.1 稳健回归

在线性回归 $Y_i = X_i^\top \beta + \varepsilon_i$ 中，M估计通过最小化 $\sum \rho(Y_i - X_i^\top \beta)$ 获得回归系数的稳健估计。相较于经典最小二乘，稳健M回归能有效抵抗因异常响应值或杠杆点（高影响力观测）造成的估计偏差。实际应用中常配合杠杆点诊断（如hat矩阵）和Huber或Tukey双权函数使用。

4.2 广义估计方程

M估计的思想延伸至广义估计方程（GEE）框架，其中估计量由 $\sum_{i=1}^n D_i^\top V_i^{-1} (Y_i - \mu_i) = 0$ 定义。GEE的核心形式与M估计的得分方程完全一致： $D_i^\top V_i^{-1}$ 扮演了 $\psi$ 函数中"调节影响"的角色，而 $Y_i - \mu_i$ 是残差。三明治方差估计量正是源自这一M估计框架，使GEE能对工作相关矩阵的误设提供稳健的标准误。

4.3 高维与机器学习

在现代高维统计中，M估计可通过添加罚项实现正则化： $\hat{\theta}_n = \arg\min \sum \rho(X_i, \theta) + \lambda P(\theta)$ 。LASSO、弹性网、SCAD等罚函数本质上是对M估计目标函数的扩展。此时M估计的渐近理论（如 $\ell_1$ -penalized M-estimation 的相合性）为非光滑目标函数下的高维推断提供了理论支撑。

在深度学习与机器学习领域，M估计的思想也渗透于损失函数的设计之中。例如，Huber损失在回归任务中被广泛用作均方误差与绝对误差的平滑折中；分位数回归的钉锤损失函数（check loss）也属于M估计的范畴。此外，对抗性训练中使用的鲁棒损失函数常借鉴M估计中影响函数有界的思路，以抑制异常样本对模型训练的过度影响。

5. 延伸阅读

M估计的经典文献始于休伯（Huber, 1964）的《Robust Estimation of a Location Parameter》及休伯与隆切蒂（Huber \& Ronchetti, 2009）的专著《Robust Statistics》。汉佩尔等（Hampel et al., 1986）在《Robust Statistics: The Approach Based on Influence Functions》中系统阐述了影响函数理论。关于M估计的渐近理论，斯特凡·范德法特（van der Vaart, 1998）的《Asymptotic Statistics》提供了从经验过程角度切入的严格处理。中文文献可参见薛毅与陈立萍（2007）的《统计建模与R软件》中关于稳健回归的实践章节。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。