ARTICLE

最大似然估计法

概述 最大似然估计法(Maximum Likelihood Estimation,MLE)是统计学与计量经济学中最核心的参数估计方法之一,由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观:给定一组观测数据,我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之,MLE 在追问:什么样的参数取值,能让我们已经看

浏览 3 更新 2025-10-26

概述

最大似然估计法(Maximum Likelihood Estimation,MLE)是统计学与计量经济学中最核心的参数估计方法之一,由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观:给定一组观测数据,我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之,MLE 在追问:什么样的参数取值,能让我们已经看到的数据显得最"理所当然"?

形式化地,设 X=(X1,X2,,Xn) \mathbf{X} = (X_1, X_2, \dots, X_n) 为来自分布 f(xθ) f(x \mid \theta) 的独立同分布样本,其中 θΘRk \theta \in \Theta \subset \mathbb{R}^k 为未知参数向量。似然函数定义为样本的联合概率密度(或概率质量函数)在给定参数下关于数据的函数:

L(θx)=i=1nf(xiθ).L(\theta \mid \mathbf{x}) = \prod_{i=1}^{n} f(x_i \mid \theta).

由于乘积形式在数学上不便处理,通常取自然对数得到对数似然函数

(θ)=lnL(θx)=i=1nlnf(xiθ).\ell(\theta) = \ln L(\theta \mid \mathbf{x}) = \sum_{i=1}^{n} \ln f(x_i \mid \theta).

最大似然估计量 θ^MLE \hat{\theta}_{\text{MLE}} 即为使对数似然函数取最大值的参数值:

θ^MLE=argmaxθΘ(θ).\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta).

求解方法

在实际操作中,MLE 的求解通常通过一阶条件实现。对对数似然函数求梯度并设为零,得到得分方程

S(θ)=(θ)θ=0.S(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} = \mathbf{0}.

对于指数族分布等常见情形,得分方程常存在解析解。例如:

  • 正态分布均值(方差已知):μ^=xˉ=1nxi \hat{\mu} = \bar{x} = \frac{1}{n}\sum x_i
  • 伯努利分布p^=xˉ \hat{p} = \bar{x}
  • 泊松分布λ^=xˉ \hat{\lambda} = \bar{x}

然而,在许多复杂模型中(如非线性回归、混合模型),得分方程无法解析求解,需借助数值优化算法——牛顿-拉弗森法(Newton-Raphson)及其变体最为常用。迭代格式为:

θ(t+1)=θ(t)[H(θ(t))]1S(θ(t)),\theta^{(t+1)} = \theta^{(t)} - \left[ H(\theta^{(t)}) \right]^{-1} S(\theta^{(t)}),

其中 H(θ)=2(θ)θθ H(\theta) = \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta'} 为 Hessian 矩阵。Fisher 评分算法则以信息矩阵 I(θ)=E[H(θ)] I(\theta) = -\mathbb{E}[H(\theta)] 替代 H(θ) H(\theta) ,在广义线性模型(GLM)中尤为常见。

渐近性质

MLE 之所以在统计推断中占据统治地位,根源在于其优良的大样本性质。在适当的正则条件下(Cramér, 1946):

  1. 一致性θ^pθ0 \hat{\theta} \xrightarrow{p} \theta_0 ,即随着样本量增加,MLE 收敛到真值。
  2. 渐近正态性: \[ \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I_1(\theta_0)^{-1}), \] 其中 I1(θ0) I_1(\theta_0) 为单次观测的 Fisher 信息矩阵。这意味着在大样本下,MLE 近似服从正态分布。
  3. 渐近有效性:在所有的正则估计量中,MLE 达到 Cramér-Rao 下界,即渐近方差最小。这是 MLE 最深刻的理论性质——没有任何其他一致估计量能在大样本下比 MLE 更精确。

Fisher 信息矩阵在整个框架中扮演关键角色:

I(θ)=E[2(θ)θθ]=E[((θ)θ)((θ)θ)].I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta'} \right] = \mathbb{E}\left[ \left( \frac{\partial \ell(\theta)}{\partial \theta} \right) \left( \frac{\partial \ell(\theta)}{\partial \theta} \right)' \right].

信息矩阵的逆提供了 MLE 渐近协方差矩阵的估计基础,是构造置信区间和假设检验的根基。

与 OLS 的对比

在经典线性回归模型 y=Xβ+ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} 中,若假设误差服从正态分布 εiN(0,σ2) \varepsilon_i \sim N(0, \sigma^2) ,对数似然函数为:

(β,σ2)=n2ln(2π)n2lnσ212σ2(yXβ)(yXβ).\ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}).

β \boldsymbol{\beta} 最大化,得到 β^MLE=(XX)1Xy \hat{\boldsymbol{\beta}}_{\text{MLE}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} ,即与普通最小二乘(OLS)估计量完全一致。但方差估计不同:MLE 的 σ^2=RSSn \hat{\sigma}^2 = \frac{\text{RSS}}{n} 是有偏的,而 OLS 的无偏估计为 RSSnk \frac{\text{RSS}}{n-k} 。这一差异在小样本中值得注意,但随着 n n \to \infty 两者渐近等价。

在非正态误差或非线性模型中,MLE 与 OLS 不再等价——MLE 通过为不同分布指定恰当的似然函数,能够处理二值选择(probit/logit)、计数数据(泊松回归)、截断数据(Tobit)等 OLS 无法直接应对的情形。这正是 MLE 框架强大通用性的体现。

似然比检验、Wald 检验与 Lagrange 乘子检验

基于 MLE 的三大经典检验构成了现代计量经济学推断的基石。设原假设为 H0:g(θ)=0 H_0: \mathbf{g}(\theta) = \mathbf{0} (含 r r 个约束):

  • 似然比检验(Likelihood Ratio, LR):比较无约束与受约束模型的对数似然值之差: \[ LR = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{d} \chi^2(r), \] 其中 θ^ \hat{\theta} θ~ \tilde{\theta} 分别为无约束和受约束 MLE。LR 检验需同时估计两个模型,计算成本最高,但理论上最优。
  • Wald 检验:仅基于无约束估计量 θ^ \hat{\theta} ,检验约束是否近似成立: \[ W = \mathbf{g}(\hat{\theta})' \left[ \mathbf{G}' \cdot \text{Avar}(\hat{\theta}) \cdot \mathbf{G} \right]^{-1} \mathbf{g}(\hat{\theta}) \xrightarrow{d} \chi^2(r), \] 其中 G=g/θ \mathbf{G} = \partial \mathbf{g} / \partial \theta' 。Wald 检验最为常用——回归输出中的 t 检验和 F 检验即为其特例。
  • Lagrange 乘子检验(LM / 得分检验):仅基于受约束估计量 θ~ \tilde{\theta} 和得分函数: \[ LM = S(\tilde{\theta})' [I(\tilde{\theta})]^{-1} S(\tilde{\theta}) \xrightarrow{d} \chi^2(r). \] LM 检验无需估计无约束模型,特别适合模型误设定的诊断检验(如异方差检验、自相关检验)。

三者在大样本下等价,但计算策略不同:LR 需两个模型,Wald 仅需无约束模型,LM 仅需受约束模型。实践中根据计算便利性选择。

数值问题与注意事项

尽管 MLE 理论性质优越,实际应用中需警惕以下问题:

  • 全局最大值 vs. 局部最大值:对数似然函数可能非凹,存在多个局部极值。建议使用多个初始值进行优化,或采用全局优化算法(模拟退火、遗传算法)辅助。对于混合模型等典型多峰问题,EM 算法虽能保证每次迭代不降低似然值,但最终收敛点高度依赖初值选取。
  • 边界解:参数空间若有界(如方差 σ2>0 \sigma^2 > 0 ),MLE 可能落在边界上,此时常规渐近理论失效,需采用受约束优化或自助法推断。随机前沿分析中的方差参数估计便是典型例子——当无效率方差趋近于零时,模型退化为普通回归。
  • 参数变换不变性:MLE 具有参数变换不变性——若 θ^ \hat{\theta} θ \theta 的 MLE,则对任意函数 g g g(θ^) g(\hat{\theta}) g(θ) g(\theta) 的 MLE。这一性质在 Delta 方法计算标准误时十分有用,使得我们可以先估计更方便的参数化形式,再反推目标参数。
  • 小样本偏差:MLE 在小样本中可能表现出显著偏差(如正态方差的 MLE)。此时可考虑偏差修正或改用限制最大似然(REML)。面板数据模型中,固定效应估计的"附带参数问题"是小样本偏差的典型表现——当组内观测数 T T 较小时,MLE 不再一致。

计量经济学中的应用

在现代计量经济学中,MLE 的应用已远超出教科书中的简单分布。广义线性模型(GLM)通过连接函数将线性预测子与任意指数族分布统一在 MLE 框架下,涵盖了 logit、probit、泊松回归、Gamma 回归等众多模型。离散选择模型(多项 logit、嵌套 logit、混合 logit)依赖模拟最大似然(SML)处理高维积分。持续时间模型(如 Weibull、Cox 比例风险)通过似然函数处理右删失和左截断数据。随机前沿分析以复合误差结构刻画技术效率,结构估计则直接将经济理论模型映射为似然函数。

MLE 的变体同样丰富:准最大似然(QMLE)即使分布误设仍能一致估计条件均值参数,是稳健推断的重要工具;期望最大化算法(EM)为含潜变量的模型提供迭代求解框架;模拟最大似然(SML)以 Monte Carlo 积分逼近无解析形式的高维积分。即便在机器学习的某些分支中,交叉熵损失函数的最小化本质上等价于分类模型的 MLE,而变分自编码器(VAE)中的证据下界(ELBO)更是直接源于边际似然的下界构造。理解 MLE 的原理与实现,是掌握现代定量分析不可或缺的一环。