ARTICLE
最大似然估计法
概述 最大似然估计法(Maximum Likelihood Estimation,MLE)是统计学与计量经济学中最核心的参数估计方法之一,由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观:给定一组观测数据,我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之,MLE 在追问:什么样的参数取值,能让我们已经看
概述
最大似然估计法(Maximum Likelihood Estimation,MLE)是统计学与计量经济学中最核心的参数估计方法之一,由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观:给定一组观测数据,我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之,MLE 在追问:什么样的参数取值,能让我们已经看到的数据显得最"理所当然"?
形式化地,设 为来自分布 的独立同分布样本,其中 为未知参数向量。似然函数定义为样本的联合概率密度(或概率质量函数)在给定参数下关于数据的函数:
由于乘积形式在数学上不便处理,通常取自然对数得到对数似然函数:
最大似然估计量 即为使对数似然函数取最大值的参数值:
求解方法
在实际操作中,MLE 的求解通常通过一阶条件实现。对对数似然函数求梯度并设为零,得到得分方程:
对于指数族分布等常见情形,得分方程常存在解析解。例如:
- 正态分布均值(方差已知):。
- 伯努利分布:。
- 泊松分布:。
然而,在许多复杂模型中(如非线性回归、混合模型),得分方程无法解析求解,需借助数值优化算法——牛顿-拉弗森法(Newton-Raphson)及其变体最为常用。迭代格式为:
其中 为 Hessian 矩阵。Fisher 评分算法则以信息矩阵 替代 ,在广义线性模型(GLM)中尤为常见。
渐近性质
MLE 之所以在统计推断中占据统治地位,根源在于其优良的大样本性质。在适当的正则条件下(Cramér, 1946):
- 一致性:,即随着样本量增加,MLE 收敛到真值。
- 渐近正态性: \[ \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I_1(\theta_0)^{-1}), \] 其中 为单次观测的 Fisher 信息矩阵。这意味着在大样本下,MLE 近似服从正态分布。
- 渐近有效性:在所有的正则估计量中,MLE 达到 Cramér-Rao 下界,即渐近方差最小。这是 MLE 最深刻的理论性质——没有任何其他一致估计量能在大样本下比 MLE 更精确。
Fisher 信息矩阵在整个框架中扮演关键角色:
信息矩阵的逆提供了 MLE 渐近协方差矩阵的估计基础,是构造置信区间和假设检验的根基。
与 OLS 的对比
在经典线性回归模型 中,若假设误差服从正态分布 ,对数似然函数为:
对 最大化,得到 ,即与普通最小二乘(OLS)估计量完全一致。但方差估计不同:MLE 的 是有偏的,而 OLS 的无偏估计为 。这一差异在小样本中值得注意,但随着 两者渐近等价。
在非正态误差或非线性模型中,MLE 与 OLS 不再等价——MLE 通过为不同分布指定恰当的似然函数,能够处理二值选择(probit/logit)、计数数据(泊松回归)、截断数据(Tobit)等 OLS 无法直接应对的情形。这正是 MLE 框架强大通用性的体现。
似然比检验、Wald 检验与 Lagrange 乘子检验
基于 MLE 的三大经典检验构成了现代计量经济学推断的基石。设原假设为 (含 个约束):
- 似然比检验(Likelihood Ratio, LR):比较无约束与受约束模型的对数似然值之差: \[ LR = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{d} \chi^2(r), \] 其中 和 分别为无约束和受约束 MLE。LR 检验需同时估计两个模型,计算成本最高,但理论上最优。
- Wald 检验:仅基于无约束估计量 ,检验约束是否近似成立: \[ W = \mathbf{g}(\hat{\theta})' \left[ \mathbf{G}' \cdot \text{Avar}(\hat{\theta}) \cdot \mathbf{G} \right]^{-1} \mathbf{g}(\hat{\theta}) \xrightarrow{d} \chi^2(r), \] 其中 。Wald 检验最为常用——回归输出中的 t 检验和 F 检验即为其特例。
- Lagrange 乘子检验(LM / 得分检验):仅基于受约束估计量 和得分函数: \[ LM = S(\tilde{\theta})' [I(\tilde{\theta})]^{-1} S(\tilde{\theta}) \xrightarrow{d} \chi^2(r). \] LM 检验无需估计无约束模型,特别适合模型误设定的诊断检验(如异方差检验、自相关检验)。
三者在大样本下等价,但计算策略不同:LR 需两个模型,Wald 仅需无约束模型,LM 仅需受约束模型。实践中根据计算便利性选择。
数值问题与注意事项
尽管 MLE 理论性质优越,实际应用中需警惕以下问题:
- 全局最大值 vs. 局部最大值:对数似然函数可能非凹,存在多个局部极值。建议使用多个初始值进行优化,或采用全局优化算法(模拟退火、遗传算法)辅助。对于混合模型等典型多峰问题,EM 算法虽能保证每次迭代不降低似然值,但最终收敛点高度依赖初值选取。
- 边界解:参数空间若有界(如方差 ),MLE 可能落在边界上,此时常规渐近理论失效,需采用受约束优化或自助法推断。随机前沿分析中的方差参数估计便是典型例子——当无效率方差趋近于零时,模型退化为普通回归。
- 参数变换不变性:MLE 具有参数变换不变性——若 是 的 MLE,则对任意函数 , 是 的 MLE。这一性质在 Delta 方法计算标准误时十分有用,使得我们可以先估计更方便的参数化形式,再反推目标参数。
- 小样本偏差:MLE 在小样本中可能表现出显著偏差(如正态方差的 MLE)。此时可考虑偏差修正或改用限制最大似然(REML)。面板数据模型中,固定效应估计的"附带参数问题"是小样本偏差的典型表现——当组内观测数 较小时,MLE 不再一致。
计量经济学中的应用
在现代计量经济学中,MLE 的应用已远超出教科书中的简单分布。广义线性模型(GLM)通过连接函数将线性预测子与任意指数族分布统一在 MLE 框架下,涵盖了 logit、probit、泊松回归、Gamma 回归等众多模型。离散选择模型(多项 logit、嵌套 logit、混合 logit)依赖模拟最大似然(SML)处理高维积分。持续时间模型(如 Weibull、Cox 比例风险)通过似然函数处理右删失和左截断数据。随机前沿分析以复合误差结构刻画技术效率,结构估计则直接将经济理论模型映射为似然函数。
MLE 的变体同样丰富:准最大似然(QMLE)即使分布误设仍能一致估计条件均值参数,是稳健推断的重要工具;期望最大化算法(EM)为含潜变量的模型提供迭代求解框架;模拟最大似然(SML)以 Monte Carlo 积分逼近无解析形式的高维积分。即便在机器学习的某些分支中,交叉熵损失函数的最小化本质上等价于分类模型的 MLE,而变分自编码器(VAE)中的证据下界(ELBO)更是直接源于边际似然的下界构造。理解 MLE 的原理与实现,是掌握现代定量分析不可或缺的一环。