ARTICLE

最大似然估计法

概述最大似然估计法（Maximum Likelihood Estimation，MLE）是统计学与计量经济学中最核心的参数估计方法之一，由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观：给定一组观测数据，我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之，MLE 在追问：什么样的参数取值，能让我们已经看

浏览 3 更新 2025-10-26

概述

最大似然估计法（Maximum Likelihood Estimation，MLE）是统计学与计量经济学中最核心的参数估计方法之一，由 R. A. Fisher 在 20 世纪初系统提出。其基本思想极为直观：给定一组观测数据，我们选择那些使"观测到当前样本"这一事件发生概率最大的参数值作为估计量。换言之，MLE 在追问：什么样的参数取值，能让我们已经看到的数据显得最"理所当然"？

形式化地，设 $\mathbf{X} = (X_1, X_2, \dots, X_n)$ 为来自分布 $f(x \mid \theta)$ 的独立同分布样本，其中 $\theta \in \Theta \subset \mathbb{R}^k$ 为未知参数向量。似然函数定义为样本的联合概率密度（或概率质量函数）在给定参数下关于数据的函数：

L(\theta \mid \mathbf{x}) = \prod_{i=1}^{n} f(x_i \mid \theta).

由于乘积形式在数学上不便处理，通常取自然对数得到对数似然函数：

\ell(\theta) = \ln L(\theta \mid \mathbf{x}) = \sum_{i=1}^{n} \ln f(x_i \mid \theta).

最大似然估计量 $\hat{\theta}_{\text{MLE}}$ 即为使对数似然函数取最大值的参数值：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta).

求解方法

在实际操作中，MLE 的求解通常通过一阶条件实现。对对数似然函数求梯度并设为零，得到得分方程：

S(\theta) = \frac{\partial \ell(\theta)}{\partial \theta} = \mathbf{0}.

对于指数族分布等常见情形，得分方程常存在解析解。例如：

正态分布均值（方差已知）： $\hat{\mu} = \bar{x} = \frac{1}{n}\sum x_i$ 。
伯努利分布： $\hat{p} = \bar{x}$ 。
泊松分布： $\hat{\lambda} = \bar{x}$ 。

然而，在许多复杂模型中（如非线性回归、混合模型），得分方程无法解析求解，需借助数值优化算法——牛顿-拉弗森法（Newton-Raphson）及其变体最为常用。迭代格式为：

\theta^{(t+1)} = \theta^{(t)} - \left[ H(\theta^{(t)}) \right]^{-1} S(\theta^{(t)}),

其中 $H(\theta) = \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta'}$ 为 Hessian 矩阵。Fisher 评分算法则以信息矩阵 $I(\theta) = -\mathbb{E}[H(\theta)]$ 替代 $H(\theta)$ ，在广义线性模型（GLM）中尤为常见。

渐近性质

MLE 之所以在统计推断中占据统治地位，根源在于其优良的大样本性质。在适当的正则条件下（Cramér, 1946）：

一致性： $\hat{\theta} \xrightarrow{p} \theta_0$ ，即随着样本量增加，MLE 收敛到真值。
渐近正态性： \[ \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I_1(\theta_0)^{-1}), \] 其中 $I_1(\theta_0)$ 为单次观测的 Fisher 信息矩阵。这意味着在大样本下，MLE 近似服从正态分布。
渐近有效性：在所有的正则估计量中，MLE 达到 Cramér-Rao 下界，即渐近方差最小。这是 MLE 最深刻的理论性质——没有任何其他一致估计量能在大样本下比 MLE 更精确。

Fisher 信息矩阵在整个框架中扮演关键角色：

I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta'} \right] = \mathbb{E}\left[ \left( \frac{\partial \ell(\theta)}{\partial \theta} \right) \left( \frac{\partial \ell(\theta)}{\partial \theta} \right)' \right].

信息矩阵的逆提供了 MLE 渐近协方差矩阵的估计基础，是构造置信区间和假设检验的根基。

与 OLS 的对比

在经典线性回归模型 $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$ 中，若假设误差服从正态分布 $\varepsilon_i \sim N(0, \sigma^2)$ ，对数似然函数为：

\ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}).

对 $\boldsymbol{\beta}$ 最大化，得到 $\hat{\boldsymbol{\beta}}_{\text{MLE}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}$ ，即与普通最小二乘（OLS）估计量完全一致。但方差估计不同：MLE 的 $\hat{\sigma}^2 = \frac{\text{RSS}}{n}$ 是有偏的，而 OLS 的无偏估计为 $\frac{\text{RSS}}{n-k}$ 。这一差异在小样本中值得注意，但随着 $n \to \infty$ 两者渐近等价。

在非正态误差或非线性模型中，MLE 与 OLS 不再等价——MLE 通过为不同分布指定恰当的似然函数，能够处理二值选择（probit/logit）、计数数据（泊松回归）、截断数据（Tobit）等 OLS 无法直接应对的情形。这正是 MLE 框架强大通用性的体现。

似然比检验、Wald 检验与 Lagrange 乘子检验

基于 MLE 的三大经典检验构成了现代计量经济学推断的基石。设原假设为 $H_0: \mathbf{g}(\theta) = \mathbf{0}$ （含 $r$ 个约束）：

似然比检验（Likelihood Ratio, LR）：比较无约束与受约束模型的对数似然值之差： \[ LR = 2\left[ \ell(\hat{\theta}) - \ell(\tilde{\theta}) \right] \xrightarrow{d} \chi^2(r), \] 其中 $\hat{\theta}$ 和 $\tilde{\theta}$ 分别为无约束和受约束 MLE。LR 检验需同时估计两个模型，计算成本最高，但理论上最优。
Wald 检验：仅基于无约束估计量 $\hat{\theta}$ ，检验约束是否近似成立： \[ W = \mathbf{g}(\hat{\theta})' \left[ \mathbf{G}' \cdot \text{Avar}(\hat{\theta}) \cdot \mathbf{G} \right]^{-1} \mathbf{g}(\hat{\theta}) \xrightarrow{d} \chi^2(r), \] 其中 $\mathbf{G} = \partial \mathbf{g} / \partial \theta'$ 。Wald 检验最为常用——回归输出中的 t 检验和 F 检验即为其特例。
Lagrange 乘子检验（LM / 得分检验）：仅基于受约束估计量 $\tilde{\theta}$ 和得分函数： \[ LM = S(\tilde{\theta})' [I(\tilde{\theta})]^{-1} S(\tilde{\theta}) \xrightarrow{d} \chi^2(r). \] LM 检验无需估计无约束模型，特别适合模型误设定的诊断检验（如异方差检验、自相关检验）。

三者在大样本下等价，但计算策略不同：LR 需两个模型，Wald 仅需无约束模型，LM 仅需受约束模型。实践中根据计算便利性选择。

数值问题与注意事项

尽管 MLE 理论性质优越，实际应用中需警惕以下问题：

全局最大值 vs. 局部最大值：对数似然函数可能非凹，存在多个局部极值。建议使用多个初始值进行优化，或采用全局优化算法（模拟退火、遗传算法）辅助。对于混合模型等典型多峰问题，EM 算法虽能保证每次迭代不降低似然值，但最终收敛点高度依赖初值选取。
边界解：参数空间若有界（如方差 $\sigma^2 > 0$ ），MLE 可能落在边界上，此时常规渐近理论失效，需采用受约束优化或自助法推断。随机前沿分析中的方差参数估计便是典型例子——当无效率方差趋近于零时，模型退化为普通回归。
参数变换不变性：MLE 具有参数变换不变性——若 $\hat{\theta}$ 是 $\theta$ 的 MLE，则对任意函数 $g$ ， $g(\hat{\theta})$ 是 $g(\theta)$ 的 MLE。这一性质在 Delta 方法计算标准误时十分有用，使得我们可以先估计更方便的参数化形式，再反推目标参数。
小样本偏差：MLE 在小样本中可能表现出显著偏差（如正态方差的 MLE）。此时可考虑偏差修正或改用限制最大似然（REML）。面板数据模型中，固定效应估计的"附带参数问题"是小样本偏差的典型表现——当组内观测数 $T$ 较小时，MLE 不再一致。

计量经济学中的应用

在现代计量经济学中，MLE 的应用已远超出教科书中的简单分布。广义线性模型（GLM）通过连接函数将线性预测子与任意指数族分布统一在 MLE 框架下，涵盖了 logit、probit、泊松回归、Gamma 回归等众多模型。离散选择模型（多项 logit、嵌套 logit、混合 logit）依赖模拟最大似然（SML）处理高维积分。持续时间模型（如 Weibull、Cox 比例风险）通过似然函数处理右删失和左截断数据。随机前沿分析以复合误差结构刻画技术效率，结构估计则直接将经济理论模型映射为似然函数。

MLE 的变体同样丰富：准最大似然（QMLE）即使分布误设仍能一致估计条件均值参数，是稳健推断的重要工具；期望最大化算法（EM）为含潜变量的模型提供迭代求解框架；模拟最大似然（SML）以 Monte Carlo 积分逼近无解析形式的高维积分。即便在机器学习的某些分支中，交叉熵损失函数的最小化本质上等价于分类模型的 MLE，而变分自编码器（VAE）中的证据下界（ELBO）更是直接源于边际似然的下界构造。理解 MLE 的原理与实现，是掌握现代定量分析不可或缺的一环。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。