ARTICLE

maximum likelihood estimation

最大似然估计 (Maximum Likelihood Estimation) 最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一，由费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观：选择使观测数据出现概率（或概率密度）最大

浏览 0 更新 2026-06-15

最大似然估计 (Maximum Likelihood Estimation)

最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一，由费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观：选择使观测数据出现概率（或概率密度）最大的参数值作为估计量。在现代计量经济学、生物统计学和机器学习中，MLE 占据着不可替代的中心地位。

基本思想与似然函数

设观测样本 $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ 来自参数分布族 $\{f(\cdot; \theta) : \theta \in \Theta \subseteq \mathbb{R}^p\}$ 。当我们将联合密度视为参数 $\theta$ 的函数（给定数据下）时，就得到了似然函数：

\mathcal{L}(\theta; \mathbf{X}) = f(\mathbf{X}; \theta) = \prod_{i=1}^n f(X_i; \theta)

最后一个等号要求观测值独立。由于连乘积在数学上不便处理，且对数变换保序，实际中几乎总是使用对数似然函数：

\ell(\theta; \mathbf{X}) = \ln \mathcal{L}(\theta; \mathbf{X}) = \sum_{i=1}^n \ln f(X_i; \theta)

最大似然估计量 $\hat{\theta}_{\text{MLE}}$ 定义为：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta; \mathbf{X})

求解步骤

MLE 的求解通常遵循以下步骤：

写出似然函数：根据数据生成过程确定适当的概率模型。
取对数：将乘积转化为和，得到 $\ell(\theta) = \sum_i \ln f(X_i; \theta)$ 。
求一阶条件：令得分函数为零： \[ s(\hat{\theta}) = \frac{\partial \ell(\theta)}{\partial \theta}\bigg|_{\theta=\hat{\theta}} = \mathbf{0} \] 这称为似然方程 (likelihood equation)。
验证二阶条件：检查海塞矩阵（或信息矩阵）在驻点处负定，确保找到的是最大值而非鞍点或极小值。
边界检查：若 $\Theta$ 有界，须额外检查边界点。

当似然方程存在显式解时，MLE 可写为解析形式；在多数复杂模型中（如Logit 模型、Probit 模型），需借助数值优化算法。

经典例子

伯努利试验

设 $X_i \sim \text{Bernoulli}(p)$ ， $i=1,\ldots,n$ 。似然函数为：

\mathcal{L}(p) = \prod_{i=1}^n p^{X_i}(1-p)^{1-X_i} = p^{\sum X_i}(1-p)^{n - \sum X_i}

取对数并求导：

\ell(p) = \left(\sum X_i\right) \ln p + \left(n - \sum X_i\right) \ln(1-p)

\frac{d\ell}{dp} = \frac{\sum X_i}{p} - \frac{n - \sum X_i}{1-p} = 0 \implies \hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}

MLE 就是样本均值 — 一个符合直觉的结果。

正态分布均值与方差

设 $X_i \sim N(\mu, \sigma^2)$ ，对数似然为：

\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \mu)^2

分别对 $\mu$ 和 $\sigma^2$ 求偏导并令为零：

\hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2

注意方差的 MLE 使用分母 $n$ 而非无偏估计中的 $n-1$ ，这反映了 MLE 更关注大样本渐近性质而非小样本无偏性的特点。

有限样本性质

在小样本下，MLE 通常不具备最优性质：

有偏性：MLE 一般不满足无偏性。例如 $\hat{\sigma}^2_{\text{MLE}}$ 是有偏的， $E[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2 \neq \sigma^2$ 。可通过乘以 $\frac{n}{n-1}$ 修正，但修正后的估计量不再是 MLE。
不存在性：在某些模型中，MLE 可能不存在（如似然函数无界或在参数空间内部无极值）。
非唯一性：似然函数可能有多峰，需要全局搜索而非仅依赖一阶条件。

这些局限性是大样本理论为何至关重要的原因。

大样本性质

在正则性条件（似然函数充分光滑、参数空间紧致、真实参数位于内部等）满足时，MLE 拥有以下优良的大样本性质：

一致性 (Consistency)： $\hat{\theta} \xrightarrow{p} \theta_0$ ，即随着样本量增大，MLE 收敛到真实参数值。
渐近正态性 (Asymptotic Normality)： $\sqrt{n}$ \left( $\hat{\theta}$ - $\theta_0$ \right) \xrightarrow{d} N\left( $\mathbf{0}$ , $\mathcal{I}_1$ ( $\theta_0$ )^{-1}\right) 其中 $\mathcal{I}_1(\theta_0)$ 是单个观测的信息矩阵。这一结果使得我们可以构造渐近置信区间和进行假设检验。
渐近有效性 (Asymptotic Efficiency)：MLE 的渐近方差达到 Cramér-Rao 下界，即在所有一致渐近正态估计量中，MLE 具有最小的渐近方差。
不变性 (Invariance)：若 $\hat{\theta}$ 是 $\theta$ 的 MLE，则对于任意函数 $g(\cdot)$ ， $g(\hat{\theta})$ 也是 $g(\theta)$ 的 MLE。这一性质在参数变换时极为便利 — 例如，若估计出方差 $\hat{\sigma}^2$ ，则标准差的 MLE 就是 $\sqrt{\hat{\sigma}^2}$ 。

数值优化

当似然方程无封闭解时，需借助迭代数值方法：

Newton-Raphson 方法

设 $\theta^{(k)}$ 为第 $k$ 步迭代值：

$\theta^{(k+1)}$ = $\theta^{(k)}$ - \left[ $\mathbf{H}$ ( $\theta^{(k)}$ )\right]^{-1} s( $\theta^{(k)}$ )

其中 $\mathbf{H} = \partial^2 \ell / \partial\theta\partial\theta^\top$ 是 Hessian 矩阵。该方法收敛速度快（二次收敛），但需计算二阶导数且对初值敏感。

Fisher 得分法 (Fisher Scoring)

以信息矩阵 $\mathcal{I}(\theta) = -\mathbb{E}[\mathbf{H}(\theta)]$ 替代 Hessian：

\theta^{(k+1)} = \theta^{(k)} + \left[\mathcal{I}(\theta^{(k)})\right]^{-1} s(\theta^{(k)})

信息矩阵通常比 Hessian 更稳定（正定性有保证），在广义线性模型 (GLM) 中与迭代加权最小二乘法 (IRLS) 等价。

期望最大化算法 (EM Algorithm)

当数据存在缺失或潜变量时，EM 算法是求解 MLE 的标准工具。它通过交替执行期望步 (E-step) 和最大化步 (M-step)，在每次迭代中提升似然值，最终收敛到局部极大值或鞍点。

模型误设与拟最大似然估计

当似然函数被错误设定时，MLE 仍收敛到某个"伪真值" (pseudo-true value) $\theta^*$ ，该值最小化真实分布与模型分布的 Kullback-Leibler 散度。此时需使用 Sandwich 协方差矩阵进行稳健推断：

\operatorname{Avar}(\hat{\theta}) = \mathcal{I}(\theta^*)^{-1} \operatorname{Var}[s(\theta^*)] \, \mathcal{I}(\theta^*)^{-1}

这一修正的提出者包括 Huber (1967) 和 White (1982)，因此也被称为 Huber-White 稳健标准误。在经济学实证研究中，报告稳健标准误已成为标准做法。

与其它估计方法的比较

与普通最小二乘法 (OLS)：在经典线性回归模型且误差正态分布的假设下，OLS 与 MLE 给出相同的系数估计。但 MLE 同时提供方差参数的估计，且在大样本理论上的处理更为统一。
与矩估计法 (Method of Moments)：矩估计通常更简单但效率较低。MLE 在大样本意义下是最有效的。广义矩估计 (GMM) 则可视为二者的统一框架 — MLE 是 GMM 在得分函数为矩条件时的特例。
与贝叶斯估计：贝叶斯方法通过先验分布整合额外信息，得到后验分布而非点估计。然而，在平坦先验下，后验众数 (MAP) 与 MLE 一致；且在大样本极限下，后验分布渐近等价于以 MLE 为中心的正态分布 (Bernstein-von Mises 定理)。

经济学与计量经济学中的典型应用

MLE 在经济学中的应用极为广泛：

离散选择模型：Logit、Probit、多项 Logit、混合 Logit 等，用于分析消费者的离散决策（购买/不购买、选择何种品牌）。
受限因变量模型：Tobit 模型（角点解）、Heckman 样本选择模型、截断回归与归并回归。
持续时间分析：Cox 比例风险模型和参数化生存模型，使用部分似然或完全似然。
结构估计：动态规划模型、动态随机一般均衡 (DSGE) 模型的估计常依赖 MLE 或模拟矩方法。
面板数据：随机效应模型和动态面板模型的 MLE 估计，在 $T$ 固定、 $n \to \infty$ 的渐近框架下尤为重要。

局限性与注意事项

尽管 MLE 功能强大，仍需注意以下问题：

计算强度：高维参数空间中的全局优化计算成本高昂。
局部最优：似然函数的多峰性可能导致算法收敛到非全局最大值。
模型依赖：MLE 要求完全指定概率模型。若分布假设错误，可能导致严重偏差。半参数方法和非参数方法在更弱的假设下提供替代方案。
样本量需求：虽然大样本性质优良，但有限样本下 MLE 可能表现不佳，尤其是参数个数相对样本量过大时。

尽管有这些局限，MLE 凭借其一致的逻辑框架、最优的大样本性质和广泛的应用范围，始终是统计推断和计量经济学方法论的核心支柱。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。