ARTICLE

Maximum Likelihood Estimation

Maximum Likelihood Estimation 最大似然估计（Maximum Likelihood Estimation, MLE）是一种在给定观测数据下估计统计模型参数的标准方法，也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观：选择使当前观测数据出现概率（即似然函数）最大化的参数值作为估计值。换言之，我们寻找最能解释已有数据的

浏览 0 更新 2025-10-26

Maximum Likelihood Estimation

最大似然估计（Maximum Likelihood Estimation, MLE）是一种在给定观测数据下估计统计模型参数的标准方法，也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观：选择使当前观测数据出现概率（即似然函数）最大化的参数值作为估计值。换言之，我们寻找最能解释已有数据的参数取值。该方法由英国著名统计学家罗纳德·费希尔爵士（Sir Ronald Fisher）在 1912 年至 1922 年间系统性地提出并加以发展，他在 1922 年发表的里程碑式论文《理论统计学的数学基础》中，完整地阐述了最大似然估计的理论框架。自此之后，MLE 逐渐成为统计学中最基本且应用最广泛的参数估计方法之一，深刻影响了计量经济学、生物信息学、机器学习等多个学科的发展方向。

与矩估计等传统方法相比，MLE 具有更高的效率，并且在样本量足够大时能够达到理论上的最优性能。它的成功不仅在于其直观的哲学理念，更在于其背后坚实的数学理论基础。

基本概念

似然函数

要理解最大似然估计，首先需要掌握似然函数这一核心概念。设 $X_1, X_2, \ldots, X_n$ 为来自某个概率分布族 $\{f(x; \theta) : \theta \in \Theta\}$ 的独立同分布样本，其中 $\theta$ 为未知参数（可以是标量或向量）， $\Theta$ 为参数空间。则观测数据的联合概率密度函数为：

L(\theta; \mathbf{x}) = \prod_{i=1}^{n} f(x_i; \theta)

当我们将该函数视为参数 $\theta$ 的函数（而非数据的函数）时，称之为似然函数。需要注意的是，似然函数并非概率密度函数——它在参数空间上的积分不一定等于 1。似然函数的值衡量的是给定参数值时观测到当前数据的相对可能性（或联合概率密度）。

最大似然估计量

最大似然估计量定义为使似然函数（或对数似然函数）达到最大的参数值：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} L(\theta; \mathbf{x}) = \arg\max_{\theta \in \Theta} \ell(\theta; \mathbf{x})

求解通常通过对对数似然函数关于 $\theta$ 求偏导并令其为零来完成：

\frac{\partial \ell(\theta)}{\partial \theta} = 0

该方程称为似然方程。对于某些复杂模型，似然方程可能没有解析解，此时需借助数值优化方法（如牛顿-拉夫逊法、梯度下降法或 EM 算法）进行求解。

经典示例

为了更直观地理解最大似然估计的具体操作过程，以下给出几个经典的概率分布示例。

正态分布

设 $X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} \mathcal{N}(\mu, \sigma^2)$ ，其中均值 $\mu$ 和方差 $\sigma^2$ 均未知。则对数似然函数为：

\ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2

分别对 $\mu$ 和 $\sigma^2$ 求偏导并令其为零，求解似然方程可得：

\hat{\mu}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x}, \quad \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2

即样本均值和（有偏）样本方差。这里有一个重要的细节需要特别注意： $\hat{\sigma}^2_{\text{MLE}}$ 的分母是 $n$ 而非 $n-1$ ，因此它是方差的有偏估计量。实践中常使用无偏版本 $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ ，这恰好说明了 MLE 在小样本情况下可能存在偏差。不过随着样本量的增大，这种偏差会逐渐消失。

伯努利分布

设 $X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} \text{Bernoulli}(p)$ ，即每次试验成功概率为 $p$ 。则 $p$ 的 MLE 为：

\hat{p}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x}

即样本中成功事件出现的频率。这一结果直观且高度符合直觉——要估计一枚硬币正面朝上的概率，最自然的做法就是统计抛掷中正面出现的比例。这也体现了 MLE 的一个优势：在简单问题中，它给出的结果往往与我们的直观判断完全一致。

大样本性质

最大似然估计在正则条件下具有以下优良的渐近性质：

相合性： $\hat{\theta}_{\text{MLE}} \xrightarrow{p} \theta_0$ ，即估计量依概率收敛到真实参数值。
渐近正态性： $\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I(\theta_0)^{-1})$ ，其中 $I(\theta_0)$ 为费希尔信息量。
渐近有效性：在大样本下，MLE 的方差达到克拉美-罗下界（Cramér-Rao lower bound），即在所有相合估计量中具有最小的渐近方差。
不变性：若 $\hat{\theta}$ 是 $\theta$ 的 MLE，则对任意函数 $g(\cdot)$ ， $g(\hat{\theta})$ 是 $g(\theta)$ 的 MLE。

计算方法

当解析解不存在时，常用以下数值方法求解 MLE：

牛顿-拉夫逊法：利用一阶和二阶导数信息迭代逼近极值点。
梯度下降法：仅使用一阶导数，适合高维参数空间。
EM 算法（期望最大化算法）：特别适用于存在隐变量或缺失数据的模型，如高斯混合模型。
拟牛顿法：如 BFGS 算法，在二阶导难以计算时作为替代方案。

与其他方法的比较

最大似然估计（MLE）：优点为渐近有效、不变性、一致估计；缺点为依赖模型假设，小样本可能有偏。
矩估计（MM）：优点为计算简便，无需数值优化；缺点为效率较低，可能产生无效估计。
贝叶斯估计：优点为可融入先验信息，不确定性量化自然；缺点为依赖先验选择，计算复杂。
最小二乘估计（OLS）：优点为线性模型下为 BLUE；缺点为对异常值敏感，局限于线性模型。

应用领域

最大似然估计在众多学科中有着广泛的应用，包括：

计量经济学：Logit/Probit 模型、时间序列分析（ARIMA）
生物信息学：系统发育树构建、序列比对
机器学习：逻辑回归、朴素贝叶斯分类器、生成对抗网络的训练
信号处理：参数谱估计、波达方向估计
自然语言处理：n-gram 语言模型、隐马尔可夫模型的参数估计

局限性与注意事项

尽管 MLE 具有诸多优良性质，在实际应用中仍需注意以下几点：参数可识别性问题（不同参数值对应相同似然值）、边界参数问题（参数位于参数空间边界时渐近理论失效）、模型误设定问题（真实分布不属于所假设的分布族时 MLE 的表现）、以及小样本偏差问题。此外，对于高维参数模型，MLE 可能出现过拟合现象，此时可通过正则化（如 LASSO 或岭回归）或引入先验信息（即最大后验估计，MAP）加以缓解。

参考文献

Fisher, R. A. (1922). ``On the mathematical foundations of theoretical statistics''. Philosophical Transactions of the Royal Society A, 222, 309--368.
Lehmann, E. L. \& Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
Pawitan, Y. (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press.
陈希孺. (2009). 《概率论与数理统计》. 中国科学技术大学出版社.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。