ARTICLE

最大似然估计值

最大似然估计值（Maximum Likelihood Estimate，简称 MLE）是统计学中用于估计概率分布参数的一种经典方法。其核心思想十分直观：在给定观测数据的前提下，寻找使该数据出现概率最大的参数值。换句话说，MLE 试图回答这样一个问题——什么样的参数最有可能生成我们看到的这些样本？这种"以最可能的方式解释观察结果"的思路，使得 MLE 成为统计

浏览 0 更新 2025-11-03

从数学形式上看，假设我们有一组独立同分布的观测数据 $x_1, x_2, \ldots, x_n$ ，它们服从某个概率分布 $f(x; \theta)$ ，其中 $\theta$ 是待估计的参数。似然函数定义为 $L(\theta) = \prod_{i=1}^n f(x_i; \theta)$ 。最大似然估计值就是使 $L(\theta)$ 达到最大的 $\theta$ 值，记作 $\hat{\theta}_{MLE}$ 。由于连乘运算在数值上容易溢出且不易求导，实际操作中通常取自然对数，转化为对数似然函数 $\ell(\theta) = \sum_{i=1}^n \ln f(x_i; \theta)$ ，然后通过求导并令导数为零来求解。这个求解过程被称为似然方程。

MLE 的历史可以追溯到统计学的奠基时期。罗纳德·费希尔爵士（Sir Ronald Fisher）在 1912 年至 1922 年间系统性地发展了最大似然估计理论，将其确立为统计推断的基石。费希尔的工作不仅定义了似然函数的概念，还证明了 MLE 的优良渐近性质，由此奠定了现代数理统计的框架。在此之前，高斯（Carl Friedrich Gauss）早在 19 世纪初就已使用类似的想法推导正态分布的参数，但费希尔赋予了它完整的理论体系。今天，MLE 已经成为统计学的标准工具之一，几乎所有统计软件如 R、Python 的 statsmodels、Stata 等都内置了基于 MLE 的求解模块，用户只需指定似然函数形式即可自动完成参数估计。

MLE 之所以被广泛应用，是因为它具有良好的大样本性质。在正则条件下，最大似然估计量具有以下三大关键性质。第一是相合性：随着样本量增大，估计值以概率收敛到真实参数值。第二是渐近正态性：估计量的分布趋近于正态分布，这使得我们可以构造置信区间和进行假设检验。第三是渐近有效性：其渐近方差达到克拉美-劳下界（Cramér-Rao Lower Bound），即在所有相合估计中，MLE 的渐近方差最小。这些性质使得 MLE 在理论上具有很强的吸引力，也是它成为参数估计首选方法的重要原因。

在实际应用中，最大似然估计值几乎覆盖了统计学的各个分支。在经典线性回归中，当误差项服从正态分布时，普通最小二乘估计与 MLE 完全等价，这揭示了均方误差最小化与概率最大化之间的深层联系。在 logistic 回归中，MLE 用于估计分类概率的系数，通过迭代加权最小二乘法（IRLS）来求解。在时间序列分析中，ARIMA 模型的参数通常也通过 MLE 来估计。在机器学习领域，交叉熵损失函数的极小化本质上就是在做最大似然估计，这解释了为什么许多深度学习模型都使用交叉熵作为损失函数。此外，在生物统计中，Cox 比例风险模型的部分似然方法也是基于 MLE 原理的推广。

求解 MLE 有时并不容易。当似然函数具有闭合形式的解时，可以直接通过公式计算，例如正态分布的均值和方差的 MLE 都有显式表达式。但当似然函数较为复杂、无法直接求导得到解析解时，就需要借助数值优化方法。常用的方法包括牛顿-拉夫森法（Newton-Raphson），它利用梯度向量和海森矩阵进行迭代更新，收敛速度较快但需要计算二阶导数；梯度下降法（Gradient Descent），通过沿着梯度反方向逐步逼近最优值，适合处理大规模数据；以及期望最大化算法（EM Algorithm），它特别适合处理含有隐变量或缺失数据的问题，通过交替执行期望步（E步）和最大化步（M步）来逐步逼近最优参数。EM 算法在混合模型、隐马尔可夫模型等领域有着广泛的应用。

尽管 MLE 有许多优点，它也有局限性。当样本量较小时，MLE 可能存在明显的偏倚，例如正态分布方差参数的 MLE 在小样本下常常低估真实方差。这一点可以通过引入贝叶斯方法或使用无偏修正来解决。MLE 还依赖于对概率模型的正确设定，如果模型形式错误，估计结果可能不可靠甚至产生严重误导。此外，在某些复杂模型中，似然函数可能存在多个局部极大值，使得优化过程陷入局部最优而非全局最优，这时需要使用多种初始值或全局优化策略来应对。

以一个简单例子作结：抛一枚硬币十次，观察到七次正面。若假设正面概率为 p，则似然函数为 p⁷(1-p)³。通过求导可得 MLE 为 0.7，恰为观测到的正面频率。这个例子直观展示了 MLE 将经验频率与概率参数巧妙联系起来的思想。总的来说，最大似然估计值是统计学中最基本、最强大的参数估计工具之一。它从概率第一性原理出发，在理论和应用之间架起了桥梁，是所有从事数据分析、统计学习和科学研究的人都必须掌握的核心概念。理解 MLE 的原理、性质和局限，对于正确运用统计方法、解读数据分析结果具有深远的意义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。