ARTICLE

maximum likelihood estimate

最大似然估计（Maximum Likelihood Estimate, MLE）是统计学中最为重要且应用最广泛的参数估计方法之一。该方法由罗纳德·费希尔（Ronald Fisher）在20世纪20年代系统化地提出与发展，其核心思想直观而深刻：在给定观测数据的前提下，选择那些使得当前观测结果出现概率最大的参数值作为总体参数的估计量。最大似然估计具有良好的大样本

浏览 0 更新 2025-11-11

最大似然估计（Maximum Likelihood Estimate, MLE）是统计学中最为重要且应用最广泛的参数估计方法之一。该方法由罗纳德·费希尔（Ronald Fisher）在20世纪20年代系统化地提出与发展，其核心思想直观而深刻：在给定观测数据的前提下，选择那些使得当前观测结果出现概率最大的参数值作为总体参数的估计量。最大似然估计具有良好的大样本性质，包括一致性、渐近有效性和渐近正态性，这使其在数理统计、计量经济学、机器学习、生物统计等众多领域占据不可替代的地位。

最大似然原理与似然函数

最大似然估计的本质是对概率模型的一种逆向推理。在常规的概率模型中，我们已知参数去推测数据的生成结果；而最大似然估计则在已知观测数据的前提下，逆向寻找最可能产生该数据的参数。这一过程的核心工具是似然函数。设随机变量 $X$ 的概率密度函数（或概率质量函数）为 $f(x; \theta)$ ，其中 $\theta$ 为待估参数向量。给定一组独立同分布的观测样本 $X_1, X_2, \dots, X_n$ ，似然函数定义为联合密度函数在观测值处的取值，并将其视为参数的函数：

L(\theta) = \prod_{i=1}^{n} f(X_i; \theta)

最大似然估计量 $\hat{\theta}_{\text{MLE}}$ 就是使似然函数达到最大值的参数取值：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} L(\theta)

在实际计算中，由于乘积形式的似然函数在数值上容易产生下溢，且求导不便，通常转而最大化对数似然函数 $\ell(\theta) = \ln L(\theta)$ 。由于对数函数是严格单调递增的，最大化对数似然与最大化原始似然在参数解上完全等价，而求和形式的对数似然在大样本下更易于处理。

MLE的求解方法

求解最大似然估计通常有三种主要途径。其一是解析法，通过对对数似然函数关于参数求偏导并令其为零，直接得到参数的显式表达式。正态分布均值的MLE为样本均值 $\bar{X}$ ，方差（有偏）的MLE为 $\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$ ，这些都是解析求解的经典案例。然而，许多模型的似然函数并不存在闭式解，此时需要借助数值优化方法。牛顿-拉夫逊法（Newton-Raphson Method）和拟牛顿法（如BFGS）通过迭代逼近似然函数的极值点，是实践中常用的数值求解工具。第三种方法是不完全数据下的期望最大化算法（EM Algorithm），该算法通过迭代执行期望步（E步）和最大化步（M步），在含隐变量的模型中高效求解MLE，广泛应用于混合模型、隐马尔可夫模型和缺失数据处理等场景。

MLE的优良性质

最大似然估计之所以成为参数估计的黄金标准，在于其一系列深刻的理论性质。一致性（Consistency）是最基本的性质：当样本量趋近于无穷时，MLE依概率收敛于参数的真值。渐近正态性（Asymptotic Normality）保证了 $\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta)$ 在分布上收敛于均值为零的正态分布，其方差为费希尔信息量的逆矩阵。这一性质为假设检验和区间估计提供了理论基础。渐近有效性（Asymptotic Efficiency）则指出，在正则条件下，MLE的渐近方差达到了克拉美-罗下界（Cramér-Rao Lower Bound），即在所有一致估计量中，MLE在大样本下具有最小的渐近方差。此外，MLE还具有不变性（Invariance Property）：若 $\hat{\theta}$ 是 $\theta$ 的MLE，则对于任意参数变换函数 $g(\cdot)$ ， $g(\hat{\theta})$ 都是 $g(\theta)$ 的MLE。

MLE与参数化

最大似然估计对模型的参数化方式具有一定的敏感性。同一统计模型可以采用不同的参数化方案，MLE在不同方案下虽然保持内在一致，但有限样本下的偏误特性可能有所不同。例如，方差参数的MLE在有限样本下是有偏的（低估总体方差），而通过调整为无偏估计量（如使用 $n-1$ 作为分母的样本方差），本质上是对MLE进行的一次校正。这一现象引导出加惩罚的似然方法（Penalized Likelihood）和贝叶斯方法等扩展路径。

应用与局限

在计量经济学中，MLE是Probit模型、Logit模型、Tobit模型等离散选择模型的标准估计方法。在时间序列分析中，ARIMA模型和GARCH模型的参数估计也常借助MLE完成。在机器学习领域，逻辑回归的损失函数本质上是负对数似然，神经网络的训练也常以最大化似然为目标。在生物统计学中，Cox比例风险模型的偏似然估计即是MLE思想的体现。然而，MLE并非万能。当似然函数存在多个局部极值时，数值优化可能收敛到非全局最优解。在高维参数空间中，传统MLE可能出现过拟合问题，此时正则化方法（如Lasso、Ridge）通过对似然施加惩罚项来缓解。此外，当模型设定错误时，MLE的一致性性质不再成立，此时需要借助拟最大似然估计（QMLE）等稳健方法。此外，对于小样本情形，MLE的有限样本性质可能偏离渐近理论，此时Bootstrap方法或贝叶斯方法可作为有效的替代方案。

最大似然估计以其统一的数学框架和优良的渐近性质，为统计推断提供了坚实的理论基础和广泛的应用工具。从简单的正态均值估计到复杂的深度学习模型，MLE始终是连接数据与模型的核心桥梁之一。深刻理解最大似然估计的基本原理和理论性质，对于系统掌握现代统计推断方法与数据科学实践具有基础性的重要意义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。