ARTICLE
Maximum Likelihood Estimation
Maximum Likelihood Estimation 最大似然估计(Maximum Likelihood Estimation, MLE)是一种在给定观测数据下估计统计模型参数的标准方法,也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观:选择使当前观测数据出现概率(即似然函数)最大化的参数值作为估计值。换言之,我们寻找最能解释已有数据的
Maximum Likelihood Estimation
最大似然估计(Maximum Likelihood Estimation, MLE)是一种在给定观测数据下估计统计模型参数的标准方法,也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观:选择使当前观测数据出现概率(即似然函数)最大化的参数值作为估计值。换言之,我们寻找最能解释已有数据的参数取值。该方法由英国著名统计学家罗纳德·费希尔爵士(Sir Ronald Fisher)在 1912 年至 1922 年间系统性地提出并加以发展,他在 1922 年发表的里程碑式论文《理论统计学的数学基础》中,完整地阐述了最大似然估计的理论框架。自此之后,MLE 逐渐成为统计学中最基本且应用最广泛的参数估计方法之一,深刻影响了计量经济学、生物信息学、机器学习等多个学科的发展方向。
与矩估计等传统方法相比,MLE 具有更高的效率,并且在样本量足够大时能够达到理论上的最优性能。它的成功不仅在于其直观的哲学理念,更在于其背后坚实的数学理论基础。
基本概念
似然函数
要理解最大似然估计,首先需要掌握似然函数这一核心概念。设 为来自某个概率分布族 的独立同分布样本,其中 为未知参数(可以是标量或向量), 为参数空间。则观测数据的联合概率密度函数为:
当我们将该函数视为参数 的函数(而非数据的函数)时,称之为似然函数。需要注意的是,似然函数并非概率密度函数——它在参数空间上的积分不一定等于 1。似然函数的值衡量的是给定参数值时观测到当前数据的相对可能性(或联合概率密度)。
最大似然估计量
最大似然估计量定义为使似然函数(或对数似然函数)达到最大的参数值:
求解通常通过对对数似然函数关于 求偏导并令其为零来完成:
该方程称为似然方程。对于某些复杂模型,似然方程可能没有解析解,此时需借助数值优化方法(如牛顿-拉夫逊法、梯度下降法或 EM 算法)进行求解。
经典示例
为了更直观地理解最大似然估计的具体操作过程,以下给出几个经典的概率分布示例。
正态分布
设 ,其中均值 和方差 均未知。则对数似然函数为:
分别对 和 求偏导并令其为零,求解似然方程可得:
即样本均值和(有偏)样本方差。这里有一个重要的细节需要特别注意: 的分母是 而非 ,因此它是方差的有偏估计量。实践中常使用无偏版本 ,这恰好说明了 MLE 在小样本情况下可能存在偏差。不过随着样本量的增大,这种偏差会逐渐消失。
伯努利分布
设 ,即每次试验成功概率为 。则 的 MLE 为:
即样本中成功事件出现的频率。这一结果直观且高度符合直觉——要估计一枚硬币正面朝上的概率,最自然的做法就是统计抛掷中正面出现的比例。这也体现了 MLE 的一个优势:在简单问题中,它给出的结果往往与我们的直观判断完全一致。
大样本性质
最大似然估计在正则条件下具有以下优良的渐近性质:
- 相合性:,即估计量依概率收敛到真实参数值。
- 渐近正态性:,其中 为费希尔信息量。
- 渐近有效性:在大样本下,MLE 的方差达到克拉美-罗下界(Cramér-Rao lower bound),即在所有相合估计量中具有最小的渐近方差。
- 不变性:若 是 的 MLE,则对任意函数 , 是 的 MLE。
计算方法
当解析解不存在时,常用以下数值方法求解 MLE:
- 牛顿-拉夫逊法:利用一阶和二阶导数信息迭代逼近极值点。
- 梯度下降法:仅使用一阶导数,适合高维参数空间。
- EM 算法(期望最大化算法):特别适用于存在隐变量或缺失数据的模型,如高斯混合模型。
- 拟牛顿法:如 BFGS 算法,在二阶导难以计算时作为替代方案。
与其他方法的比较
- 最大似然估计(MLE):优点为渐近有效、不变性、一致估计;缺点为依赖模型假设,小样本可能有偏。
- 矩估计(MM):优点为计算简便,无需数值优化;缺点为效率较低,可能产生无效估计。
- 贝叶斯估计:优点为可融入先验信息,不确定性量化自然;缺点为依赖先验选择,计算复杂。
- 最小二乘估计(OLS):优点为线性模型下为 BLUE;缺点为对异常值敏感,局限于线性模型。
应用领域
最大似然估计在众多学科中有着广泛的应用,包括:
- 计量经济学:Logit/Probit 模型、时间序列分析(ARIMA)
- 生物信息学:系统发育树构建、序列比对
- 机器学习:逻辑回归、朴素贝叶斯分类器、生成对抗网络的训练
- 信号处理:参数谱估计、波达方向估计
- 自然语言处理:n-gram 语言模型、隐马尔可夫模型的参数估计
局限性与注意事项
尽管 MLE 具有诸多优良性质,在实际应用中仍需注意以下几点:参数可识别性问题(不同参数值对应相同似然值)、边界参数问题(参数位于参数空间边界时渐近理论失效)、模型误设定问题(真实分布不属于所假设的分布族时 MLE 的表现)、以及小样本偏差问题。此外,对于高维参数模型,MLE 可能出现过拟合现象,此时可通过正则化(如 LASSO 或岭回归)或引入先验信息(即最大后验估计,MAP)加以缓解。
参考文献
- Fisher, R. A. (1922). ``On the mathematical foundations of theoretical statistics''. Philosophical Transactions of the Royal Society A, 222, 309--368.
- Lehmann, E. L. \& Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
- Pawitan, Y. (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press.
- 陈希孺. (2009). 《概率论与数理统计》. 中国科学技术大学出版社.