ARTICLE

Maximum Likelihood Estimation

Maximum Likelihood Estimation 最大似然估计(Maximum Likelihood Estimation, MLE)是一种在给定观测数据下估计统计模型参数的标准方法,也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观:选择使当前观测数据出现概率(即似然函数)最大化的参数值作为估计值。换言之,我们寻找最能解释已有数据的

浏览 0 更新 2025-10-26

Maximum Likelihood Estimation

最大似然估计(Maximum Likelihood Estimation, MLE)是一种在给定观测数据下估计统计模型参数的标准方法,也是统计学中最为经典和核心的参数估计技术之一。其核心思想非常直观:选择使当前观测数据出现概率(即似然函数)最大化的参数值作为估计值。换言之,我们寻找最能解释已有数据的参数取值。该方法由英国著名统计学家罗纳德·费希尔爵士(Sir Ronald Fisher)在 1912 年至 1922 年间系统性地提出并加以发展,他在 1922 年发表的里程碑式论文《理论统计学的数学基础》中,完整地阐述了最大似然估计的理论框架。自此之后,MLE 逐渐成为统计学中最基本且应用最广泛的参数估计方法之一,深刻影响了计量经济学、生物信息学、机器学习等多个学科的发展方向。

与矩估计等传统方法相比,MLE 具有更高的效率,并且在样本量足够大时能够达到理论上的最优性能。它的成功不仅在于其直观的哲学理念,更在于其背后坚实的数学理论基础。

基本概念

似然函数

要理解最大似然估计,首先需要掌握似然函数这一核心概念。设 X1,X2,,XnX_1, X_2, \ldots, X_n 为来自某个概率分布族 {f(x;θ):θΘ}\{f(x; \theta) : \theta \in \Theta\} 的独立同分布样本,其中 θ\theta 为未知参数(可以是标量或向量),Θ\Theta 为参数空间。则观测数据的联合概率密度函数为:

L(θ;x)=i=1nf(xi;θ)L(\theta; \mathbf{x}) = \prod_{i=1}^{n} f(x_i; \theta)

当我们将该函数视为参数 θ\theta 的函数(而非数据的函数)时,称之为似然函数。需要注意的是,似然函数并非概率密度函数——它在参数空间上的积分不一定等于 1。似然函数的值衡量的是给定参数值时观测到当前数据的相对可能性(或联合概率密度)。

最大似然估计量

最大似然估计量定义为使似然函数(或对数似然函数)达到最大的参数值:

θ^MLE=argmaxθΘL(θ;x)=argmaxθΘ(θ;x)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} L(\theta; \mathbf{x}) = \arg\max_{\theta \in \Theta} \ell(\theta; \mathbf{x})

求解通常通过对对数似然函数关于 θ\theta 求偏导并令其为零来完成:

(θ)θ=0\frac{\partial \ell(\theta)}{\partial \theta} = 0

该方程称为似然方程。对于某些复杂模型,似然方程可能没有解析解,此时需借助数值优化方法(如牛顿-拉夫逊法、梯度下降法或 EM 算法)进行求解。

经典示例

为了更直观地理解最大似然估计的具体操作过程,以下给出几个经典的概率分布示例。

正态分布

X1,,Xni.i.d.N(μ,σ2)X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} \mathcal{N}(\mu, \sigma^2),其中均值 μ\mu 和方差 σ2\sigma^2 均未知。则对数似然函数为:

(μ,σ2)=n2log(2π)n2log(σ2)12σ2i=1n(xiμ)2\ell(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2

分别对 μ\muσ2\sigma^2 求偏导并令其为零,求解似然方程可得:

μ^MLE=1ni=1nxi=xˉ,σ^MLE2=1ni=1n(xixˉ)2\hat{\mu}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x}, \quad \hat{\sigma}^2_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2

即样本均值和(有偏)样本方差。这里有一个重要的细节需要特别注意:σ^MLE2\hat{\sigma}^2_{\text{MLE}} 的分母是 nn 而非 n1n-1,因此它是方差的有偏估计量。实践中常使用无偏版本 s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2,这恰好说明了 MLE 在小样本情况下可能存在偏差。不过随着样本量的增大,这种偏差会逐渐消失。

伯努利分布

X1,,Xni.i.d.Bernoulli(p)X_1, \ldots, X_n \overset{\text{i.i.d.}}{\sim} \text{Bernoulli}(p),即每次试验成功概率为 pp。则 pp 的 MLE 为:

p^MLE=1ni=1nxi=xˉ\hat{p}_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x}

即样本中成功事件出现的频率。这一结果直观且高度符合直觉——要估计一枚硬币正面朝上的概率,最自然的做法就是统计抛掷中正面出现的比例。这也体现了 MLE 的一个优势:在简单问题中,它给出的结果往往与我们的直观判断完全一致。

大样本性质

最大似然估计在正则条件下具有以下优良的渐近性质:

  1. 相合性θ^MLEpθ0\hat{\theta}_{\text{MLE}} \xrightarrow{p} \theta_0,即估计量依概率收敛到真实参数值。
  2. 渐近正态性n(θ^MLEθ0)dN(0,I(θ0)1)\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I(\theta_0)^{-1}),其中 I(θ0)I(\theta_0) 为费希尔信息量。
  3. 渐近有效性:在大样本下,MLE 的方差达到克拉美-罗下界(Cramér-Rao lower bound),即在所有相合估计量中具有最小的渐近方差。
  4. 不变性:若 θ^\hat{\theta}θ\theta 的 MLE,则对任意函数 g()g(\cdot)g(θ^)g(\hat{\theta})g(θ)g(\theta) 的 MLE。

计算方法

当解析解不存在时,常用以下数值方法求解 MLE:

  • 牛顿-拉夫逊法:利用一阶和二阶导数信息迭代逼近极值点。
  • 梯度下降法:仅使用一阶导数,适合高维参数空间。
  • EM 算法(期望最大化算法):特别适用于存在隐变量或缺失数据的模型,如高斯混合模型。
  • 拟牛顿法:如 BFGS 算法,在二阶导难以计算时作为替代方案。

与其他方法的比较

  • 最大似然估计(MLE):优点为渐近有效、不变性、一致估计;缺点为依赖模型假设,小样本可能有偏。
  • 矩估计(MM):优点为计算简便,无需数值优化;缺点为效率较低,可能产生无效估计。
  • 贝叶斯估计:优点为可融入先验信息,不确定性量化自然;缺点为依赖先验选择,计算复杂。
  • 最小二乘估计(OLS):优点为线性模型下为 BLUE;缺点为对异常值敏感,局限于线性模型。

应用领域

最大似然估计在众多学科中有着广泛的应用,包括:

  • 计量经济学:Logit/Probit 模型、时间序列分析(ARIMA)
  • 生物信息学:系统发育树构建、序列比对
  • 机器学习:逻辑回归、朴素贝叶斯分类器、生成对抗网络的训练
  • 信号处理:参数谱估计、波达方向估计
  • 自然语言处理:n-gram 语言模型、隐马尔可夫模型的参数估计

局限性与注意事项

尽管 MLE 具有诸多优良性质,在实际应用中仍需注意以下几点:参数可识别性问题(不同参数值对应相同似然值)、边界参数问题(参数位于参数空间边界时渐近理论失效)、模型误设定问题(真实分布不属于所假设的分布族时 MLE 的表现)、以及小样本偏差问题。此外,对于高维参数模型,MLE 可能出现过拟合现象,此时可通过正则化(如 LASSO 或岭回归)或引入先验信息(即最大后验估计,MAP)加以缓解。

参考文献

  1. Fisher, R. A. (1922). ``On the mathematical foundations of theoretical statistics''. Philosophical Transactions of the Royal Society A, 222, 309--368.
  2. Lehmann, E. L. \& Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
  3. Pawitan, Y. (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press.
  4. 陈希孺. (2009). 《概率论与数理统计》. 中国科学技术大学出版社.