ARTICLE

最大似然估计

最大似然估计 (Maximum Likelihood Estimation) 最大似然估计 (MLE),由罗纳德·费雪 (Ronald A. Fisher) 在20世纪初系统提出。其基本思想:在给定观测数据的情况下,寻找使这组数据出现的概率最大的参数值。MLE是现代统计学、计量经济学、机器学习中最常用的推断工具之一。 核心思想与似然函数 概率(参数已知,预测

浏览 58 更新 2025-10-26

最大似然估计 (Maximum Likelihood Estimation)

最大似然估计 (MLE),由罗纳德·费雪 (Ronald A. Fisher) 在20世纪初系统提出。其基本思想:在给定观测数据的情况下,寻找使这组数据出现的概率最大的参数值。MLE是现代统计学计量经济学机器学习中最常用的推断工具之一。

核心思想与似然函数

概率(参数已知,预测数据)vs 似然(数据已知,评估参数)。似然函数是样本联合概率密度,看作参数 θ\theta 的函数:

L(θx1,,xn)=f(x1,,xnθ)=i=1nf(xiθ)L(\theta \mid x_1, \dots, x_n) = f(x_1, \dots, x_n \mid \theta) = \prod_{i=1}^{n} f(x_i \mid \theta)

最大似然估计量:

θ^MLE=argmaxθL(θx1,,xn)\hat{\theta}_{\mathrm{MLE}} = \arg\max_{\theta} L(\theta \mid x_1, \dots, x_n)

对数似然函数

由于对数函数是严格单调递增函数,最大化等价于最大化对数似然函数

(θ)=lnL(θ)=i=1nlnf(xiθ)\ell(\theta) = \ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)

连乘变为连加,解决数值下溢问题。最大化问题:

θ^MLE=argmaxθ(θ)\hat{\theta}_{\mathrm{MLE}} = \arg\max_{\theta} \ell(\theta)

求解MLE的标准步骤

  1. 确定概率分布 f(xθ)f(x\mid\theta)
  2. 构建似然函数 L(θ)=i=1nf(xiθ)L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta)
  3. 取对数得到 (θ)\ell(\theta)
  4. 求偏导并设为零:(θ)/θ=0\partial \ell(\theta) / \partial \theta = 0似然方程
  5. 验证二阶条件(负定Hessian矩阵

解析解时需依赖数值优化牛顿-拉夫逊方法梯度下降法、EM算法)。

示例:正态分布

对于 xiN(μ,σ2)x_i \sim N(\mu, \sigma^2) 的i.i.d.样本,对数似然函数:

(μ,σ2)=n2ln(2π)n2ln(σ2)12σ2i=1n(xiμ)2\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2

求导得:

μ^MLE=1ni=1nxi=xˉ,σ^MLE2=1ni=1n(xixˉ)2\hat{\mu}_{\mathrm{MLE}} = \frac{1}{n}\sum_{i=1}^{n}x_i = \bar{x}, \quad \hat{\sigma}^2_{\mathrm{MLE}} = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2

均值的MLE是样本均值,方差的MLE是分母为 nn 的样本方差。

MLE的优良性质

  1. 一致性 (Consistency)θ^MLEpθ0\hat{\theta}_{\mathrm{MLE}} \xrightarrow{p} \theta_0p\xrightarrow{p} 表示概率收敛
  2. 渐进正态性n(θ^MLEθ0)dN(0,I(θ0)1)\sqrt{n}(\hat{\theta}_{\mathrm{MLE}} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}),其中 I(θ0)I(\theta_0)费雪信息量
  3. 渐进有效性:大样本下方差达到克拉默-拉奥下界
  4. 不变性 (Invariance):若 θ^\hat{\theta}θ\theta 的MLE,则 g(θ^)g(\hat{\theta})g(θ)g(\theta) 的MLE

MLE在小样本中可能有偏,但偏差随样本量增加趋近于零(渐进无偏)。

应用与局限性

MLE是逻辑回归广义线性模型时间序列分析(如ARMA模型)、生存分析结构方程模型等的基础。局限性包括:依赖正确模型设定、计算复杂性、小样本偏差、对异常值敏感。