ARTICLE

极大似然估计(MLE)

极大似然估计 (Maximum Likelihood Estimation) 极大似然估计 (Maximum Likelihood Estimation, 简称 MLE) 是一种在给定的数据观测下,用来估计一个统计模型参数的核心方法。其基本思想是:寻找一组参数值,使得在该参数下,我们观测到的这组样本数据出现的概率(或“似然”)达到最大。换言之,极大似然估计回

浏览 37 更新 2025-10-25

极大似然估计 (Maximum Likelihood Estimation)

极大似然估计 (Maximum Likelihood Estimation, 简称 MLE) 是一种在给定的数据观测下,用来估计一个统计模型参数的核心方法。其基本思想是:寻找一组参数值,使得在该参数下,我们观测到的这组样本数据出现的概率(或“似然”)达到最大。换言之,极大似然估计回答了这样一个问题:“什么样的参数最能解释我们所观察到的数据?”

极大似然估计是统计推断计量经济学机器学习等领域中应用最广泛的参数估计方法之一。

核心原理:似然与概率

为了准确理解极大似然估计,首先必须区分似然 (Likelihood)概率 (Probability) 这两个概念。尽管它们在数学形式上常常相同,但其解释和关注点完全不同。

  • 概率 (Probability):在参数已知的情况下,用来描述某个事件(或数据)发生的可能性。例如,给定一枚公平的硬币(参数 p=0.5 p=0.5 ),连续抛掷两次都得到正面的概率是 0.5×0.5=0.25 0.5 \times 0.5 = 0.25 。这里,我们是基于已知的模型参数 p p 来预测数据。其数学表达为 P(数据参数) P(\text{数据} | \text{参数})
  • 似然 (Likelihood):在数据已知的情况下,用来衡量不同参数值的“合理性”或“可能性”。例如,我们观测到连续两次抛掷硬币都得到正面(数据已知),那么相对于参数 p=0.1 p=0.1 (似然为 0.12=0.01 0.1^2=0.01 ),参数 p=0.5 p=0.5 (似然为 0.52=0.25 0.5^2=0.25 )具有更高的似然值,表明 p=0.5 p=0.5 是一个更“可信”的参数。其数学表达为 L(参数数据) \mathcal{L}(\text{参数} | \text{数据})

从数学上讲,L(θx)=P(xθ) \mathcal{L}(\theta|x) = P(x|\theta) ,但作为函数,前者是参数 θ \theta 的函数,后者是数据 x x 的函数。极大似然估计的目标就是找到使似然函数 L(θx) \mathcal{L}(\theta|x) 达到最大值的参数 θ \theta

似然函数与对数似然函数

1. 似然函数 (Likelihood Function)

假设我们有一组独立同分布 (i.i.d.) 的观测样本 X={x1,x2,,xn} X = \{x_1, x_2, \ldots, x_n\} ,它们来自一个由参数 θ \theta 决定的总体分布。这个分布的概率密度函数 (PDF) 或概率质量函数 (PMF) 为 f(xθ) f(x|\theta)

由于样本是独立同分布的,观测到整个样本集 X X 的联合概率为各个观测点概率的乘积。这个联合概率,当被看作是参数 θ \theta 的函数时,就是似然函数

L(θx1,,xn)=i=1nf(xiθ)\mathcal{L}(\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} f(x_i | \theta)

我们的目标是找到参数 θ^ \hat{\theta} ,使得这个似然函数最大化。

2. 对数似然函数 (Log-Likelihood Function)

直接对乘积形式的似然函数进行求导和优化通常很复杂,并且在计算上可能导致数值下溢(即多个小于1的数相乘结果会非常接近于零)。因此,我们通常对其取自然对数,得到对数似然函数 (θ) \ell(\theta)

(θx1,,xn)=ln(L(θ))=ln(i=1nf(xiθ))=i=1nln(f(xiθ))\ell(\theta | x_1, \ldots, x_n) = \ln(\mathcal{L}(\theta)) = \ln\left(\prod_{i=1}^{n} f(x_i | \theta)\right) = \sum_{i=1}^{n} \ln(f(x_i | \theta))

由于对数函数是一个严格的单调递增函数,最大化似然函数 L(θ) \mathcal{L}(\theta) 等价于最大化对数似然函数 (θ) \ell(\theta) 。对数似然函数将乘积转化为了加和,使得求导和计算变得极为便利。

估计步骤

极大似然估计的求解过程通常遵循以下步骤:

  1. 写出模型和似然函数:根据问题确定数据的概率分布模型 f(xθ) f(x|\theta) ,并为观测样本写出似然函数 L(θ) \mathcal{L}(\theta)
  2. 构建对数似然函数:对似然函数取对数,得到 (θ) \ell(\theta)
  3. 求导并设为零:计算对数似然函数关于参数 θ \theta 的一阶导数(这个导数被称为score function),并令其等于零。这个方程被称为似然方程
(θ)θ=0 \frac{\partial \ell(\theta)}{\partial \theta} = 0
  1. 求解参数:求解似然方程,得到的解即为极大似然估计量 θ^MLE \hat{\theta}_{MLE}
  2. 验证最大值:通过检查二阶导数(或Hessian矩阵)来验证所求得的解确实是使函数达到极大值(而非极小值)。二阶导数在 θ^MLE \hat{\theta}_{MLE} 处应为负值。

示例说明

示例1:伯努利分布(估计硬币正面的概率)

假设我们抛掷一枚硬币 n n 次,得到 k k 次正面(记为1)和 nk n-k 次反面(记为0)。我们希望估计这枚硬币出现正面的概率 p p

  • 模型:每次抛掷服从伯努利分布,其PMF为 f(xp)=px(1p)1x f(x|p) = p^x(1-p)^{1-x} ,其中 x{0,1} x \in \{0, 1\}
  • 似然函数:观测数据为 x1,,xn x_1, \ldots, x_n ,其中 xi=k \sum x_i = k
L(px1,,xn)=i=1npxi(1p)1xi=pxi(1p)nxi=pk(1p)nk\mathcal{L}(p | x_1, \ldots, x_n) = \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n-\sum x_i} = p^k (1-p)^{n-k}
  • 对数似然函数
(p)=ln(pk(1p)nk)=kln(p)+(nk)ln(1p)\ell(p) = \ln(p^k (1-p)^{n-k}) = k \ln(p) + (n-k) \ln(1-p)
  • 求导并设为零
d(p)dp=kpnk1p=0\frac{d\ell(p)}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0
  • 求解参数
kp=nk1p    k(1p)=p(nk)    kkp=npkp    k=np\frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np

因此,极大似然估计量为:

p^MLE=kn\hat{p}_{MLE} = \frac{k}{n}

这个结果非常直观:对于硬币正面概率的最佳估计就是观测到的正面频率。

示例2:正态分布(估计均值)

假设我们有一组来自正态分布 N(μ,σ2) N(\mu, \sigma^2) 的观测值 x1,,xn x_1, \ldots, x_n 。为简化问题,我们假设方差 σ2 \sigma^2 已知,目标是估计均值 μ \mu

  • 模型:正态分布的PDF为 f(xiμ,σ2)=12πσ2exp((xiμ)22σ2) f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)
  • 对数似然函数
(μ)=i=1nln[12πσ2exp((xiμ)22σ2)]=i=1n[12ln(2πσ2)(xiμ)22σ2]\ell(\mu) = \sum_{i=1}^{n} \ln\left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \right] = \sum_{i=1}^{n} \left[ -\frac{1}{2}\ln(2\pi\sigma^2) - \frac{(x_i-\mu)^2}{2\sigma^2} \right]
=n2ln(2πσ2)12σ2i=1n(xiμ)2= -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2
  • 求导并设为零:为了最大化 (μ) \ell(\mu) ,我们只需最小化 i=1n(xiμ)2 \sum_{i=1}^{n}(x_i-\mu)^2 这一项。对 μ \mu 求导:
(μ)μ=12σ2i=1n2(xiμ)(1)=1σ2i=1n(xiμ)=0\frac{\partial\ell(\mu)}{\partial\mu} = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} 2(x_i-\mu)(-1) = \frac{1}{\sigma^2} \sum_{i=1}^{n}(x_i-\mu) = 0
  • 求解参数
i=1n(xiμ)=0    i=1nxinμ=0\sum_{i=1}^{n}(x_i-\mu) = 0 \implies \sum_{i=1}^{n}x_i - n\mu = 0

因此,极大似然估计量为:

μ^MLE=1ni=1nxi=xˉ\hat{\mu}_{MLE} = \frac{1}{n} \sum_{i=1}^{n}x_i = \bar{x}

这表明,在方差已知的正态分布假设下,均值的极大似然估计就是样本均值。值得注意的是,在这种情况下,MLE的结果与最小二乘法 (OLS) 的结果是一致的。

极大似然估计的性质

MLE之所以被广泛使用,是因为它具有非常优良的大样本性质 (Asymptotic Properties):

  1. 一致性 (Consistency):当样本量 n n \to \infty 时,极大似然估计量 θ^MLE \hat{\theta}_{MLE} 依概率收敛于真实的参数值 θ0 \theta_0 。这意味着只要数据足够多,我们的估计就会非常接近真实情况。
  1. 渐进正态性 (Asymptotic Normality):在大样本下,θ^MLE \hat{\theta}_{MLE} 的抽样分布近似于一个正态分布。具体而言:
n(θ^MLEθ0)dN(0,I(θ0)1)\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1})

其中 d \xrightarrow{d} 表示依分布收敛I(θ0) I(\theta_0) 费雪信息量 (Fisher Information)。这个性质是进行假设检验和构造置信区间的理论基础。

  1. 渐进有效性 (Asymptotic Efficiency):在大样本下,极大似然估计量达到了所有一致估计量所能达到的最小方差,这个下界被称为克拉默-拉奥下界 (Cramér-Rao Lower Bound)。这意味着MLE是“最精确”的估计方法之一。
  1. 不变性 (Invariance):如果 θ^MLE \hat{\theta}_{MLE} θ \theta 的极大似然估计,那么对于任何函数 g(θ) g(\theta) ,其极大似然估计就是 g(θ^MLE) g(\hat{\theta}_{MLE}) 。例如,方差 σ2 \sigma^2 的MLE是 σ^2 \hat{\sigma}^2 ,那么标准差 σ \sigma 的MLE就是 σ^2 \sqrt{\hat{\sigma}^2}

需要注意的是,MLE在小样本中可能存在偏差 (Bias)。例如,在同时估计正态分布的均值和方差时,方差的MLE σ^MLE2=1n(xixˉ)2 \hat{\sigma}^2_{MLE} = \frac{1}{n}\sum(x_i-\bar{x})^2 是一个有偏估计,而其无偏修正版本的分母是 n1 n-1 。不过,这种偏差通常会随着样本量的增加而趋向于零。