极大似然估计 (Maximum Likelihood Estimation)
极大似然估计 (Maximum Likelihood Estimation, 简称 MLE) 是一种在给定的数据观测下,用来估计一个统计模型参数的核心方法。其基本思想是:寻找一组参数值,使得在该参数下,我们观测到的这组样本数据出现的概率(或“似然”)达到最大。换言之,极大似然估计回答了这样一个问题:“什么样的参数最能解释我们所观察到的数据?”
极大似然估计是统计推断、计量经济学和机器学习等领域中应用最广泛的参数估计方法之一。
核心原理:似然与概率
为了准确理解极大似然估计,首先必须区分似然 (Likelihood) 和概率 (Probability) 这两个概念。尽管它们在数学形式上常常相同,但其解释和关注点完全不同。
- 概率 (Probability):在参数已知的情况下,用来描述某个事件(或数据)发生的可能性。例如,给定一枚公平的硬币(参数 p=0.5),连续抛掷两次都得到正面的概率是 0.5×0.5=0.25。这里,我们是基于已知的模型参数 p 来预测数据。其数学表达为 P(数据∣参数)。
- 似然 (Likelihood):在数据已知的情况下,用来衡量不同参数值的“合理性”或“可能性”。例如,我们观测到连续两次抛掷硬币都得到正面(数据已知),那么相对于参数 p=0.1 (似然为 0.12=0.01),参数 p=0.5 (似然为 0.52=0.25)具有更高的似然值,表明 p=0.5 是一个更“可信”的参数。其数学表达为 L(参数∣数据)。
从数学上讲,L(θ∣x)=P(x∣θ),但作为函数,前者是参数 θ 的函数,后者是数据 x 的函数。极大似然估计的目标就是找到使似然函数 L(θ∣x) 达到最大值的参数 θ。
似然函数与对数似然函数
1. 似然函数 (Likelihood Function)
假设我们有一组独立同分布 (i.i.d.) 的观测样本 X={x1,x2,…,xn},它们来自一个由参数 θ 决定的总体分布。这个分布的概率密度函数 (PDF) 或概率质量函数 (PMF) 为 f(x∣θ)。
由于样本是独立同分布的,观测到整个样本集 X 的联合概率为各个观测点概率的乘积。这个联合概率,当被看作是参数 θ 的函数时,就是似然函数:
L(θ∣x1,…,xn)=i=1∏nf(xi∣θ)
我们的目标是找到参数 θ^,使得这个似然函数最大化。
2. 对数似然函数 (Log-Likelihood Function)
直接对乘积形式的似然函数进行求导和优化通常很复杂,并且在计算上可能导致数值下溢(即多个小于1的数相乘结果会非常接近于零)。因此,我们通常对其取自然对数,得到对数似然函数 ℓ(θ):
ℓ(θ∣x1,…,xn)=ln(L(θ))=ln(i=1∏nf(xi∣θ))=i=1∑nln(f(xi∣θ))
由于对数函数是一个严格的单调递增函数,最大化似然函数 L(θ) 等价于最大化对数似然函数 ℓ(θ)。对数似然函数将乘积转化为了加和,使得求导和计算变得极为便利。
估计步骤
极大似然估计的求解过程通常遵循以下步骤:
- 写出模型和似然函数:根据问题确定数据的概率分布模型 f(x∣θ),并为观测样本写出似然函数 L(θ)。
- 构建对数似然函数:对似然函数取对数,得到 ℓ(θ)。
- 求导并设为零:计算对数似然函数关于参数 θ 的一阶导数(这个导数被称为score function),并令其等于零。这个方程被称为似然方程。
∂θ∂ℓ(θ)=0
- 求解参数:求解似然方程,得到的解即为极大似然估计量 θ^MLE。
- 验证最大值:通过检查二阶导数(或Hessian矩阵)来验证所求得的解确实是使函数达到极大值(而非极小值)。二阶导数在 θ^MLE 处应为负值。
示例说明
示例1:伯努利分布(估计硬币正面的概率)
假设我们抛掷一枚硬币 n 次,得到 k 次正面(记为1)和 n−k 次反面(记为0)。我们希望估计这枚硬币出现正面的概率 p。
- 模型:每次抛掷服从伯努利分布,其PMF为 f(x∣p)=px(1−p)1−x,其中 x∈{0,1}。
- 似然函数:观测数据为 x1,…,xn,其中 ∑xi=k。
L(p∣x1,…,xn)=i=1∏npxi(1−p)1−xi=p∑xi(1−p)n−∑xi=pk(1−p)n−k
ℓ(p)=ln(pk(1−p)n−k)=kln(p)+(n−k)ln(1−p)
dpdℓ(p)=pk−1−pn−k=0
pk=1−pn−k⟹k(1−p)=p(n−k)⟹k−kp=np−kp⟹k=np
因此,极大似然估计量为:
p^MLE=nk
这个结果非常直观:对于硬币正面概率的最佳估计就是观测到的正面频率。
示例2:正态分布(估计均值)
假设我们有一组来自正态分布 N(μ,σ2) 的观测值 x1,…,xn。为简化问题,我们假设方差 σ2 已知,目标是估计均值 μ。
- 模型:正态分布的PDF为 f(xi∣μ,σ2)=2πσ21exp(−2σ2(xi−μ)2)。
- 对数似然函数:
ℓ(μ)=i=1∑nln[2πσ21exp(−2σ2(xi−μ)2)]=i=1∑n[−21ln(2πσ2)−2σ2(xi−μ)2]
=−2nln(2πσ2)−2σ21i=1∑n(xi−μ)2
- 求导并设为零:为了最大化 ℓ(μ),我们只需最小化 ∑i=1n(xi−μ)2 这一项。对 μ 求导:
∂μ∂ℓ(μ)=−2σ21i=1∑n2(xi−μ)(−1)=σ21i=1∑n(xi−μ)=0
i=1∑n(xi−μ)=0⟹i=1∑nxi−nμ=0
因此,极大似然估计量为:
μ^MLE=n1i=1∑nxi=xˉ
这表明,在方差已知的正态分布假设下,均值的极大似然估计就是样本均值。值得注意的是,在这种情况下,MLE的结果与最小二乘法 (OLS) 的结果是一致的。
极大似然估计的性质
MLE之所以被广泛使用,是因为它具有非常优良的大样本性质 (Asymptotic Properties):
- 一致性 (Consistency):当样本量 n→∞ 时,极大似然估计量 θ^MLE 依概率收敛于真实的参数值 θ0。这意味着只要数据足够多,我们的估计就会非常接近真实情况。
- 渐进正态性 (Asymptotic Normality):在大样本下,θ^MLE 的抽样分布近似于一个正态分布。具体而言:
n(θ^MLE−θ0)dN(0,I(θ0)−1)
其中 d 表示依分布收敛,I(θ0) 是费雪信息量 (Fisher Information)。这个性质是进行假设检验和构造置信区间的理论基础。
- 渐进有效性 (Asymptotic Efficiency):在大样本下,极大似然估计量达到了所有一致估计量所能达到的最小方差,这个下界被称为克拉默-拉奥下界 (Cramér-Rao Lower Bound)。这意味着MLE是“最精确”的估计方法之一。
- 不变性 (Invariance):如果 θ^MLE 是 θ 的极大似然估计,那么对于任何函数 g(θ),其极大似然估计就是 g(θ^MLE)。例如,方差 σ2 的MLE是 σ^2,那么标准差 σ 的MLE就是 σ^2。
需要注意的是,MLE在小样本中可能存在偏差 (Bias)。例如,在同时估计正态分布的均值和方差时,方差的MLE σ^MLE2=n1∑(xi−xˉ)2 是一个有偏估计,而其无偏修正版本的分母是 n−1。不过,这种偏差通常会随着样本量的增加而趋向于零。