最大似然估计 (Maximum Likelihood Estimation)
最大似然估计 (MLE),由罗纳德·费雪 (Ronald A. Fisher) 在20世纪初系统提出。其基本思想:在给定观测数据的情况下,寻找使这组数据出现的概率最大的参数值。MLE是现代统计学、计量经济学、机器学习中最常用的推断工具之一。
核心思想与似然函数
概率(参数已知,预测数据)vs 似然(数据已知,评估参数)。似然函数是样本联合概率密度,看作参数 θ 的函数:
L(θ∣x1,…,xn)=f(x1,…,xn∣θ)=i=1∏nf(xi∣θ)
最大似然估计量:
θ^MLE=argθmaxL(θ∣x1,…,xn)
对数似然函数
由于对数函数是严格单调递增函数,最大化等价于最大化对数似然函数:
ℓ(θ)=lnL(θ)=i=1∑nlnf(xi∣θ)
连乘变为连加,解决数值下溢问题。最大化问题:
θ^MLE=argθmaxℓ(θ)
求解MLE的标准步骤
- 确定概率分布 f(x∣θ)
- 构建似然函数 L(θ)=∏i=1nf(xi∣θ)
- 取对数得到 ℓ(θ)
- 求偏导并设为零:∂ℓ(θ)/∂θ=0(似然方程)
- 验证二阶条件(负定Hessian矩阵)
无解析解时需依赖数值优化(牛顿-拉夫逊方法、梯度下降法、EM算法)。
示例:正态分布
对于 xi∼N(μ,σ2) 的i.i.d.样本,对数似然函数:
ℓ(μ,σ2)=−2nln(2π)−2nln(σ2)−2σ21i=1∑n(xi−μ)2
求导得:
μ^MLE=n1i=1∑nxi=xˉ,σ^MLE2=n1i=1∑n(xi−xˉ)2
均值的MLE是样本均值,方差的MLE是分母为 n 的样本方差。
MLE的优良性质
- 一致性 (Consistency):θ^MLEpθ0(p 表示概率收敛)
- 渐进正态性:n(θ^MLE−θ0)dN(0,I(θ0)−1),其中 I(θ0) 是费雪信息量
- 渐进有效性:大样本下方差达到克拉默-拉奥下界
- 不变性 (Invariance):若 θ^ 是 θ 的MLE,则 g(θ^) 是 g(θ) 的MLE
MLE在小样本中可能有偏,但偏差随样本量增加趋近于零(渐进无偏)。
应用与局限性
MLE是逻辑回归、广义线性模型、时间序列分析(如ARMA模型)、生存分析、结构方程模型等的基础。局限性包括:依赖正确模型设定、计算复杂性、小样本偏差、对异常值敏感。