ARTICLE
maximum likelihood estimation
最大似然估计 (Maximum Likelihood Estimation) 最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一,由 费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观:选择使观测数据出现概率(或概率密度)最大
最大似然估计 (Maximum Likelihood Estimation)
最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一,由 费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观:选择使观测数据出现概率(或概率密度)最大的参数值作为估计量。在现代计量经济学、生物统计学和机器学习中,MLE 占据着不可替代的中心地位。
基本思想与似然函数
设观测样本 来自参数分布族 。当我们将联合密度视为参数 的函数(给定数据下)时,就得到了似然函数:
最后一个等号要求观测值独立。由于连乘积在数学上不便处理,且对数变换保序,实际中几乎总是使用对数似然函数:
最大似然估计量 定义为:
求解步骤
MLE 的求解通常遵循以下步骤:
- 写出似然函数:根据数据生成过程确定适当的概率模型。
- 取对数:将乘积转化为和,得到 。
- 求一阶条件:令得分函数为零: \[ s(\hat{\theta}) = \frac{\partial \ell(\theta)}{\partial \theta}\bigg|_{\theta=\hat{\theta}} = \mathbf{0} \] 这称为似然方程 (likelihood equation)。
- 验证二阶条件:检查 海塞矩阵(或信息矩阵)在驻点处负定,确保找到的是最大值而非鞍点或极小值。
- 边界检查:若 有界,须额外检查边界点。
当似然方程存在显式解时,MLE 可写为解析形式;在多数复杂模型中(如Logit 模型、Probit 模型),需借助数值优化算法。
经典例子
伯努利试验
设 ,。似然函数为:
取对数并求导:
MLE 就是样本均值 — 一个符合直觉的结果。
正态分布均值与方差
设 ,对数似然为:
分别对 和 求偏导并令为零:
注意方差的 MLE 使用分母 而非无偏估计中的 ,这反映了 MLE 更关注大样本渐近性质而非小样本无偏性的特点。
有限样本性质
在小样本下,MLE 通常不具备最优性质:
- 有偏性:MLE 一般不满足无偏性。例如 是有偏的,。可通过乘以 修正,但修正后的估计量不再是 MLE。
- 不存在性:在某些模型中,MLE 可能不存在(如似然函数无界或在参数空间内部无极值)。
- 非唯一性:似然函数可能有多峰,需要全局搜索而非仅依赖一阶条件。
这些局限性是大样本理论为何至关重要的原因。
大样本性质
在正则性条件(似然函数充分光滑、参数空间紧致、真实参数位于内部等)满足时,MLE 拥有以下优良的大样本性质:
- 一致性 (Consistency):,即随着样本量增大,MLE 收敛到真实参数值。
- 渐近正态性 (Asymptotic Normality): \left( - \right) \xrightarrow{d} N\left(, ()^{-1}\right) 其中 是单个观测的信息矩阵。这一结果使得我们可以构造渐近置信区间和进行假设检验。
- 渐近有效性 (Asymptotic Efficiency):MLE 的渐近方差达到 Cramér-Rao 下界,即在所有一致渐近正态估计量中,MLE 具有最小的渐近方差。
- 不变性 (Invariance):若 是 的 MLE,则对于任意函数 , 也是 的 MLE。这一性质在参数变换时极为便利 — 例如,若估计出方差 ,则标准差的 MLE 就是 。
数值优化
当似然方程无封闭解时,需借助迭代数值方法:
Newton-Raphson 方法
设 为第 步迭代值:
= - \left[()\right]^{-1} s()
其中 是 Hessian 矩阵。该方法收敛速度快(二次收敛),但需计算二阶导数且对初值敏感。
Fisher 得分法 (Fisher Scoring)
以信息矩阵 替代 Hessian:
信息矩阵通常比 Hessian 更稳定(正定性有保证),在广义线性模型 (GLM) 中与迭代加权最小二乘法 (IRLS) 等价。
期望最大化算法 (EM Algorithm)
当数据存在缺失或潜变量时,EM 算法 是求解 MLE 的标准工具。它通过交替执行期望步 (E-step) 和最大化步 (M-step),在每次迭代中提升似然值,最终收敛到局部极大值或鞍点。
模型误设与拟最大似然估计
当似然函数被错误设定时,MLE 仍收敛到某个"伪真值" (pseudo-true value) ,该值最小化真实分布与模型分布的 Kullback-Leibler 散度。此时需使用 Sandwich 协方差矩阵进行稳健推断:
这一修正的提出者包括 Huber (1967) 和 White (1982),因此也被称为 Huber-White 稳健标准误。在经济学实证研究中,报告稳健标准误已成为标准做法。
与其它估计方法的比较
- 与普通最小二乘法 (OLS):在经典线性回归模型且误差正态分布的假设下,OLS 与 MLE 给出相同的系数估计。但 MLE 同时提供方差参数的估计,且在大样本理论上的处理更为统一。
- 与矩估计法 (Method of Moments):矩估计通常更简单但效率较低。MLE 在大样本意义下是最有效的。广义矩估计 (GMM) 则可视为二者的统一框架 — MLE 是 GMM 在得分函数为矩条件时的特例。
- 与贝叶斯估计:贝叶斯方法通过先验分布整合额外信息,得到后验分布而非点估计。然而,在平坦先验下,后验众数 (MAP) 与 MLE 一致;且在大样本极限下,后验分布渐近等价于以 MLE 为中心的正态分布 (Bernstein-von Mises 定理)。
经济学与计量经济学中的典型应用
MLE 在经济学中的应用极为广泛:
- 离散选择模型:Logit、Probit、多项 Logit、混合 Logit 等,用于分析消费者的离散决策(购买/不购买、选择何种品牌)。
- 受限因变量模型:Tobit 模型(角点解)、Heckman 样本选择模型、截断回归与归并回归。
- 持续时间分析:Cox 比例风险模型 和参数化生存模型,使用部分似然或完全似然。
- 结构估计:动态规划模型、动态随机一般均衡 (DSGE) 模型的估计常依赖 MLE 或模拟矩方法。
- 面板数据:随机效应模型和动态面板模型的 MLE 估计,在 固定、 的渐近框架下尤为重要。
局限性与注意事项
尽管 MLE 功能强大,仍需注意以下问题:
- 计算强度:高维参数空间中的全局优化计算成本高昂。
- 局部最优:似然函数的多峰性可能导致算法收敛到非全局最大值。
- 模型依赖:MLE 要求完全指定概率模型。若分布假设错误,可能导致严重偏差。半参数方法和非参数方法在更弱的假设下提供替代方案。
- 样本量需求:虽然大样本性质优良,但有限样本下 MLE 可能表现不佳,尤其是参数个数相对样本量过大时。
尽管有这些局限,MLE 凭借其一致的逻辑框架、最优的大样本性质和广泛的应用范围,始终是统计推断和计量经济学方法论的核心支柱。