ARTICLE

maximum likelihood estimation

最大似然估计 (Maximum Likelihood Estimation) 最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一,由 费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观:选择使观测数据出现概率(或概率密度)最大

浏览 0 更新 2026-06-15

最大似然估计 (Maximum Likelihood Estimation)

最大似然估计 (Maximum Likelihood Estimation, MLE) 是参数估计中最基本、应用最广泛的方法之一,由 费雪 (R. A. Fisher) 在 1912 年至 1922 年间系统发展。MLE 的核心思想极为直观:选择使观测数据出现概率(或概率密度)最大的参数值作为估计量。在现代计量经济学生物统计学机器学习中,MLE 占据着不可替代的中心地位。

基本思想与似然函数

设观测样本 X=(X1,X2,,Xn)\mathbf{X} = (X_1, X_2, \ldots, X_n) 来自参数分布族 {f(;θ):θΘRp}\{f(\cdot; \theta) : \theta \in \Theta \subseteq \mathbb{R}^p\}。当我们将联合密度视为参数 θ\theta 的函数(给定数据下)时,就得到了似然函数

L(θ;X)=f(X;θ)=i=1nf(Xi;θ)\mathcal{L}(\theta; \mathbf{X}) = f(\mathbf{X}; \theta) = \prod_{i=1}^n f(X_i; \theta)

最后一个等号要求观测值独立。由于连乘积在数学上不便处理,且对数变换保序,实际中几乎总是使用对数似然函数

(θ;X)=lnL(θ;X)=i=1nlnf(Xi;θ)\ell(\theta; \mathbf{X}) = \ln \mathcal{L}(\theta; \mathbf{X}) = \sum_{i=1}^n \ln f(X_i; \theta)

最大似然估计量 θ^MLE\hat{\theta}_{\text{MLE}} 定义为:

θ^MLE=argmaxθΘ(θ;X)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} \ell(\theta; \mathbf{X})

求解步骤

MLE 的求解通常遵循以下步骤:

  1. 写出似然函数:根据数据生成过程确定适当的概率模型。
  2. 取对数:将乘积转化为和,得到 (θ)=ilnf(Xi;θ)\ell(\theta) = \sum_i \ln f(X_i; \theta)
  3. 求一阶条件:令得分函数为零: \[ s(\hat{\theta}) = \frac{\partial \ell(\theta)}{\partial \theta}\bigg|_{\theta=\hat{\theta}} = \mathbf{0} \] 这称为似然方程 (likelihood equation)。
  4. 验证二阶条件:检查 海塞矩阵(或信息矩阵)在驻点处负定,确保找到的是最大值而非鞍点或极小值。
  5. 边界检查:若 Θ\Theta 有界,须额外检查边界点。

当似然方程存在显式解时,MLE 可写为解析形式;在多数复杂模型中(如Logit 模型Probit 模型),需借助数值优化算法。

经典例子

伯努利试验

XiBernoulli(p)X_i \sim \text{Bernoulli}(p)i=1,,ni=1,\ldots,n。似然函数为:

L(p)=i=1npXi(1p)1Xi=pXi(1p)nXi\mathcal{L}(p) = \prod_{i=1}^n p^{X_i}(1-p)^{1-X_i} = p^{\sum X_i}(1-p)^{n - \sum X_i}

取对数并求导:

(p)=(Xi)lnp+(nXi)ln(1p)\ell(p) = \left(\sum X_i\right) \ln p + \left(n - \sum X_i\right) \ln(1-p)
ddp=XipnXi1p=0    p^=1ni=1nXi=Xˉ\frac{d\ell}{dp} = \frac{\sum X_i}{p} - \frac{n - \sum X_i}{1-p} = 0 \implies \hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}

MLE 就是样本均值 — 一个符合直觉的结果。

正态分布均值与方差

XiN(μ,σ2)X_i \sim N(\mu, \sigma^2),对数似然为:

(μ,σ2)=n2ln(2π)n2lnσ212σ2i=1n(Xiμ)2\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \mu)^2

分别对 μ\muσ2\sigma^2 求偏导并令为零:

μ^=Xˉ,σ^2=1ni=1n(XiXˉ)2\hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2

注意方差的 MLE 使用分母 nn 而非无偏估计中的 n1n-1,这反映了 MLE 更关注大样本渐近性质而非小样本无偏性的特点。

有限样本性质

在小样本下,MLE 通常不具备最优性质:

  • 有偏性:MLE 一般不满足无偏性。例如 σ^MLE2\hat{\sigma}^2_{\text{MLE}} 是有偏的,E[σ^2]=n1nσ2σ2E[\hat{\sigma}^2] = \frac{n-1}{n}\sigma^2 \neq \sigma^2。可通过乘以 nn1\frac{n}{n-1} 修正,但修正后的估计量不再是 MLE。
  • 不存在性:在某些模型中,MLE 可能不存在(如似然函数无界或在参数空间内部无极值)。
  • 非唯一性:似然函数可能有多峰,需要全局搜索而非仅依赖一阶条件。

这些局限性是大样本理论为何至关重要的原因。

大样本性质

正则性条件(似然函数充分光滑、参数空间紧致、真实参数位于内部等)满足时,MLE 拥有以下优良的大样本性质:

  1. 一致性 (Consistency)θ^pθ0\hat{\theta} \xrightarrow{p} \theta_0,即随着样本量增大,MLE 收敛到真实参数值。
  2. 渐近正态性 (Asymptotic Normality)n\sqrt{n}\left(θ^\hat{\theta} - θ0\theta_0\right) \xrightarrow{d} N\left(0\mathbf{0}, I1\mathcal{I}_1(θ0\theta_0)^{-1}\right) 其中 I1(θ0)\mathcal{I}_1(\theta_0) 是单个观测的信息矩阵。这一结果使得我们可以构造渐近置信区间和进行假设检验。
  3. 渐近有效性 (Asymptotic Efficiency):MLE 的渐近方差达到 Cramér-Rao 下界,即在所有一致渐近正态估计量中,MLE 具有最小的渐近方差。
  4. 不变性 (Invariance):若 θ^\hat{\theta}θ\theta 的 MLE,则对于任意函数 g()g(\cdot)g(θ^)g(\hat{\theta}) 也是 g(θ)g(\theta) 的 MLE。这一性质在参数变换时极为便利 — 例如,若估计出方差 σ^2\hat{\sigma}^2,则标准差的 MLE 就是 σ^2\sqrt{\hat{\sigma}^2}

数值优化

当似然方程无封闭解时,需借助迭代数值方法:

Newton-Raphson 方法

θ(k)\theta^{(k)} 为第 kk 步迭代值:

θ(k+1)\theta^{(k+1)} = θ(k)\theta^{(k)} - \left[H\mathbf{H}(θ(k)\theta^{(k)})\right]^{-1} s(θ(k)\theta^{(k)})

其中 H=2/θθ\mathbf{H} = \partial^2 \ell / \partial\theta\partial\theta^\top 是 Hessian 矩阵。该方法收敛速度快(二次收敛),但需计算二阶导数且对初值敏感。

Fisher 得分法 (Fisher Scoring)

信息矩阵 I(θ)=E[H(θ)]\mathcal{I}(\theta) = -\mathbb{E}[\mathbf{H}(\theta)] 替代 Hessian:

θ(k+1)=θ(k)+[I(θ(k))]1s(θ(k))\theta^{(k+1)} = \theta^{(k)} + \left[\mathcal{I}(\theta^{(k)})\right]^{-1} s(\theta^{(k)})

信息矩阵通常比 Hessian 更稳定(正定性有保证),在广义线性模型 (GLM) 中与迭代加权最小二乘法 (IRLS) 等价。

期望最大化算法 (EM Algorithm)

当数据存在缺失或潜变量时,EM 算法 是求解 MLE 的标准工具。它通过交替执行期望步 (E-step) 和最大化步 (M-step),在每次迭代中提升似然值,最终收敛到局部极大值或鞍点。

模型误设与拟最大似然估计

当似然函数被错误设定时,MLE 仍收敛到某个"伪真值" (pseudo-true value) θ\theta^*,该值最小化真实分布与模型分布的 Kullback-Leibler 散度。此时需使用 Sandwich 协方差矩阵进行稳健推断:

Avar(θ^)=I(θ)1Var[s(θ)]I(θ)1\operatorname{Avar}(\hat{\theta}) = \mathcal{I}(\theta^*)^{-1} \operatorname{Var}[s(\theta^*)] \, \mathcal{I}(\theta^*)^{-1}

这一修正的提出者包括 Huber (1967) 和 White (1982),因此也被称为 Huber-White 稳健标准误。在经济学实证研究中,报告稳健标准误已成为标准做法。

与其它估计方法的比较

  • 普通最小二乘法 (OLS):在经典线性回归模型且误差正态分布的假设下,OLS 与 MLE 给出相同的系数估计。但 MLE 同时提供方差参数的估计,且在大样本理论上的处理更为统一。
  • 矩估计法 (Method of Moments):矩估计通常更简单但效率较低。MLE 在大样本意义下是最有效的。广义矩估计 (GMM) 则可视为二者的统一框架 — MLE 是 GMM 在得分函数为矩条件时的特例。
  • 贝叶斯估计:贝叶斯方法通过先验分布整合额外信息,得到后验分布而非点估计。然而,在平坦先验下,后验众数 (MAP) 与 MLE 一致;且在大样本极限下,后验分布渐近等价于以 MLE 为中心的正态分布 (Bernstein-von Mises 定理)。

经济学与计量经济学中的典型应用

MLE 在经济学中的应用极为广泛:

  • 离散选择模型LogitProbit多项 Logit混合 Logit 等,用于分析消费者的离散决策(购买/不购买、选择何种品牌)。
  • 受限因变量模型Tobit 模型(角点解)、Heckman 样本选择模型、截断回归与归并回归。
  • 持续时间分析Cox 比例风险模型 和参数化生存模型,使用部分似然或完全似然。
  • 结构估计:动态规划模型、动态随机一般均衡 (DSGE) 模型的估计常依赖 MLE 或模拟矩方法
  • 面板数据:随机效应模型和动态面板模型的 MLE 估计,在 TT 固定、nn \to \infty 的渐近框架下尤为重要。

局限性与注意事项

尽管 MLE 功能强大,仍需注意以下问题:

  • 计算强度:高维参数空间中的全局优化计算成本高昂。
  • 局部最优:似然函数的多峰性可能导致算法收敛到非全局最大值。
  • 模型依赖:MLE 要求完全指定概率模型。若分布假设错误,可能导致严重偏差。半参数方法非参数方法在更弱的假设下提供替代方案。
  • 样本量需求:虽然大样本性质优良,但有限样本下 MLE 可能表现不佳,尤其是参数个数相对样本量过大时。

尽管有这些局限,MLE 凭借其一致的逻辑框架、最优的大样本性质和广泛的应用范围,始终是统计推断和计量经济学方法论的核心支柱。