ARTICLE

极大似然估计法(MLE)的基本概念

极大似然估计法 (Maximum Likelihood Estimation, MLE) 极大似然估计法 (Maximum Likelihood Estimation, MLE),也常简称为最大似然法,是统计学和计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是:给定一组观测到的样本数据,寻找能够使这组数据出现的"可能性"(即"似然")达到最大的

浏览 81 更新 2025-10-22

极大似然估计法 (Maximum Likelihood Estimation, MLE)

极大似然估计法 (Maximum Likelihood Estimation, MLE),也常简称为最大似然法,是统计学计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是:给定一组观测到的样本数据,寻找能够使这组数据出现的"可能性"(即"似然")达到最大的模型参数值。换言之,我们选择的参数应该最能"解释"我们所观察到的数据。

这一方法由英国统计学家罗纳德·艾尔默·费雪 (Sir Ronald A. Fisher) 在20世纪初系统性地提出和发展,是现代统计推断的基石之一。

核心概念:概率与似然 (Probability vs.\ Likelihood)

在深入理解MLE之前,必须清晰地区分概率 (Probability)似然 (Likelihood) 这两个概念,它们是看待同一个数学表达式的两种不同视角。

假设我们有一个概率模型,其概率密度函数 (PDF) 或概率质量函数 (PMF) 为 f(xθ) f(x \mid \theta) ,其中 x x 代表数据,θ \theta 代表模型的参数。

  1. 概率 (Probability) \begin{itemize}
  2. 视角:参数 θ \theta 固定且已知的,数据 x x 变量
  3. 问题:在给定模型参数的情况下,观测到某个特定数据的概率是多少?
  4. 例子:假设我们有一枚均匀的硬币(参数 p=0.5 p=0.5 ),抛掷10次,得到7次正面的概率是多少?在这里,我们计算的是 P(数据=7p=0.5) P(\text{数据}=7\text{正} \mid p=0.5) 。 \end{itemize}
  5. 似然 (Likelihood) \begin{itemize}
  6. 视角:数据 x x 固定且已知的(因为我们已经观测到了),参数 θ \theta 变量
  7. 问题:在给定我们观测到的数据的情况下,哪个参数值最像是"真实"的参数值?
  8. 例子:我们抛掷一枚硬币10次,观测到了7次正面(数据已知)。我们想知道这枚硬币是均匀的(p=0.5 p=0.5 ),还是不均匀的(例如 p=0.7 p=0.7 p=0.6 p=0.6 )?我们会比较参数 p=0.7 p=0.7 时观测到7次正面的可能性,与参数 p=0.5 p=0.5 时观测到7次正面的可能性,哪个更大。 \end{itemize}

从数学上讲,似然函数 L(θx) L(\theta \mid x) 在数值上等于联合概率密度/质量函数 f(xθ) f(x \mid \theta) ,但它被解释为参数 θ \theta 的函数。

L(θx)=f(xθ)L(\theta \mid x) = f(x \mid \theta)

MLE的目标就是找到那个使 L(θx) L(\theta \mid x) 达到最大值的参数 θ^ \hat{\theta}

极大似然估计的原理

假设我们有一个来自某个总体分布的独立同分布 (independent and identically distributed, i.i.d.) 的随机样本 X1,X2,,Xn X_1, X_2, \ldots, X_n 。该总体的概率函数为 f(xθ) f(x \mid \theta) ,其中 θ \theta 是未知的参数(或参数向量)。

由于样本是独立同分布的,观测到这一整组特定样本 (x1,x2,,xn) (x_1, x_2, \ldots, x_n) 的联合概率是每个观测点概率的乘积。这个联合概率,作为 θ \theta 的函数,就是似然函数 (Likelihood Function)

L(θx1,,xn)=i=1nf(xiθ)L(\theta \mid x_1, \ldots, x_n) = \prod_{i=1}^{n} f(x_i \mid \theta)

极大似然估计法就是要寻找一个参数估计值 θ^MLE \hat{\theta}_{MLE} ,使得上述的似然函数 L(θ) L(\theta) 最大化。

θ^MLE=argmaxθL(θx1,,xn)\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta \mid x_1, \ldots, x_n)

对数似然函数 (Log-Likelihood Function)

直接处理乘积形式的似然函数在数学上(特别是求导时)通常很复杂。为了简化计算,我们常常转而最大化对数似然函数 (Log-Likelihood Function) (θ)=lnL(θ) \ell(\theta) = \ln L(\theta)

(θx1,,xn)=ln(i=1nf(xiθ))=i=1nlnf(xiθ)\ell(\theta \mid x_1, \ldots, x_n) = \ln \left(\prod_{i=1}^{n} f(x_i \mid \theta)\right) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)

之所以可以这样做,是因为自然对数函数 ln(x) \ln(x) 是一个严格的单调递增函数。这意味着,如果一个值能使 L(θ) L(\theta) 最大,那么它也必然能使 lnL(θ) \ln L(\theta) 最大。使用对数似然函数有两大好处:

  1. 计算简化:将复杂的乘积运算转化为简单的加法运算,求导更加方便。
  2. 数值稳定性:当样本量 n n 很大时,多个小于1的概率值相乘可能会导致计算机出现数值下溢 (numerical underflow) 的问题。而对数和则能保持数值的稳定性。

求解极大似然估计值的步骤

求解MLE的过程通常遵循以下步骤:

  1. 确定概率模型:根据问题背景,选择一个合适的概率分布(如正态分布伯努利分布泊松分布等),并写出其概率函数 f(xθ) f(x \mid \theta)
  2. 构建似然函数:根据i.i.d.\ 样本 x1,,xn x_1, \ldots, x_n ,写出似然函数 L(θ)=i=1nf(xiθ) L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta)
  3. 构建对数似然函数:取 L(θ) L(\theta) 的自然对数,得到 (θ)=i=1nlnf(xiθ) \ell(\theta) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)
  4. 求导并设为零:计算对数似然函数关于未知参数 θ \theta 的一阶偏导数(这个导数也被称为score function),并令其等于零。这个方程(组)称为似然方程 (Likelihood Equation)。 \[ \frac{\partial \ell(\theta)}{\partial \theta} = 0 \]
  5. 求解参数:解似然方程,得到的解即为极大似然估计值 θ^MLE \hat{\theta}_{MLE} 的候选。
  6. 检验二阶条件:为确保求得的是极大值而非极小值,需检验二阶条件。即在 θ^MLE \hat{\theta}_{MLE} 处,对数似然函数的二阶导数(对于多参数模型,则是Hessian矩阵)应为负定。

示例:伯努利分布的参数估计

这是一个经典的入门例子。假设我们抛掷一枚可能不均匀的硬币 n n 次,观测到 k k 次正面(记为1)和 nk n-k 次反面(记为0)。我们希望估计每次抛掷出现正面的概率 p p

  1. 概率模型:每次抛掷服从伯努利分布 Bernoulli(p) \text{Bernoulli}(p) ,其概率质量函数为 f(xp)=px(1p)1x f(x \mid p) = p^x (1-p)^{1-x} ,其中 x{0,1} x \in \{0, 1\}
  2. 似然函数:我们的样本数据包含 k k 个1和 nk n-k 个0。因此似然函数为: \[ L(p \mid \text{data}) = p^k (1-p)^{n-k} \]
  3. 对数似然函数: \[ \ell(p \mid \text{data}) = \ln(p^k (1-p)^{n-k}) = k \ln(p) + (n-k) \ln(1-p) \]
  4. 求导并设为零: \[ \frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \]
  5. 求解参数: \[ \frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np \] 解得: \[ \hat{p}_{MLE} = \frac{k}{n} \]

这个结果非常直观:对于伯努利试验,成功概率的最佳估计就是观测到的成功频率(即样本均值)。

极大似然估计量的性质

MLE之所以被广泛应用,是因为它具有许多优良的统计性质,尤其是在大样本下:

  1. 渐近一致性 (Asymptotic Consistency):当样本容量 n n \to \infty 时,极大似然估计量 θ^MLE \hat{\theta}_{MLE} 在概率上收敛于参数的真实值 θ0 \theta_0 。这意味着只要有足够多的数据,我们的估计就会越来越接近真实情况。
  2. 渐近正态性 (Asymptotic Normality):当样本容量 n n 很大时,θ^MLE \hat{\theta}_{MLE} 的抽样分布近似于一个正态分布。这为构建置信区间和进行假设检验提供了理论基础。
  3. 渐近有效性 (Asymptotic Efficiency):在大样本下,θ^MLE \hat{\theta}_{MLE} 的方差能够达到所有一致估计量所能达到的理论最小值,即克拉默-拉奥下界 (Cramér-Rao Lower Bound)。通俗地说,它是大样本下"最精确"的估计量。
  4. 不变性 (Invariance):如果 θ^MLE \hat{\theta}_{MLE} θ \theta 的极大似然估计量,那么对于任何函数 g(θ) g(\theta) ,其极大似然估计量就是 g(θ^MLE) g(\hat{\theta}_{MLE}) 。例如,如果 σ2^ \hat{\sigma^2} 是方差 σ2 \sigma^2 的MLE,那么标准差 σ \sigma 的MLE就是 σ2^ \sqrt{\hat{\sigma^2}}

局限性与注意事项

  • 模型设定:MLE的正确性严重依赖于所假设的概率分布模型的正确性。如果模型设定错误(模型误设),MLE的结果可能是有偏不一致的。
  • 小样本偏差:虽然MLE是渐近无偏的,但在小样本情况下可能存在偏差。例如,正态分布方差的MLE是有偏估计量。
  • 计算复杂性:对于复杂的模型,似然函数可能非常复杂,不存在解析解。此时需要依赖数值优化算法(如牛顿-拉夫逊法梯度下降法)来寻找最大值。
  • 局部最优解:复杂的似然函数可能存在多个局部极大值,数值优化算法可能收敛到局部最优解而非全局最优解。