知经 KNOWECON · 卓越的经济金融统计数学学习平台

极大似然估计法(MLE)的基本概念

# 极大似然估计法 (Maximum Likelihood Estimation, MLE)

极大似然估计法 (Maximum Likelihood Estimation, MLE),也常简称为 最大似然法,是{{{统计学}}}和{{{计量经济学}}}中最基本、应用最广泛的{{{参数估计}}}方法之一。其核心思想是:给定一组观测到的样本数据,寻找能够使这组数据出现的“可能性”(即“似然”)达到最大的模型参数值。换言之,我们选择的参数应该最能“解释”我们所观察到的数据。

这一方法由英国统计学家{{{罗纳德·艾尔默·费雪}}} (Sir Ronald A. Fisher) 在20世纪初系统性地提出和发展,是现代统计推断的基石之一。

## 核心概念:概率与似然 (Probability vs. Likelihood)

在深入理解MLE之前,必须清晰地区分概率 (Probability)似然 (Likelihood) 这两个概念,它们是看待同一个数学表达式的两种不同视角。

假设我们有一个{{{概率模型}}},其{{{概率密度函数}}} (PDF) 或{{{概率质量函数}}} (PMF) 为 $f(x | \theta)$,其中 $x$ 代表数据,$\theta$ 代表模型的参数。

1. 概率 (Probability) * 视角:参数 $\theta$ 是 固定且已知 的,数据 $x$ 是 变量。 * 问题:在给定模型参数的情况下,观测到某个特定数据的概率是多少? * 例子:假设我们有一枚均匀的硬币(参数 $p=0.5$),抛掷10次,得到7次正面的概率是多少?在这里,我们计算的是 $P(\text{数据}=7\text{正} | p=0.5)$。

2. 似然 (Likelihood) * 视角:数据 $x$ 是 固定且已知 的(因为我们已经观测到了),参数 $\theta$ 是 变量。 * 问题:在给定我们观测到的数据的情况下,哪个参数值最像是“真实”的参数值? * 例子:我们抛掷一枚硬币10次,观测到了7次正面(数据已知)。我们想知道这枚硬币是均匀的($p=0.5$),还是不均匀的(例如 $p=0.7$ 或 $p=0.6$)?我们会比较参数 $p=0.7$ 时观测到7次正面的可能性,与参数 $p=0.5$ 时观测到7次正面的可能性,哪个更大。

从数学上讲,{{{似然函数}}} $L(\theta | x)$ 在数值上等于联合概率密度/质量函数 $f(x | \theta)$,但它被解释为参数 $\theta$ 的函数。

$$ L(\theta | x) = f(x | \theta) $$

MLE的目标就是找到那个使 $L(\theta | x)$ 达到最大值的参数 $\hat{\theta}$。

## 极大似然估计的原理

假设我们有一个来自某个总体分布的{{{独立同分布}}} (independent and identically distributed, {{{i.i.d.}}}) 的随机样本 $X_1, X_2, \ldots, X_n$。该总体的概率函数为 $f(x | \theta)$,其中 $\theta$ 是未知的参数(或参数向量)。

由于样本是独立同分布的,观测到这一整组特定样本 $(x_1, x_2, \ldots, x_n)$ 的联合概率是每个观测点概率的乘积。这个联合概率,作为 $\theta$ 的函数,就是似然函数 (Likelihood Function)

$$ L(\theta | x_1, \ldots, x_n) = \prod_{i=1}^{n} f(x_i | \theta) $$

极大似然估计法就是要寻找一个参数估计值 $\hat{\theta}_{MLE}$,使得上述的似然函数 $L(\theta)$ 最大化。

$$ \hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta | x_1, \ldots, x_n) $$

### 对数似然函数 (Log-Likelihood Function)

直接处理乘积形式的似然函数在数学上(特别是求导时)通常很复杂。为了简化计算,我们常常转而最大化对数似然函数 (Log-Likelihood Function) $\ell(\theta) = \ln L(\theta)$。

$$ \ell(\theta | x_1, \ldots, x_n) = \ln \left(\prod_{i=1}^{n} f(x_i | \theta)\right) = \sum_{i=1}^{n} \ln f(x_i | \theta) $$

之所以可以这样做,是因为自然对数函数 $\ln(x)$ 是一个严格的{{{单调递增函数}}}。这意味着,如果一个值能使 $L(\theta)$ 最大,那么它也必然能使 $\ln L(\theta)$ 最大。使用对数似然函数有两大好处: 1. 计算简化:将复杂的乘积运算转化为简单的加法运算,求导更加方便。 2. 数值稳定性:当样本量 $n$ 很大时,多个小于1的概率值相乘可能会导致计算机出现{{{数值下溢}}} (numerical underflow) 的问题。而对数和则能保持数值的稳定性。

## 求解极大似然估计值的步骤

求解MLE的过程通常遵循以下步骤:

1. 确定概率模型:根据问题背景,选择一个合适的{{{概率分布}}}(如{{{正态分布}}}、{{{伯努利分布}}}、{{{泊松分布}}}等),并写出其概率函数 $f(x | \theta)$。 2. 构建似然函数:根据i.i.d.样本 $x_1, \ldots, x_n$,写出似然函数 $L(\theta) = \prod_{i=1}^{n} f(x_i | \theta)$。 3. 构建对数似然函数:取 $L(\theta)$ 的自然对数,得到 $\ell(\theta) = \sum_{i=1}^{n} \ln f(x_i | \theta)$。 4. 求导并设为零:计算对数似然函数关于未知参数 $\theta$ 的一阶偏导数(这个导数也被称为{{{score function}}}),并令其等于零。这个方程(组)称为似然方程 (Likelihood Equation)。 $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$ 5. 求解参数:解似然方程,得到的解即为极大似然估计值 $\hat{\theta}_{MLE}$ 的候选。 6. 检验二阶条件:为确保求得的是极大值而非极小值,需检验二阶条件。即在 $\hat{\theta}_{MLE}$ 处,对数似然函数的二阶导数(对于多参数模型,则是{{{Hessian矩阵}}}) 应为负定。

### 示例:伯努利分布的参数估计

这是一个经典的入门例子。假设我们抛掷一枚可能不均匀的硬币 $n$ 次,观测到 $k$ 次正面(记为1)和 $n-k$ 次反面(记为0)。我们希望估计每次抛掷出现正面的概率 $p$。

1. 概率模型:每次抛掷服从{{{伯努利分布}}}$\text{Bernoulli}(p)$,其概率质量函数为 $f(x|p) = p^x (1-p)^{1-x}$,其中 $x \in \{0, 1\}$。 2. 似然函数:我们的样本数据包含 $k$ 个1和 $n-k$ 个0。因此似然函数为: $$ L(p | \text{data}) = p^k (1-p)^{n-k} $$ 3. 对数似然函数: $$ \ell(p | \text{data}) = \ln(p^k (1-p)^{n-k}) = k \ln(p) + (n-k) \ln(1-p) $$ 4. 求导并设为零: $$ \frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 $$ 5. 求解参数: $$ \frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np $$ 解得: $$ \hat{p}_{MLE} = \frac{k}{n} $$

这个结果非常直观:对于伯努利试验,成功概率的最佳估计就是观测到的成功频率(即{{{样本均值}}})。

## 极大似然估计量的性质

MLE之所以被广泛应用,是因为它具有许多优良的统计性质,尤其是在大样本下:

1. 渐近一致性 (Asymptotic Consistency):当样本容量 $n \to \infty$ 时,极大似然估计量 $\hat{\theta}_{MLE}$ 在概率上收敛于参数的真实值 $\theta_0$。这意味着只要有足够多的数据,我们的估计就会越来越接近真实情况。 2. 渐近正态性 (Asymptotic Normality):当样本容量 $n$ 很大时,$\hat{\theta}_{MLE}$ 的抽样分布近似于一个{{{正态分布}}}。这为构建{{{置信区间}}}和进行{{{假设检验}}}提供了理论基础。 3. 渐近有效性 (Asymptotic Efficiency):在大样本下,$\hat{\theta}_{MLE}$ 的方差能够达到所有一致估计量所能达到的理论最小值,即{{{克拉默-拉奥下界}}} (Cramér-Rao Lower Bound)。通俗地说,它是大样本下“最精确”的估计量。 4. 不变性 (Invariance):如果 $\hat{\theta}_{MLE}$ 是 $\theta$ 的极大似然估计量,那么对于任何函数 $g(\theta)$,其极大似然估计量就是 $g(\hat{\theta}_{MLE})$。例如,如果 $\hat{\sigma^2}$ 是方差 $\sigma^2$ 的MLE,那么标准差 $\sigma$ 的MLE就是 $\sqrt{\hat{\sigma^2}}$。

## 局限性与注意事项

* 模型设定:MLE的正确性严重依赖于所假设的概率分布模型的正确性。如果模型设定错误({{{模型误设}}}),MLE的结果可能是{{{有偏}}}且{{{不一致}}}的。 * 小样本偏差:虽然MLE是渐近无偏的,但在小样本情况下可能存在偏差。例如,正态分布方差的MLE是有偏估计量。 * 计算复杂性:对于复杂的模型,似然函数可能非常复杂,不存在解析解。此时需要依赖{{{数值优化}}}算法(如{{{牛顿-拉夫逊法}}}、{{{梯度下降法}}})来寻找最大值。 * 局部最优解:复杂的似然函数可能存在多个局部极大值,数值优化算法可能收敛到局部最优解而非全局最优解。