知经 KNOWECON · 卓越的经济金融统计数学学习平台

极大似然估计

# 极大似然估计 (Maximum Likelihood Estimation)

**极大似然估计** (Maximum Likelihood Estimation, MLE),有时也译为 **最大概似估计**,是{{{统计学}}}和{{{计量经济学}}}中一种应用极为广泛的{{{参数估计}}}方法。其核心思想是:寻找能使我们观测到的样本数据出现的概率(或“似然”)达到最大的参数值,并将这个参数值作为对真实参数的估计。换言之,该方法回答了这样一个问题:“什么样的参数最能解释我们已经观测到的这组数据?”。这一方法由统计学家[[罗纳德·费雪]] (Ronald Fisher) 在20世纪初系统性地提出和发展,是现代统计推断的基石之一。

## 核心原理:似然与概率

在深入了解极大似然估计之前,必须清晰地区分 **似然 (Likelihood)** 和 **概率 (Probability)** 这两个概念。虽然它们在数值上可能相等,但其诠释的视角完全相反。

假设我们有一个关于数据 $x$ 和参数 $\theta$ 的概率模型,其概率函数为 $P(x|\theta)$。

* **概率 (Probability)** 是在 **参数 $\theta$ 已知** 的情况下,用来描述观测到某个数据 $x$ 的可能性。在这里,$\theta$ 是一个定值,而 $x$ 是变量。例如,对于一枚均匀的硬币(参数 $p=0.5$ 已知),抛掷三次得到“正反正”这个结果的概率是多少?

* **似然 (Likelihood)** 是在 **数据 $x$ 已知** 的情况下,用来衡量不同参数值 $\theta$ 的相对合理性或“可能性”。在这里,观测数据 $x$ 是固定的,而 $\theta$ 是我们想要探寻的变量。其函数形式为 $L(\theta|x)$。例如,我们观测到一次抛掷三次硬币的结果是“正反正”(数据已知),那么这枚硬币是均匀的($p=0.5$)的可能性,与它是不均匀的(比如 $p=0.7$)的可能性,哪一个更大?

从数学形式上看,似然函数与概率函数是相同的,即 $L(\theta|x) = P(x|\theta)$。但它们的侧重点不同:概率函数是数据的函数,而似然函数是参数的函数。极大似然估计的“极大”二字,指的就是最大化这个似然函数。

## 似然函数 (Likelihood Function)

似然函数的构建是进行极大似然估计的第一步。假设我们从一个具有未知参数 $\theta$ 的总体中,抽取了一个包含 $n$ 个观测值的样本 $(x_1, x_2, \dots, x_n)$。一个非常关键且常见的假设是,这些观测值是 **{{{独立同分布}}} (independent and identically distributed, i.i.d.)** 的。

在 i.i.d. 假设下,观测到整个样本的联合概率等于各个观测值概率的乘积。这个联合概率,当被看作是参数 $\theta$ 的函数时,就是似然函数 $L(\theta)$。

如果总体分布的{{{概率密度函数}}} (PDF) 或{{{概率质量函数}}} (PMF) 为 $f(x|\theta)$,那么似然函数可以表示为: $$ L(\theta | x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i | \theta) $$ 我们的目标就是找到一个参数估计值 $\hat{\theta}$,使得这个 $L(\theta)$ 的值最大。

## 对数似然函数 (Log-Likelihood Function)

直接对连乘形式的似然函数 $L(\theta)$ 求导和最大化,在计算上通常非常复杂。此外,多个小于1的概率相乘,结果会非常小,容易导致计算机计算时出现{{{数值下溢}}} (numerical underflow) 问题。

为了解决这些问题,我们通常对似然函数取{{{自然对数}}},得到 **对数似然函数** (Log-Likelihood Function),记为 $\ell(\theta)$ 或 $\log L(\theta)$。 $$ \ell(\theta) = \ln(L(\theta)) = \ln\left(\prod_{i=1}^{n} f(x_i | \theta)\right) = \sum_{i=1}^{n} \ln(f(x_i | \theta)) $$ 由于对数函数是一个严格的{{{单调递增函数}}},最大化似然函数 $L(\theta)$ 等价于最大化对数似然函数 $\ell(\theta)$。寻找使得 $\ell(\theta)$ 最大的 $\theta$ 值,与寻找使得 $L(\theta)$ 最大的 $\theta$ 值,得到的结果是完全相同的。而将连乘运算转化为连加运算,极大地简化了后续的求导和优化过程。

## 求解极大似然估计值

极大似然估计值 (MLE),记为 $\hat{\theta}_{MLE}$,就是使对数似然函数 $\ell(\theta)$ 达到最大值的 $\theta$ 值。求解过程通常遵循标准的微积分最优化方法:

1. **求一阶导数**:计算对数似然函数 $\ell(\theta)$ 关于参数 $\theta$ 的一阶导数(或梯度,如果 $\theta$ 是向量)。这个导数也被称为 **得分函数 (Score function)**。 2. **设定为零**:令一阶导数等于零,得到 **似然方程 (Likelihood Equation)** 。 $$ \frac{\partial \ell(\theta)}{\partial \theta} = 0 $$ 3. **求解方程**:求解该方程(或方程组),得到的解即为极大似然估计值的候选值。 4. **检验二阶条件**:为了确保所求得的是极大值点而非极小值点,需要检验二阶导数(或Hessian矩阵)在候选解处是否为负(或负定)。

在许多复杂模型中,似然方程可能没有解析解(即无法用明确的数学公式表示),此时需要借助{{{数值优化}}}算法,如{{{牛顿-拉弗森法}}} (Newton-Raphson method) 或{{{梯度下降法}}} (Gradient Descent),来迭代逼近最优解。

### 示例:正态分布参数的估计

假设我们有一个来自{{{正态分布}}} $N(\mu, \sigma^2)$ 的 i.i.d. 样本 $(x_1, \dots, x_n)$,均值 $\mu$ 和方差 $\sigma^2$ 均为未知。我们的目标是求它们的极大似然估计值。

1. **写出概率密度函数 (PDF)**: $$ f(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) $$ 2. **构建对数似然函数**: $$ \ell(\mu, \sigma^2) = \sum_{i=1}^{n} \ln\left(f(x_i | \mu, \sigma^2)\right) = \sum_{i=1}^{n} \left[ -\frac{1}{2}\ln(2\pi) - \frac{1}{2}\ln(\sigma^2) - \frac{(x_i - \mu)^2}{2\sigma^2} \right] $$ $$ \ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 $$ 3. **求一阶偏导数并设为零**: 对 $\mu$ 求偏导: $$ \frac{\partial \ell}{\partial \mu} = - \frac{1}{2\sigma^2} \sum_{i=1}^{n} 2(x_i - \mu)(-1) = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = 0 $$ 求解得到: $$ \hat{\mu}_{MLE} = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x} $$ 该结果表明,正态分布均值的极大似然估计就是我们所熟知的 **{{{样本均值}}}** $\bar{x}$。

对 $\sigma^2$ 求偏导: $$ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i - \mu)^2 = 0 $$ 将 $\mu$ 替换为其估计值 $\bar{x}$,然后求解 $\sigma^2$: $$ -\frac{n}{2\hat{\sigma}^2} + \frac{1}{2(\hat{\sigma}^2)^2} \sum_{i=1}^{n} (x_i - \bar{x})^2 = 0 $$ $$ \hat{\sigma}^2_{MLE} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$ 这个结果是 **样本方差** 的一个版本,但值得注意的是,它是一个 **{{{有偏估计}}}**。我们知道,方差的无偏估计量的分母是 $n-1$。这是MLE在小样本下可能存在偏差的一个典型例子。

## 极大似然估计的性质

极大似然估计之所以被广泛使用,是因为它具有一些优良的 **大样本 (asymptotic)** 性质,这些性质在样本容量 $n$ 趋于无穷大时表现出来:

1. **一致性 (Consistency)**:当样本容量 $n \to \infty$ 时,极大似然估计量 $\hat{\theta}_{MLE}$ 会在概率上收敛于真实的参数值 $\theta_0$。这意味着只要样本足够大,我们的估计就会非常接近真实情况。 2. **渐近正态性 (Asymptotic Normality)**:当样本容量 $n$ 很大时,MLE的抽样分布近似于一个{{{正态分布}}}。其均值为真实参数 $\theta_0$,方差与{{{费雪信息量}}} (Fisher Information) 的逆成正比。具体来说: $$ \sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1}) $$ 这个性质是构建{{{置信区间}}}和进行{{{假设检验}}}的理论基础。 3. **渐近有效性 (Asymptotic Efficiency)**:在所有一致估计量中,MLE具有最小的渐近方差,即它达到了{{{克拉默-拉奥下界}}} (Cramér–Rao lower bound)。通俗地讲,在大样本下,没有比MLE“更精确”的一致估计方法了。 4. **不变性 (Invariance)**:如果 $\hat{\theta}_{MLE}$ 是 $\theta$ 的极大似然估计,那么对于任何函数 $g(\theta)$,其极大似然估计就是 $g(\hat{\theta}_{MLE})$。例如,如果方差 $\sigma^2$ 的MLE是 $\hat{\sigma}^2_{MLE}$,那么标准差 $\sigma$ 的MLE就是 $\sqrt{\hat{\sigma}^2_{MLE}}$。这个性质在实际应用中非常方便,无需重新进行复杂的推导。

## 优缺点总结

**优点**: * 拥有优秀的理论性质 (一致性、渐近正态性、渐近有效性),为统计推断提供了坚实基础。 * 方法具有普适性,可应用于各种复杂的统计模型,例如{{{广义线性模型}}}、{{{时间序列模型}}}等。 * 不变性使得参数变换后的估计变得简单。 * 在许多常见分布下,其结果与直觉相符(如正态均值的估计为样本均值)。

**缺点**: * **模型设定敏感**:MLE的正确性严重依赖于所假设的概率分布的正确性。如果模型设定错误 (model misspecification),那么估计结果可能是{{{有偏}}}且不一致的。 * **小样本偏差**:在小样本情况下,MLE可能存在较大的{{{偏差}}}。例如,正态分布方差的MLE是一个有偏估计量。 * **计算复杂性**:对于复杂模型,最大化对数似然函数可能非常困难,需要复杂的数值优化算法,且可能陷入局部最优解而不是全局最优解。 * **存在性与唯一性**:在某些情况下,极大似然估计可能不存在,或者似然函数存在多个极大值点,导致估计不唯一。