ARTICLE
极大似然估计法(MLE)的基本概念
极大似然估计法 (Maximum Likelihood Estimation, MLE) 极大似然估计法 (Maximum Likelihood Estimation, MLE),也常简称为最大似然法,是统计学和计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是:给定一组观测到的样本数据,寻找能够使这组数据出现的"可能性"(即"似然")达到最大的
极大似然估计法 (Maximum Likelihood Estimation, MLE)
极大似然估计法 (Maximum Likelihood Estimation, MLE),也常简称为最大似然法,是统计学和计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是:给定一组观测到的样本数据,寻找能够使这组数据出现的"可能性"(即"似然")达到最大的模型参数值。换言之,我们选择的参数应该最能"解释"我们所观察到的数据。
这一方法由英国统计学家罗纳德·艾尔默·费雪 (Sir Ronald A. Fisher) 在20世纪初系统性地提出和发展,是现代统计推断的基石之一。
核心概念:概率与似然 (Probability vs.\ Likelihood)
在深入理解MLE之前,必须清晰地区分概率 (Probability) 和似然 (Likelihood) 这两个概念,它们是看待同一个数学表达式的两种不同视角。
假设我们有一个概率模型,其概率密度函数 (PDF) 或概率质量函数 (PMF) 为 ,其中 代表数据, 代表模型的参数。
- 概率 (Probability) \begin{itemize}
- 视角:参数 是固定且已知的,数据 是变量。
- 问题:在给定模型参数的情况下,观测到某个特定数据的概率是多少?
- 例子:假设我们有一枚均匀的硬币(参数 ),抛掷10次,得到7次正面的概率是多少?在这里,我们计算的是 。 \end{itemize}
- 似然 (Likelihood) \begin{itemize}
- 视角:数据 是固定且已知的(因为我们已经观测到了),参数 是变量。
- 问题:在给定我们观测到的数据的情况下,哪个参数值最像是"真实"的参数值?
- 例子:我们抛掷一枚硬币10次,观测到了7次正面(数据已知)。我们想知道这枚硬币是均匀的(),还是不均匀的(例如 或 )?我们会比较参数 时观测到7次正面的可能性,与参数 时观测到7次正面的可能性,哪个更大。 \end{itemize}
从数学上讲,似然函数 在数值上等于联合概率密度/质量函数 ,但它被解释为参数 的函数。
MLE的目标就是找到那个使 达到最大值的参数 。
极大似然估计的原理
假设我们有一个来自某个总体分布的独立同分布 (independent and identically distributed, i.i.d.) 的随机样本 。该总体的概率函数为 ,其中 是未知的参数(或参数向量)。
由于样本是独立同分布的,观测到这一整组特定样本 的联合概率是每个观测点概率的乘积。这个联合概率,作为 的函数,就是似然函数 (Likelihood Function):
极大似然估计法就是要寻找一个参数估计值 ,使得上述的似然函数 最大化。
对数似然函数 (Log-Likelihood Function)
直接处理乘积形式的似然函数在数学上(特别是求导时)通常很复杂。为了简化计算,我们常常转而最大化对数似然函数 (Log-Likelihood Function) 。
之所以可以这样做,是因为自然对数函数 是一个严格的单调递增函数。这意味着,如果一个值能使 最大,那么它也必然能使 最大。使用对数似然函数有两大好处:
- 计算简化:将复杂的乘积运算转化为简单的加法运算,求导更加方便。
- 数值稳定性:当样本量 很大时,多个小于1的概率值相乘可能会导致计算机出现数值下溢 (numerical underflow) 的问题。而对数和则能保持数值的稳定性。
求解极大似然估计值的步骤
求解MLE的过程通常遵循以下步骤:
- 确定概率模型:根据问题背景,选择一个合适的概率分布(如正态分布、伯努利分布、泊松分布等),并写出其概率函数 。
- 构建似然函数:根据i.i.d.\ 样本 ,写出似然函数 。
- 构建对数似然函数:取 的自然对数,得到 。
- 求导并设为零:计算对数似然函数关于未知参数 的一阶偏导数(这个导数也被称为score function),并令其等于零。这个方程(组)称为似然方程 (Likelihood Equation)。 \[ \frac{\partial \ell(\theta)}{\partial \theta} = 0 \]
- 求解参数:解似然方程,得到的解即为极大似然估计值 的候选。
- 检验二阶条件:为确保求得的是极大值而非极小值,需检验二阶条件。即在 处,对数似然函数的二阶导数(对于多参数模型,则是Hessian矩阵)应为负定。
示例:伯努利分布的参数估计
这是一个经典的入门例子。假设我们抛掷一枚可能不均匀的硬币 次,观测到 次正面(记为1)和 次反面(记为0)。我们希望估计每次抛掷出现正面的概率 。
- 概率模型:每次抛掷服从伯努利分布 ,其概率质量函数为 ,其中 。
- 似然函数:我们的样本数据包含 个1和 个0。因此似然函数为: \[ L(p \mid \text{data}) = p^k (1-p)^{n-k} \]
- 对数似然函数: \[ \ell(p \mid \text{data}) = \ln(p^k (1-p)^{n-k}) = k \ln(p) + (n-k) \ln(1-p) \]
- 求导并设为零: \[ \frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \]
- 求解参数: \[ \frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np \] 解得: \[ \hat{p}_{MLE} = \frac{k}{n} \]
这个结果非常直观:对于伯努利试验,成功概率的最佳估计就是观测到的成功频率(即样本均值)。
极大似然估计量的性质
MLE之所以被广泛应用,是因为它具有许多优良的统计性质,尤其是在大样本下:
- 渐近一致性 (Asymptotic Consistency):当样本容量 时,极大似然估计量 在概率上收敛于参数的真实值 。这意味着只要有足够多的数据,我们的估计就会越来越接近真实情况。
- 渐近正态性 (Asymptotic Normality):当样本容量 很大时, 的抽样分布近似于一个正态分布。这为构建置信区间和进行假设检验提供了理论基础。
- 渐近有效性 (Asymptotic Efficiency):在大样本下, 的方差能够达到所有一致估计量所能达到的理论最小值,即克拉默-拉奥下界 (Cramér-Rao Lower Bound)。通俗地说,它是大样本下"最精确"的估计量。
- 不变性 (Invariance):如果 是 的极大似然估计量,那么对于任何函数 ,其极大似然估计量就是 。例如,如果 是方差 的MLE,那么标准差 的MLE就是 。