ARTICLE

极大似然估计法（MLE）的基本概念

极大似然估计法 (Maximum Likelihood Estimation, MLE) 极大似然估计法 (Maximum Likelihood Estimation, MLE)，也常简称为最大似然法，是统计学和计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是：给定一组观测到的样本数据，寻找能够使这组数据出现的"可能性"（即"似然"）达到最大的

浏览 81 更新 2025-10-22

极大似然估计法 (Maximum Likelihood Estimation, MLE)

极大似然估计法 (Maximum Likelihood Estimation, MLE)，也常简称为最大似然法，是统计学和计量经济学中最基本、应用最广泛的参数估计方法之一。其核心思想是：给定一组观测到的样本数据，寻找能够使这组数据出现的"可能性"（即"似然"）达到最大的模型参数值。换言之，我们选择的参数应该最能"解释"我们所观察到的数据。

这一方法由英国统计学家罗纳德·艾尔默·费雪 (Sir Ronald A. Fisher) 在20世纪初系统性地提出和发展，是现代统计推断的基石之一。

核心概念：概率与似然 (Probability vs.\ Likelihood)

在深入理解MLE之前，必须清晰地区分概率 (Probability) 和似然 (Likelihood) 这两个概念，它们是看待同一个数学表达式的两种不同视角。

假设我们有一个概率模型，其概率密度函数 (PDF) 或概率质量函数 (PMF) 为 $f(x \mid \theta)$ ，其中 $x$ 代表数据， $\theta$ 代表模型的参数。

概率 (Probability) \begin{itemize}
视角：参数 $\theta$ 是固定且已知的，数据 $x$ 是变量。
问题：在给定模型参数的情况下，观测到某个特定数据的概率是多少？
例子：假设我们有一枚均匀的硬币（参数 $p=0.5$ ），抛掷10次，得到7次正面的概率是多少？在这里，我们计算的是 $P(\text{数据}=7\text{正} \mid p=0.5)$ 。 \end{itemize}
似然 (Likelihood) \begin{itemize}
视角：数据 $x$ 是固定且已知的（因为我们已经观测到了），参数 $\theta$ 是变量。
问题：在给定我们观测到的数据的情况下，哪个参数值最像是"真实"的参数值？
例子：我们抛掷一枚硬币10次，观测到了7次正面（数据已知）。我们想知道这枚硬币是均匀的（ $p=0.5$ ），还是不均匀的（例如 $p=0.7$ 或 $p=0.6$ ）？我们会比较参数 $p=0.7$ 时观测到7次正面的可能性，与参数 $p=0.5$ 时观测到7次正面的可能性，哪个更大。 \end{itemize}

从数学上讲，似然函数 $L(\theta \mid x)$ 在数值上等于联合概率密度/质量函数 $f(x \mid \theta)$ ，但它被解释为参数 $\theta$ 的函数。

L(\theta \mid x) = f(x \mid \theta)

MLE的目标就是找到那个使 $L(\theta \mid x)$ 达到最大值的参数 $\hat{\theta}$ 。

极大似然估计的原理

假设我们有一个来自某个总体分布的独立同分布 (independent and identically distributed, i.i.d.) 的随机样本 $X_1, X_2, \ldots, X_n$ 。该总体的概率函数为 $f(x \mid \theta)$ ，其中 $\theta$ 是未知的参数（或参数向量）。

由于样本是独立同分布的，观测到这一整组特定样本 $(x_1, x_2, \ldots, x_n)$ 的联合概率是每个观测点概率的乘积。这个联合概率，作为 $\theta$ 的函数，就是似然函数 (Likelihood Function)：

L(\theta \mid x_1, \ldots, x_n) = \prod_{i=1}^{n} f(x_i \mid \theta)

极大似然估计法就是要寻找一个参数估计值 $\hat{\theta}_{MLE}$ ，使得上述的似然函数 $L(\theta)$ 最大化。

\hat{\theta}_{MLE} = \arg\max_{\theta} L(\theta \mid x_1, \ldots, x_n)

对数似然函数 (Log-Likelihood Function)

直接处理乘积形式的似然函数在数学上（特别是求导时）通常很复杂。为了简化计算，我们常常转而最大化对数似然函数 (Log-Likelihood Function) $\ell(\theta) = \ln L(\theta)$ 。

\ell(\theta \mid x_1, \ldots, x_n) = \ln \left(\prod_{i=1}^{n} f(x_i \mid \theta)\right) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)

之所以可以这样做，是因为自然对数函数 $\ln(x)$ 是一个严格的单调递增函数。这意味着，如果一个值能使 $L(\theta)$ 最大，那么它也必然能使 $\ln L(\theta)$ 最大。使用对数似然函数有两大好处：

计算简化：将复杂的乘积运算转化为简单的加法运算，求导更加方便。
数值稳定性：当样本量 $n$ 很大时，多个小于1的概率值相乘可能会导致计算机出现数值下溢 (numerical underflow) 的问题。而对数和则能保持数值的稳定性。

求解极大似然估计值的步骤

求解MLE的过程通常遵循以下步骤：

确定概率模型：根据问题背景，选择一个合适的概率分布（如正态分布、伯努利分布、泊松分布等），并写出其概率函数 $f(x \mid \theta)$ 。
构建似然函数：根据i.i.d.\ 样本 $x_1, \ldots, x_n$ ，写出似然函数 $L(\theta) = \prod_{i=1}^{n} f(x_i \mid \theta)$ 。
构建对数似然函数：取 $L(\theta)$ 的自然对数，得到 $\ell(\theta) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)$ 。
求导并设为零：计算对数似然函数关于未知参数 $\theta$ 的一阶偏导数（这个导数也被称为score function），并令其等于零。这个方程（组）称为似然方程 (Likelihood Equation)。 \[ \frac{\partial \ell(\theta)}{\partial \theta} = 0 \]
求解参数：解似然方程，得到的解即为极大似然估计值 $\hat{\theta}_{MLE}$ 的候选。
检验二阶条件：为确保求得的是极大值而非极小值，需检验二阶条件。即在 $\hat{\theta}_{MLE}$ 处，对数似然函数的二阶导数（对于多参数模型，则是Hessian矩阵）应为负定。

示例：伯努利分布的参数估计

这是一个经典的入门例子。假设我们抛掷一枚可能不均匀的硬币 $n$ 次，观测到 $k$ 次正面（记为1）和 $n-k$ 次反面（记为0）。我们希望估计每次抛掷出现正面的概率 $p$ 。

概率模型：每次抛掷服从伯努利分布 $\text{Bernoulli}(p)$ ，其概率质量函数为 $f(x \mid p) = p^x (1-p)^{1-x}$ ，其中 $x \in \{0, 1\}$ 。
似然函数：我们的样本数据包含 $k$ 个1和 $n-k$ 个0。因此似然函数为： \[ L(p \mid \text{data}) = p^k (1-p)^{n-k} \]
对数似然函数： \[ \ell(p \mid \text{data}) = \ln(p^k (1-p)^{n-k}) = k \ln(p) + (n-k) \ln(1-p) \]
求导并设为零： \[ \frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \]
求解参数： \[ \frac{k}{p} = \frac{n-k}{1-p} \implies k(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np \] 解得： \[ \hat{p}_{MLE} = \frac{k}{n} \]

这个结果非常直观：对于伯努利试验，成功概率的最佳估计就是观测到的成功频率（即样本均值）。

极大似然估计量的性质

MLE之所以被广泛应用，是因为它具有许多优良的统计性质，尤其是在大样本下：

渐近一致性 (Asymptotic Consistency)：当样本容量 $n \to \infty$ 时，极大似然估计量 $\hat{\theta}_{MLE}$ 在概率上收敛于参数的真实值 $\theta_0$ 。这意味着只要有足够多的数据，我们的估计就会越来越接近真实情况。
渐近正态性 (Asymptotic Normality)：当样本容量 $n$ 很大时， $\hat{\theta}_{MLE}$ 的抽样分布近似于一个正态分布。这为构建置信区间和进行假设检验提供了理论基础。
渐近有效性 (Asymptotic Efficiency)：在大样本下， $\hat{\theta}_{MLE}$ 的方差能够达到所有一致估计量所能达到的理论最小值，即克拉默-拉奥下界 (Cramér-Rao Lower Bound)。通俗地说，它是大样本下"最精确"的估计量。
不变性 (Invariance)：如果 $\hat{\theta}_{MLE}$ 是 $\theta$ 的极大似然估计量，那么对于任何函数 $g(\theta)$ ，其极大似然估计量就是 $g(\hat{\theta}_{MLE})$ 。例如，如果 $\hat{\sigma^2}$ 是方差 $\sigma^2$ 的MLE，那么标准差 $\sigma$ 的MLE就是 $\sqrt{\hat{\sigma^2}}$ 。

局限性与注意事项

模型设定：MLE的正确性严重依赖于所假设的概率分布模型的正确性。如果模型设定错误（模型误设），MLE的结果可能是有偏且不一致的。
小样本偏差：虽然MLE是渐近无偏的，但在小样本情况下可能存在偏差。例如，正态分布方差的MLE是有偏估计量。
计算复杂性：对于复杂的模型，似然函数可能非常复杂，不存在解析解。此时需要依赖数值优化算法（如牛顿-拉夫逊法、梯度下降法）来寻找最大值。
局部最优解：复杂的似然函数可能存在多个局部极大值，数值优化算法可能收敛到局部最优解而非全局最优解。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。