ARTICLE

似然函数

似然函数 (Likelihood Function) 似然函数 (Likelihood Function) 是统计推断中最核心的概念之一，尤其在参数估计领域占据枢纽地位。它提供了一种在给定观测数据后量化不同参数值相对合理性的统一框架。简言之，似然函数回答的核心问题是："既然我们已经观测到了这组数据，那么模型的未知参数取何值时最能解释这些数据的产生？"

浏览 54 更新 2025-10-23

似然函数 (Likelihood Function)

似然函数 (Likelihood Function) 是统计推断中最核心的概念之一，尤其在参数估计领域占据枢纽地位。它提供了一种在给定观测数据后量化不同参数值相对合理性的统一框架。简言之，似然函数回答的核心问题是："既然我们已经观测到了这组数据，那么模型的未知参数取何值时最能解释这些数据的产生？"这一思想由罗纳德·费雪 (Ronald Fisher) 于 20 世纪初系统化，并迅速成为频率学派统计推断的基石。

核心定义与符号

设随机变量 $X$ 的概率分布由未知参数 $\theta$ （可为标量或向量）决定，其概率密度函数（连续情形，PDF）或概率质量函数（离散情形，PMF）记为 $f(x \mid \theta)$ 。此记号中，竖线右侧的 $\theta$ 被视为已知固定量，左侧的 $x$ 为变量——此时 $f(x \mid \theta)$ 给出不同数据取值的概率（密度）。但当我们完成观测、获得了具体的样本值 $x$ 后，将视角反转：把 $x$ 固定为已知，把 $\theta$ 视为自变量，该函数即成为似然函数：

L(\theta \mid x) = f(x \mid \theta)

数学形式上完全相同的表达式，仅因解读角度的翻转便获得了全新的统计含义。对于包含 $n$ 个独立同分布（i.i.d.）观测值的数据集 $x_1, x_2, \dots, x_n$ ，联合概率密度为各边际密度的乘积，因此联合似然函数为：

L(\theta \mid x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i \mid \theta)

若观测值并非独立（如时间序列数据），则需使用条件概率的链式法则逐项分解，似然函数的形式会相应复杂化。

似然与概率的关键区别

似然 (Likelihood) 与概率 (Probability) 在日常语言中常被混用，但在统计学中有严格区分。概率以参数 $\theta$ 固定为前提，描述数据 $x$ 的不确定性——它回答"假设真实参数为 $\theta$ ，观测到特定数据 $x$ 的机会有多大？"。似然则以数据 $x$ 固定为前提，描述参数 $\theta$ 的不确定性——它回答"既然已观测到 $x$ ，那么真实参数为 $\theta$ 的可能性有多大？"。

这一区别在数学性质上体现得最为清晰：对所有可能数据的概率求和（或积分）恒等于 1，即 $\sum_x f(x \mid \theta) = 1$ 或 $\int f(x \mid \theta) \, dx = 1$ 。但似然函数作为 $\theta$ 的函数时，对所有可能 $\theta$ 值的积分通常不等于 1。这意味着似然值本质上是相对量：若 $L(\theta_A \mid x) = 2 L(\theta_B \mid x)$ ，则说明在观测数据 $x$ 下，参数 $\theta_A$ 对数据的解释力是 $\theta_B$ 的两倍，但这绝非意味着 $\theta_A$ 为真的概率是 $\theta_B$ 的两倍——后者属于贝叶斯统计的范畴，需要引入先验分布。

对数似然函数

当样本量 $n$ 较大时， $n$ 个概率值的连乘会导致数值极小，极易引发计算机的数值下溢（numerical underflow）。为解决这一问题，统计实践中几乎无例外地使用 对数似然函数（log-likelihood function），记为 $\ell(\theta \mid x) = \ln L(\theta \mid x)$ 。对于 i.i.d. 样本：

\ell(\theta \mid x_1, \dots, x_n) = \ln \left( \prod_{i=1}^{n} f(x_i \mid \theta) \right) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)

对数变换将乘积化为求和，带来了三重优势。第一，求导和优化计算大幅简化，尤其当概率密度本身包含指数项时，取对数可直接消去指数。第二，极大提升了数值稳定性，避免了连乘导致的下溢。第三，由于自然对数函数 $\ln(\cdot)$ 是严格单调递增函数，最大化 $L(\theta)$ 的 $\theta$ 值必然也最大化 $\ell(\theta)$ ——极值点保持不变。因此，几乎所有最大似然估计的数值算法都直接操作对数似然而非原始似然。

最大似然估计

似然函数最为直接且深远的经济学与统计学应用是最大似然估计（Maximum Likelihood Estimation, MLE）。MLE 的核心原则极富直觉性：选择那个使已观测数据出现概率（似然）最大的参数值作为估计量。数学上：

\hat{\theta}_{\text{MLE}} = \underset{\theta \in \Theta}{\arg\max} \, L(\theta \mid x) = \underset{\theta \in \Theta}{\arg\max} \, \ell(\theta \mid x)

以抛硬币为例直观演示。某枚不均匀硬币抛出正面的概率为未知参数 $p \in [0, 1]$ 。独立抛掷 10 次，观测序列为 7 次正面、3 次反面。每次抛掷为伯努利试验，似然函数为 $L(p) = p^7 (1-p)^3$ 。我们可以直观比较几个候选值：若 $p = 0.5$ ，似然值约为 0.00098；若 $p = 0.7$ ，似然值约为 0.00222，后者约为前者的 2.3 倍，说明 $p = 0.7$ 更能解释观测数据。取对数得 $\ell(p) = 7\ln p + 3\ln(1-p)$ ，求一阶条件：

\frac{d\ell}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 \implies 7(1-p) = 3p \implies \hat{p}_{\text{MLE}} = 0.7

结果恰好等于样本频率，这并非偶然——伯努利试验中 MLE 总是等于样本均值。更一般地，在满足一定正则条件的参数模型中，MLE 具有一致性（随着样本量增大收敛于真值）、渐近正态性（其抽样分布趋近于正态）和渐近有效性（在所有一致估计量中达到最小的渐近方差，即达到克拉美-罗下界）。这些优良的大样本性质是 MLE 得以在计量经济学、生物统计学以及众多社会科学领域中被广泛采用的理论根基。

与其他领域的深度关联

似然函数的影响力远超参数估计本身，构成了统计推断多个分支的共享语言。在贝叶斯统计中，似然函数是连接先验信念与观测数据的核心纽带：根据贝叶斯定理，参数的后验分布正比于先验分布与似然函数的乘积，即 $P(\theta \mid x) \propto P(\theta) \times L(\theta \mid x)$ 。在假设检验领域，似然比检验（Likelihood Ratio Test）利用约束模型与无约束模型的似然值之比构建检验统计量，其渐近分布为卡方分布，广泛应用于嵌套模型间的比较与模型选择。在信息论中，似然函数的曲率与费雪信息（Fisher Information）紧密关联，后者度量了数据对未知参数的"信息含量"，直接决定了 MLE 的渐近方差下界。在计量经济学中，从线性回归的普通最小二乘法（在正态误差假设下等价于 MLE）到 Logit 模型、Probit 模型、托宾模型（Tobit）等非线性离散选择模型，MLE 均是最主要的参数估计手段。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。