ARTICLE

似然函数

似然函数 (Likelihood Function) 似然函数 (Likelihood Function) 是 统计推断 中最核心的概念之一,尤其在 参数估计 领域占据枢纽地位。它提供了一种在给定观测数据后量化不同参数值相对合理性的统一框架。简言之,似然函数回答的核心问题是:"既然我们已经观测到了这组数据,那么模型的未知参数取何值时最能解释这些数据的产生?"

浏览 54 更新 2025-10-23

似然函数 (Likelihood Function)

似然函数 (Likelihood Function) 是 统计推断 中最核心的概念之一,尤其在 参数估计 领域占据枢纽地位。它提供了一种在给定观测数据后量化不同参数值相对合理性的统一框架。简言之,似然函数回答的核心问题是:"既然我们已经观测到了这组数据,那么模型的未知参数取何值时最能解释这些数据的产生?"这一思想由 罗纳德·费雪 (Ronald Fisher) 于 20 世纪初系统化,并迅速成为频率学派统计推断的基石。

核心定义与符号

随机变量 XX概率分布 由未知参数 θ\theta(可为标量或向量)决定,其 概率密度函数(连续情形,PDF)或 概率质量函数(离散情形,PMF)记为 f(xθ)f(x \mid \theta)。此记号中,竖线右侧的 θ\theta 被视为已知固定量,左侧的 xx 为变量——此时 f(xθ)f(x \mid \theta) 给出不同数据取值的概率(密度)。但当我们完成观测、获得了具体的样本值 xx 后,将视角反转:把 xx 固定为已知,把 θ\theta 视为自变量,该函数即成为似然函数:

L(θx)=f(xθ)L(\theta \mid x) = f(x \mid \theta)

数学形式上完全相同的表达式,仅因解读角度的翻转便获得了全新的统计含义。对于包含 nn独立同分布(i.i.d.)观测值的数据集 x1,x2,,xnx_1, x_2, \dots, x_n,联合概率密度为各边际密度的乘积,因此联合似然函数为:

L(θx1,,xn)=i=1nf(xiθ)L(\theta \mid x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i \mid \theta)

若观测值并非独立(如时间序列数据),则需使用条件概率的链式法则逐项分解,似然函数的形式会相应复杂化。

似然与概率的关键区别

似然 (Likelihood) 与概率 (Probability) 在日常语言中常被混用,但在统计学中有严格区分。概率以参数 θ\theta 固定为前提,描述数据 xx 的不确定性——它回答"假设真实参数为 θ\theta,观测到特定数据 xx 的机会有多大?"。似然则以数据 xx 固定为前提,描述参数 θ\theta 的不确定性——它回答"既然已观测到 xx,那么真实参数为 θ\theta 的可能性有多大?"。

这一区别在数学性质上体现得最为清晰:对所有可能数据的概率求和(或积分)恒等于 1,即 xf(xθ)=1\sum_x f(x \mid \theta) = 1f(xθ)dx=1\int f(x \mid \theta) \, dx = 1。但似然函数作为 θ\theta 的函数时,对所有可能 θ\theta 值的积分通常不等于 1。这意味着似然值本质上是相对量:若 L(θAx)=2L(θBx)L(\theta_A \mid x) = 2 L(\theta_B \mid x),则说明在观测数据 xx 下,参数 θA\theta_A 对数据的解释力是 θB\theta_B 的两倍,但这绝非意味着 θA\theta_A 为真的概率是 θB\theta_B 的两倍——后者属于 贝叶斯统计 的范畴,需要引入先验分布。

对数似然函数

当样本量 nn 较大时,nn 个概率值的连乘会导致数值极小,极易引发计算机的 数值下溢(numerical underflow)。为解决这一问题,统计实践中几乎无例外地使用 对数似然函数(log-likelihood function),记为 (θx)=lnL(θx)\ell(\theta \mid x) = \ln L(\theta \mid x)。对于 i.i.d. 样本:

(θx1,,xn)=ln(i=1nf(xiθ))=i=1nlnf(xiθ)\ell(\theta \mid x_1, \dots, x_n) = \ln \left( \prod_{i=1}^{n} f(x_i \mid \theta) \right) = \sum_{i=1}^{n} \ln f(x_i \mid \theta)

对数变换将乘积化为求和,带来了三重优势。第一,求导和优化计算大幅简化,尤其当概率密度本身包含指数项时,取对数可直接消去指数。第二,极大提升了数值稳定性,避免了连乘导致的下溢。第三,由于自然对数函数 ln()\ln(\cdot) 是严格 单调递增函数,最大化 L(θ)L(\theta)θ\theta 值必然也最大化 (θ)\ell(\theta)——极值点保持不变。因此,几乎所有最大似然估计的数值算法都直接操作对数似然而非原始似然。

最大似然估计

似然函数最为直接且深远的经济学与统计学应用是 最大似然估计(Maximum Likelihood Estimation, MLE)。MLE 的核心原则极富直觉性:选择那个使已观测数据出现概率(似然)最大的参数值作为估计量。数学上:

θ^MLE=argmaxθΘL(θx)=argmaxθΘ(θx)\hat{\theta}_{\text{MLE}} = \underset{\theta \in \Theta}{\arg\max} \, L(\theta \mid x) = \underset{\theta \in \Theta}{\arg\max} \, \ell(\theta \mid x)

以抛硬币为例直观演示。某枚不均匀硬币抛出正面的概率为未知参数 p[0,1]p \in [0, 1]。独立抛掷 10 次,观测序列为 7 次正面、3 次反面。每次抛掷为 伯努利试验,似然函数为 L(p)=p7(1p)3L(p) = p^7 (1-p)^3。我们可以直观比较几个候选值:若 p=0.5p = 0.5,似然值约为 0.00098;若 p=0.7p = 0.7,似然值约为 0.00222,后者约为前者的 2.3 倍,说明 p=0.7p = 0.7 更能解释观测数据。取对数得 (p)=7lnp+3ln(1p)\ell(p) = 7\ln p + 3\ln(1-p),求一阶条件:

ddp=7p31p=0    7(1p)=3p    p^MLE=0.7\frac{d\ell}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 \implies 7(1-p) = 3p \implies \hat{p}_{\text{MLE}} = 0.7

结果恰好等于样本频率,这并非偶然——伯努利试验中 MLE 总是等于样本均值。更一般地,在满足一定正则条件的参数模型中,MLE 具有 一致性(随着样本量增大收敛于真值)、渐近正态性(其抽样分布趋近于正态)和 渐近有效性(在所有一致估计量中达到最小的渐近方差,即达到 克拉美-罗下界)。这些优良的大样本性质是 MLE 得以在 计量经济学、生物统计学以及众多社会科学领域中被广泛采用的理论根基。

与其他领域的深度关联

似然函数的影响力远超参数估计本身,构成了统计推断多个分支的共享语言。在 贝叶斯统计 中,似然函数是连接先验信念与观测数据的核心纽带:根据 贝叶斯定理,参数的后验分布正比于先验分布与似然函数的乘积,即 P(θx)P(θ)×L(θx)P(\theta \mid x) \propto P(\theta) \times L(\theta \mid x)。在 假设检验 领域,似然比检验(Likelihood Ratio Test)利用约束模型与无约束模型的似然值之比构建检验统计量,其渐近分布为卡方分布,广泛应用于嵌套模型间的比较与模型选择。在 信息论 中,似然函数的曲率与 费雪信息(Fisher Information)紧密关联,后者度量了数据对未知参数的"信息含量",直接决定了 MLE 的渐近方差下界。在 计量经济学 中,从线性回归的 普通最小二乘法(在正态误差假设下等价于 MLE)到 Logit 模型Probit 模型托宾模型(Tobit)等非线性离散选择模型,MLE 均是最主要的参数估计手段。