ARTICLE

log-likelihood function

对数似然函数 对数似然函数(log-likelihood function)是统计学和计量经济学中的一个核心概念,指的是对似然函数取自然对数后得到的函数。它在参数估计、假设检验和模型选择中扮演着基础性角色。对数似然函数的引入并非仅仅为了数学上的便利,而是基于深刻的理论考量和实际计算需求。 定义与基本形式 设随机样本 X_1, X_2, , X_n 独立同分布

浏览 0 更新 2025-11-21

对数似然函数

对数似然函数(log-likelihood function)是统计学和计量经济学中的一个核心概念,指的是对似然函数取自然对数后得到的函数。它在参数估计、假设检验和模型选择中扮演着基础性角色。对数似然函数的引入并非仅仅为了数学上的便利,而是基于深刻的理论考量和实际计算需求。

定义与基本形式

设随机样本 X1,X2,,Xn X_1, X_2, \ldots, X_n 独立同分布于某个概率分布族 {f(x;θ):θΘ} \{f(x;\theta):\theta\in\Theta\} ,其中 θ \theta 为待估参数,f(x;θ) f(x;\theta) 为概率密度函数(连续情形)或概率质量函数(离散情形)。似然函数定义为:

L(θ;x)=i=1nf(xi;θ)L(\theta; \mathbf{x}) = \prod_{i=1}^n f(x_i;\theta)

对数似然函数则定义为似然函数的自然对数:

(θ;x)=lnL(θ;x)=i=1nlnf(xi;θ)\ell(\theta; \mathbf{x}) = \ln L(\theta; \mathbf{x}) = \sum_{i=1}^n \ln f(x_i;\theta)

这一转换将乘积形式化为求和形式,极大地简化了数学运算。在独立同分布的样本假设下,对数似然函数是各观测值对数密度贡献的总和。

对数似然函数的核心作用

极大似然估计

极大似然估计(Maximum Likelihood Estimation, MLE)是统计学中最广泛使用的参数估计方法之一。由于自然对数是严格单调递增函数,最大化似然函数 L(θ) L(\theta) 与最大化对数似然函数 (θ) \ell(\theta) 在参数空间上是等价的,即:

θ^MLE=argmaxθΘL(θ;x)=argmaxθΘ(θ;x)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta\in\Theta} L(\theta; \mathbf{x}) = \arg\max_{\theta\in\Theta} \ell(\theta; \mathbf{x})

在实际操作中,通常求解对数似然函数的一阶条件(score equation):

(θ)θ=i=1nlnf(xi;θ)θ=0\frac{\partial \ell(\theta)}{\partial \theta} = \sum_{i=1}^n \frac{\partial \ln f(x_i;\theta)}{\partial \theta} = 0

该方程的解即为极大似然估计量。对数似然函数的使用使得求导运算从复杂的分式运算转化为简洁的求和运算。

得分函数与Fisher信息量

对数似然函数的一阶导数被称为得分函数(score function):

S(θ)=(θ)θS(\theta) = \frac{\partial \ell(\theta)}{\partial \theta}

在正则条件下,得分函数的期望值为零,即 E[S(θ)]=0 \mathbb{E}[S(\theta)] = 0 。得分函数的方差即为Fisher信息量(Fisher Information):

I(θ)=E[((θ)θ)2]=E[2(θ)θ2]\mathcal{I}(\theta) = \mathbb{E}\left[\left(\frac{\partial \ell(\theta)}{\partial \theta}\right)^2\right] = -\mathbb{E}\left[\frac{\partial^2 \ell(\theta)}{\partial \theta^2}\right]

Fisher信息量衡量了数据关于参数 θ \theta 所携带的信息量,在Cramér-Rao下界中扮演关键角色:任何无偏估计量的方差至少为 1/I(θ) 1/\mathcal{I}(\theta)

似然比检验

对数似然函数在假设检验中同样具有重要地位。似然比检验(Likelihood Ratio Test, LRT)的检验统计量为:

Λ=2[(θ0)(θ^)]\Lambda = -2\left[\ell(\theta_0) - \ell(\hat{\theta})\right]

其中 (θ0) \ell(\theta_0) 为零假设下约束模型的对数似然值,(θ^) \ell(\hat{\theta}) 为无约束模型的对数似然值。在原假设下,该统计量渐近服从自由度为约束个数的卡方分布。这一性质使得似然比检验成为比较嵌套模型的有力工具。

在模型选择中的应用

AIC与BIC

基于对数似然函数,学术界发展出了多种信息准则用于模型选择。赤池信息准则(Akaike Information Criterion, AIC)定义为:

AIC=2(θ^)+2k\text{AIC} = -2\ell(\hat{\theta}) + 2k

贝叶斯信息准则(Bayesian Information Criterion, BIC)定义为:

BIC=2(θ^)+klnn\text{BIC} = -2\ell(\hat{\theta}) + k\ln n

其中 k k 为模型中参数的个数,n n 为样本量。这两类准则均在对数似然值的基础上引入了对模型复杂度的惩罚项,AIC的惩罚较轻(2k 2k ),倾向于选择预测能力较强的模型;BIC的惩罚更重(klnn k\ln n ),在大样本下倾向于选择更简洁的真实模型。

典型示例

正态分布的对数似然函数

XiN(μ,σ2) X_i \sim \mathcal{N}(\mu, \sigma^2) i=1,,n i=1,\ldots,n ,则对数似然函数为:

(μ,σ2)=n2ln(2π)n2lnσ212σ2i=1n(xiμ)2\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2

求偏导可得MLE:μ^=xˉ \hat{\mu} = \bar{x} σ^2=1ni=1n(xixˉ)2 \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2

Bernoulli分布的对数似然函数

XiBernoulli(p) X_i \sim \text{Bernoulli}(p) ,则:

(p)=i=1n[xilnp+(1xi)ln(1p)]=nxˉlnp+n(1xˉ)ln(1p)\ell(p) = \sum_{i=1}^n \left[x_i\ln p + (1-x_i)\ln(1-p)\right] = n\bar{x}\ln p + n(1-\bar{x})\ln(1-p)

MLE为 p^=xˉ \hat{p} = \bar{x} ,即样本均值。

性质与渐近理论

极大似然估计量在正则条件下具有优异的渐近性质:一致性(consistency)、渐近正态性(asymptotic normality)和渐近有效性(asymptotic efficiency)。具体地,

n(θ^MLEθ0)dN(0,I(θ0)1)\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} \mathcal{N}\left(0, \mathcal{I}(\theta_0)^{-1}\right)

其中 θ0 \theta_0 为真实参数值。这些性质使得基于对数似然函数的推断方法在应用统计学中占据主导地位。

正则条件与假设

为了保证对数似然函数相关推断的有效性,需要满足一组正则条件(regularity conditions)。这些条件包括:参数空间是开集;概率密度函数在参数空间上关于参数可微;得分函数的期望存在且为零;Fisher信息矩阵正定且有限;以及对数似然函数的二阶导数存在且满足某些一致连续性条件。在实际应用中,大多数常见分布(如正态分布、指数族分布)均满足这些条件,但在一些非标准情形下(如参数位于边界、模型不可识别时),需要谨慎使用标准渐近理论。

广义线性模型中的应用

在广义线性模型(Generalized Linear Model, GLM)中,对数似然函数扮演着核心角色。GLM通过链接函数将线性预测器与响应变量的均值联系起来,其对数似然函数基于指数族分布构建。以逻辑回归(logistic regression)为例,响应变量 YiBernoulli(pi) Y_i \sim \text{Bernoulli}(p_i) ,链接函数为 logit 变换 ln(pi/(1pi))=xiTβ \ln(p_i/(1-p_i)) = \mathbf{x}_i^T \boldsymbol{\beta} ,则对数似然函数为:

(β)=i=1n[yixiTβln(1+exiTβ)]\ell(\boldsymbol{\beta}) = \sum_{i=1}^n \left[ y_i \mathbf{x}_i^T \boldsymbol{\beta} - \ln(1 + e^{\mathbf{x}_i^T \boldsymbol{\beta}}) \right]

该函数关于参数 β \boldsymbol{\beta} 是全局凹的,保证了MLE的唯一性和数值求解的稳定性。

计算方面的考量

从数值计算的角度看,对数似然函数的使用避免了似然函数值在计算机中可能出现的下溢(underflow)问题。当样本量较大时,原始似然函数的乘积项可能小到超出浮点数的表示范围,而取对数后求和则有效避免了这一问题。此外,许多优化算法(如牛顿-拉夫森法、拟牛顿法)在处理光滑的目标函数时效率更高,而对数似然函数通常具有良好的光滑性和凹性。

数值优化方法

在实际应用中,极大化对数似然函数通常需要借助数值优化算法。常用的方法包括:牛顿-拉夫森法(Newton-Raphson method),利用一阶导数和Hessian矩阵进行迭代更新;Fisher得分法(Fisher scoring),用Fisher信息矩阵替代Hessian矩阵;以及BFGS等拟牛顿法。在大规模数据场景下,随机梯度下降(SGD)及其变体也被广泛用于对数似然函数的优化。

与其他统计概念的联系

对数似然函数与多个重要的统计概念存在深刻联系。首先,Kullback-Leibler散度(KL散度)可以表示为两个分布的对数似然比期望值,最小化KL散度等价于最大化对数似然函数。其次,Bayes定理中,后验分布正比于先验分布与似然函数的乘积,取对数后可转化为加法形式,这一特性在贝叶斯计算中极为有用。再次,EM算法(Expectation-Maximization Algorithm)的核心步骤之一就是计算完全数据对数似然函数的条件期望。

总结

对数似然函数是连接概率模型与数据的桥梁。它不仅是极大似然估计的理论基础,也是似然比检验、信息准则、Fisher信息量等众多统计工具的核心出发点。从正态分布到广义线性模型,从时间序列分析到机器学习,对数似然函数的应用贯穿了整个现代统计学和计量经济学的方法体系。深刻理解对数似然函数,是掌握现代统计推断方法的关键一步。