ARTICLE

对数似然函数

对数似然函数 (Log-Likelihood Function) 对数似然函数 (Log-Likelihood Function),在统计学和计量经济学中,是指对似然函数 (Likelihood Function) 取自然对数后得到的函数。它在参数估计,特别是最大似然估计 (Maximum Likelihood Estimation, MLE) 方法中扮演着

浏览 61 更新 2025-10-25

对数似然函数 (Log-Likelihood Function)

对数似然函数 (Log-Likelihood Function),在统计学计量经济学中,是指对似然函数 (Likelihood Function) 取自然对数后得到的函数。它在参数估计,特别是最大似然估计 (Maximum Likelihood Estimation, MLE) 方法中扮演着至关重要的角色。虽然直接最大化似然函数和最大化对数似然函数会得到完全相同的结果,但在数学和计算上,使用对数似然函数通常要方便得多。

我们将对数似然函数通常记为 (θx) \ell(\theta | \mathbf{x}) logL(θx) \log L(\theta | \mathbf{x}) ,其定义为:

(θx)=log(L(θx))\ell(\theta | \mathbf{x}) = \log(L(\theta | \mathbf{x}))

其中:

  • L(θx) L(\theta | \mathbf{x}) 是给定数据集 x \mathbf{x} 时,关于参数 θ \theta 似然函数
  • log \log 表示自然对数 (Natural Logarithm)。
  • θ \theta 是我们希望估计的模型参数(或参数向量)。
  • x \mathbf{x} 是观测到的数据集,通常表示为 (x1,x2,,xn) (x_1, x_2, \dots, x_n)

核心原理:对数的单调性

使用对数似然函数的理论基础在于对数函数是一个严格的 单调递增函数 (Monotonically Increasing Function)。这意味着,如果 a>b a > b ,那么 log(a)>log(b) \log(a) > \log(b)

这一性质保证了似然函数 L(θx) L(\theta | \mathbf{x}) 的最大值点与对数似然函数 (θx) \ell(\theta | \mathbf{x}) 的最大值点是 完全相同的。换言之,找到使似然函数最大的参数 θ^ \hat{\theta} ,等价于找到使对数似然函数最大的参数 θ^ \hat{\theta}

在数学上,这可以表示为:

argmaxθL(θx)=argmaxθ(θx)\arg\max_{\theta} L(\theta | \mathbf{x}) = \arg\max_{\theta} \ell(\theta | \mathbf{x})

因此,我们可以通过处理更简单的对数似然函数来解决最大化问题,而不用担心会改变最终的参数估计结果。

为什么使用对数似然函数?

将似然函数转换为对数形式带来了几个关键的优势,使其成为现代统计推断的标准做法。

一、 将乘积转化为和(简化计算)

在统计建模中,我们通常假设样本观测值是独立同分布 (independent and identically distributed, i.i.d.) 的。根据概率论,对于独立事件,其联合概率是各自概率的乘积。因此,对于一组独立的观测数据 x=(x1,x2,,xn) \mathbf{x} = (x_1, x_2, \dots, x_n) ,似然函数是每个观测点概率(或概率密度) 的连乘积:

L(θx)=i=1nP(xiθ)L(\theta | \mathbf{x}) = \prod_{i=1}^{n} P(x_i | \theta)

对这个复杂的乘积形式求导以寻找最大值是非常困难的(需要反复使用乘法法则)。然而,通过取对数,我们可以利用对数的基本性质 log(ab)=log(a)+log(b) \log(ab) = \log(a) + \log(b) ,将连乘积转化为连加和:

(θx)=log(i=1nP(xiθ))=i=1nlog(P(xiθ))\ell(\theta | \mathbf{x}) = \log\left(\prod_{i=1}^{n} P(x_i | \theta)\right) = \sum_{i=1}^{n} \log(P(x_i | \theta))

对和函数求导远比对乘积函数求导简单。这极大地简化了寻找最大似然估计值的解析和数值计算过程。

二、 增强数值稳定性(避免下溢)

概率值 P(xiθ) P(x_i | \theta) 总是介于0和1之间。当样本量 n n 很大时,将大量的小数相乘,其结果会迅速趋近于零。在计算机中,这个结果可能会因为超出浮点数的表示范围而变成0,这种情况被称为 数值下溢 (Numerical Underflow)。一旦似然函数的值被记为0,就无法比较不同参数 θ \theta 对应的似然大小,优化过程也会失败。

对数变换完美地解决了这个问题。一个很小的正数(如 1050 10^{-50} )的对数是一个绝对值较大的负数(log(1050)115.13 \log(10^{-50}) \approx -115.13 ),这个数值在计算机中可以被精确地存储和处理。将这些对数值相加,可以得到一个在合理范围内的数值,从而保证了计算过程的稳定性和精确性。

三、 与指数族分布的天然契合

许多在统计学中最重要的概率分布,例如正态分布泊松分布二项分布指数分布伽马分布,都属于一个更广泛的类别,称为 指数族分布 (Exponential Family)。这些分布的概率密度函数 (PDF) 或概率质量函数 (PMF) 常常包含指数项,形如 f(xθ)=h(x)exp(η(θ)T(x)A(θ)) f(x|\theta) = h(x) \exp(\eta(\theta) \cdot T(x) - A(\theta))

对这类函数取自然对数,可以直接消去指数函数 exp() \exp(\cdot) ,得到一个关于参数 θ \theta 的线性或更简单的函数形式,使得后续的求导和分析变得异常简洁。

示例:伯努利分布的对数似然函数

我们通过一个简单的例子来展示对数似然函数的威力。假设我们进行了一系列伯努利试验(例如,抛硬币),其中每次试验成功的概率为 p p 。我们观测到 n n 次试验的结果 x=(x1,,xn) \mathbf{x} = (x_1, \dots, x_n) ,其中 xi=1 x_i=1 表示成功,xi=0 x_i=0 表示失败。

  1. 单次试验的概率质量函数 (PMF)

P(xip)=pxi(1p)1xi P(x_i|p) = p^{x_i} (1-p)^{1-x_i}

  1. 构建似然函数:由于试验是独立的,总的似然函数是所有单次试验概率的乘积。
L(px)=i=1npxi(1p)1xi=pxi(1p)nxiL(p | \mathbf{x}) = \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i} = p^{\sum x_i} (1-p)^{n - \sum x_i}

k=i=1nxi k = \sum_{i=1}^{n} x_i 为成功的次数,则似然函数可简化为:

L(px)=pk(1p)nkL(p | \mathbf{x}) = p^k (1-p)^{n-k}
  1. 构建对数似然函数:对 L(px) L(p | \mathbf{x}) 取自然对数。
(px)=log(pk(1p)nk)=log(pk)+log((1p)nk)\ell(p | \mathbf{x}) = \log(p^k (1-p)^{n-k}) = \log(p^k) + \log((1-p)^{n-k})
(px)=klog(p)+(nk)log(1p)\ell(p | \mathbf{x}) = k \log(p) + (n-k) \log(1-p)
  1. 最大化对数似然函数:为了找到最大似然估计值 p^ \hat{p} ,我们对 (px) \ell(p | \mathbf{x}) 关于 p p 求一阶导数,并令其等于0。这个导数也称为 得分函数 (Score Function)
ddp=kpnk1p\frac{d\ell}{dp} = \frac{k}{p} - \frac{n-k}{1-p}

令导数为0:

kpnk1p=0    kp=nk1p\frac{k}{p} - \frac{n-k}{1-p} = 0 \implies \frac{k}{p} = \frac{n-k}{1-p}
k(1p)=p(nk)    kkp=npkp    k=npk(1-p) = p(n-k) \implies k - kp = np - kp \implies k = np

解得:

p^MLE=kn\hat{p}_{MLE} = \frac{k}{n}

这个结果非常直观:成功的概率的最佳估计就是样本中成功的频率。这个推导过程因为使用了对数似然函数而变得非常清晰和简单。

主要应用

对数似然函数是现代统计推断的基石,其应用包括:

  • 最大似然估计 (MLE):这是其最直接的应用,通过最大化对数似然函数来估计模型参数。
  • 似然比检验 (Likelihood-Ratio Test, LRT):通过比较有约束模型和无约束模型的对数似然值来检验关于参数的假设。检验统计量通常是 2 -2 倍的对数似然比。
  • 模型选择准则:诸如赤池信息量准则 (AIC) 和贝叶斯信息准则 (BIC) 等广泛使用的模型选择工具,都直接使用最大化的对数似然值作为其计算的核心部分,并对其加上一个关于模型复杂度的惩罚项。
  • 信息论:对数似然函数与交叉熵 (Cross-Entropy) 和KL散度 (Kullback-Leibler Divergence) 等概念密切相关。在机器学习的分类问题中,最大化对数似然等价于最小化模型预测分布与真实数据分布之间的交叉熵。