ARTICLE

似然推断

似然推断(Likelihood Inference)是统计学中基于似然函数进行参数估计和假设检验的一套系统方法。其核心思想源于英国统计学家罗纳德·费希尔(R. A. Fisher)在20世纪初提出的似然原理(Likelihood Principle),该原理认为:观测数据所包含的关于未知参数的全部信息,都浓缩在似然函数之中。与传统频率学派方法不同,似然推断并

浏览 0 更新 2025-11-12

似然推断(Likelihood Inference)是统计学中基于似然函数进行参数估计和假设检验的一套系统方法。其核心思想源于英国统计学家罗纳德·费希尔(R. A. Fisher)在20世纪初提出的似然原理(Likelihood Principle),该原理认为:观测数据所包含的关于未知参数的全部信息,都浓缩在似然函数之中。与传统频率学派方法不同,似然推断并不依赖于重复抽样的长期频率性质,而是直接利用当前观测数据构造似然函数,进而对参数进行推断。这一范式在现代统计学、计量经济学、生物信息学、机器学习等领域均有广泛而深入的应用,构成了统计推断理论的重要基石。

似然函数与最大似然估计

设随机变量 X X 的概率密度函数(或概率质量函数)为 f(x;θ) f(x;\theta) ,其中 θ \theta 为未知参数。给定一组独立同分布的观测数据 x1,x2,,xn x_1, x_2, \ldots, x_n ,似然函数定义为:

L(θ)=i=1nf(xi;θ)L(\theta) = \prod_{i=1}^{n} f(x_i;\theta)

似然函数衡量了在不同参数取值下当前观测数据出现的"可能性"。最大似然估计(Maximum Likelihood Estimation, MLE)即寻找使似然函数达到最大值的参数值:

θ^MLE=argmaxθL(θ)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta)

由于乘积形式在数学上处理不便,实际中通常对似然函数取对数,得到对数似然函数 (θ)=logL(θ) \ell(\theta) = \log L(\theta) ,然后通过求解得分方程(Score Equation)(θ)θ=0 \frac{\partial \ell(\theta)}{\partial \theta} = 0 来获得极大值点。在大多数正则条件下,MLE具有渐近一致性(Consistency)、渐近有效性(Efficiency)和渐近正态性(Asymptotic Normality)等优良性质,即当样本量趋于无穷时,θ^MLE \hat{\theta}_{\text{MLE}} 依概率收敛到真实参数值 θ0 \theta_0 ,其渐近方差达到克拉美-罗下界(Cramér-Rao Lower Bound),且 n(θ^MLEθ0) \sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) 渐近服从正态分布。对于许多常见分布(如正态分布、泊松分布、指数分布),MLE可得到显式解析解。然而对于更复杂的模型,通常需要借助数值优化方法,包括牛顿-拉夫逊法、拟牛顿法(如BFGS算法)和期望最大化(EM)算法等。

似然比检验与信息准则

基于似然函数可构造三种经典的假设检验统计量:似然比统计量(Likelihood Ratio, LR)、沃尔德统计量(Wald)和拉格朗日乘子统计量(Lagrange Multiplier, LM,也称得分检验)。其中似然比检验最为直观:设有原假设 H0:θΘ0 H_0: \theta \in \Theta_0 与备择假设 H1:θΘ H_1: \theta \in \Theta ,则LR统计量为:

LR=2[(θ^0)(θ^)]\text{LR} = -2\left[\ell(\hat{\theta}_0) - \ell(\hat{\theta})\right]

其中 θ^0 \hat{\theta}_0 为在原假设约束下的最大似然估计,θ^ \hat{\theta} 为无约束最大似然估计。在原假设成立且满足正则条件时,LR统计量渐近服从自由度为约束个数之差的卡方分布。这一性质使得似然比检验在模型选择、变量筛选等场景中具有广泛应用。此外,基于似然函数的模型选择准则也极为重要,其中最著名的当属赤池信息准则(AIC)和贝叶斯信息准则(BIC)。AIC定义为 AIC=2(θ^)+2k \text{AIC} = -2\ell(\hat{\theta}) + 2k ,其中 k k 为参数个数;BIC则使用 logn \log n 作为惩罚因子。这两类准则在模型复杂度与拟合优度之间寻求平衡,是数据驱动模型选择的重要工具。

信息矩阵与标准误

似然推断的另一重要概念是费希尔信息量(Fisher Information),它度量了数据关于未知参数的平均信息含量。费希尔信息矩阵定义为对数似然函数二阶偏导数的负期望:

I(θ)=E[2(θ)θθ]I(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta^\top}\right]

其逆矩阵 I(θ)1 I(\theta)^{-1} 即为MLE渐近协方差矩阵,对角线元素的平方根可用于构造参数的渐近标准误和置信区间。在应用中,通常使用观测信息矩阵(即二阶导数矩阵在MLE处的负值)代替期望信息矩阵,二者在大样本下等价。费希尔信息量还在实验设计(Optimal Design)中发挥关键作用:通过最大化信息矩阵的行列式(D-最优设计)或迹(A-最优设计),可以优化实验方案以获取最高效的参数估计。

拓展与前沿应用

似然推断的思想延伸出了诸多现代统计方法。在贝叶斯统计中,似然函数是连接先验分布与后验分布的桥梁:后验分布 \propto 先验分布 × \times 似然函数。在缺失数据问题中,EM算法通过迭代地计算条件期望(E步)和最大化似然函数(M步)来处理隐变量模型,广泛应用于混合模型、因子分析和隐马尔可夫模型。在高维统计中,带惩罚的似然方法(如Lasso回归的 L1 L_1 惩罚、SCAD、MCP)通过在似然函数上添加正则项,实现变量选择和参数估计的同时进行。在生存分析领域,Cox比例风险模型通过部分似然(Partial Likelihood)巧妙地规避了基线风险函数的估计,成为医学研究中最为常用的回归模型之一。在时间序列分析中,基于正态似然的ARIMA模型估计和状态空间模型的卡尔曼滤波似然估计都是标准方法。

局限性与注意事项

尽管似然推断具有坚实的理论基础和广泛的适用性,但在实际应用中也存在一些需要注意的问题。首先,当样本量较小时,MLE可能存在偏倚,此时可考虑使用偏倚校正方法(如Firth校正或Bootstrap偏差校正)。其次,似然函数对模型设定较为敏感,若概率分布假设与真实数据生成过程存在偏差,推断结果可能不可靠,这也是稳健统计方法发展的动因之一。此外,在高维参数空间中(当参数个数 p p 接近或超过样本量 n n 时),MLE的渐近性质可能退化,需要借助正则化或降维技术加以应对。最后,对于复杂模型,似然函数的解析表达式往往难以获得,需要借助数值优化算法或模拟方法(如马尔可夫链蒙特卡罗方法)进行计算,这要求研究者具备一定的计算技能和数值分析知识。

综上所述,似然推断作为统计推断的核心范式之一,通过似然函数这一统一框架将参数估计、假设检验和置信区间构造有机整合。从经典的极大似然估计到当代的高维惩罚似然方法,似然推断的理论与方法体系不断演进,持续为数据分析与科学发现提供强有力的工具支撑。随着计算能力的提升和大数据时代的到来,似然推断方法在深度学习的变分推断、生成对抗网络的训练等前沿领域也展现出新的活力,其理论与应用仍有广阔的拓展空间。