ARTICLE

似然推断

浏览 0 更新 2025-11-12

似然推断（Likelihood Inference）是统计学中基于似然函数进行参数估计和假设检验的一套系统方法。其核心思想源于英国统计学家罗纳德·费希尔（R. A. Fisher）在20世纪初提出的似然原理（Likelihood Principle），该原理认为：观测数据所包含的关于未知参数的全部信息，都浓缩在似然函数之中。与传统频率学派方法不同，似然推断并不依赖于重复抽样的长期频率性质，而是直接利用当前观测数据构造似然函数，进而对参数进行推断。这一范式在现代统计学、计量经济学、生物信息学、机器学习等领域均有广泛而深入的应用，构成了统计推断理论的重要基石。

似然函数与最大似然估计

设随机变量 $X$ 的概率密度函数（或概率质量函数）为 $f(x;\theta)$ ，其中 $\theta$ 为未知参数。给定一组独立同分布的观测数据 $x_1, x_2, \ldots, x_n$ ，似然函数定义为：

L(\theta) = \prod_{i=1}^{n} f(x_i;\theta)

似然函数衡量了在不同参数取值下当前观测数据出现的"可能性"。最大似然估计（Maximum Likelihood Estimation, MLE）即寻找使似然函数达到最大值的参数值：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta)

由于乘积形式在数学上处理不便，实际中通常对似然函数取对数，得到对数似然函数 $\ell(\theta) = \log L(\theta)$ ，然后通过求解得分方程（Score Equation） $\frac{\partial \ell(\theta)}{\partial \theta} = 0$ 来获得极大值点。在大多数正则条件下，MLE具有渐近一致性（Consistency）、渐近有效性（Efficiency）和渐近正态性（Asymptotic Normality）等优良性质，即当样本量趋于无穷时， $\hat{\theta}_{\text{MLE}}$ 依概率收敛到真实参数值 $\theta_0$ ，其渐近方差达到克拉美-罗下界（Cramér-Rao Lower Bound），且 $\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0)$ 渐近服从正态分布。对于许多常见分布（如正态分布、泊松分布、指数分布），MLE可得到显式解析解。然而对于更复杂的模型，通常需要借助数值优化方法，包括牛顿-拉夫逊法、拟牛顿法（如BFGS算法）和期望最大化（EM）算法等。

似然比检验与信息准则

基于似然函数可构造三种经典的假设检验统计量：似然比统计量（Likelihood Ratio, LR）、沃尔德统计量（Wald）和拉格朗日乘子统计量（Lagrange Multiplier, LM，也称得分检验）。其中似然比检验最为直观：设有原假设 $H_0: \theta \in \Theta_0$ 与备择假设 $H_1: \theta \in \Theta$ ，则LR统计量为：

\text{LR} = -2\left[\ell(\hat{\theta}_0) - \ell(\hat{\theta})\right]

其中 $\hat{\theta}_0$ 为在原假设约束下的最大似然估计， $\hat{\theta}$ 为无约束最大似然估计。在原假设成立且满足正则条件时，LR统计量渐近服从自由度为约束个数之差的卡方分布。这一性质使得似然比检验在模型选择、变量筛选等场景中具有广泛应用。此外，基于似然函数的模型选择准则也极为重要，其中最著名的当属赤池信息准则（AIC）和贝叶斯信息准则（BIC）。AIC定义为 $\text{AIC} = -2\ell(\hat{\theta}) + 2k$ ，其中 $k$ 为参数个数；BIC则使用 $\log n$ 作为惩罚因子。这两类准则在模型复杂度与拟合优度之间寻求平衡，是数据驱动模型选择的重要工具。

信息矩阵与标准误

似然推断的另一重要概念是费希尔信息量（Fisher Information），它度量了数据关于未知参数的平均信息含量。费希尔信息矩阵定义为对数似然函数二阶偏导数的负期望：

I(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta^\top}\right]

其逆矩阵 $I(\theta)^{-1}$ 即为MLE渐近协方差矩阵，对角线元素的平方根可用于构造参数的渐近标准误和置信区间。在应用中，通常使用观测信息矩阵（即二阶导数矩阵在MLE处的负值）代替期望信息矩阵，二者在大样本下等价。费希尔信息量还在实验设计（Optimal Design）中发挥关键作用：通过最大化信息矩阵的行列式（D-最优设计）或迹（A-最优设计），可以优化实验方案以获取最高效的参数估计。

拓展与前沿应用

似然推断的思想延伸出了诸多现代统计方法。在贝叶斯统计中，似然函数是连接先验分布与后验分布的桥梁：后验分布 $\propto$ 先验分布 $\times$ 似然函数。在缺失数据问题中，EM算法通过迭代地计算条件期望（E步）和最大化似然函数（M步）来处理隐变量模型，广泛应用于混合模型、因子分析和隐马尔可夫模型。在高维统计中，带惩罚的似然方法（如Lasso回归的 $L_1$ 惩罚、SCAD、MCP）通过在似然函数上添加正则项，实现变量选择和参数估计的同时进行。在生存分析领域，Cox比例风险模型通过部分似然（Partial Likelihood）巧妙地规避了基线风险函数的估计，成为医学研究中最为常用的回归模型之一。在时间序列分析中，基于正态似然的ARIMA模型估计和状态空间模型的卡尔曼滤波似然估计都是标准方法。

局限性与注意事项

尽管似然推断具有坚实的理论基础和广泛的适用性，但在实际应用中也存在一些需要注意的问题。首先，当样本量较小时，MLE可能存在偏倚，此时可考虑使用偏倚校正方法（如Firth校正或Bootstrap偏差校正）。其次，似然函数对模型设定较为敏感，若概率分布假设与真实数据生成过程存在偏差，推断结果可能不可靠，这也是稳健统计方法发展的动因之一。此外，在高维参数空间中（当参数个数 $p$ 接近或超过样本量 $n$ 时），MLE的渐近性质可能退化，需要借助正则化或降维技术加以应对。最后，对于复杂模型，似然函数的解析表达式往往难以获得，需要借助数值优化算法或模拟方法（如马尔可夫链蒙特卡罗方法）进行计算，这要求研究者具备一定的计算技能和数值分析知识。

综上所述，似然推断作为统计推断的核心范式之一，通过似然函数这一统一框架将参数估计、假设检验和置信区间构造有机整合。从经典的极大似然估计到当代的高维惩罚似然方法，似然推断的理论与方法体系不断演进，持续为数据分析与科学发现提供强有力的工具支撑。随着计算能力的提升和大数据时代的到来，似然推断方法在深度学习的变分推断、生成对抗网络的训练等前沿领域也展现出新的活力，其理论与应用仍有广阔的拓展空间。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。