ARTICLE
似然比
似然比(Likelihood Ratio, LR)是统计学中用于衡量两类概率分布之间差异程度的重要指标,也是假设检验与诊断试验评估的核心工具。其基本思想简洁而深刻:在给定观测数据的前提下,比较两个竞争假设下数据出现的概率之比。若比值远大于一,表明数据更支持备择假设;若比值接近零,则更支持零假设。似然比检验(Likelihood Ratio Test, LRT
似然比(Likelihood Ratio, LR)是统计学中用于衡量两类概率分布之间差异程度的重要指标,也是假设检验与诊断试验评估的核心工具。其基本思想简洁而深刻:在给定观测数据的前提下,比较两个竞争假设下数据出现的概率之比。若比值远大于一,表明数据更支持备择假设;若比值接近零,则更支持零假设。似然比检验(Likelihood Ratio Test, LRT)正是基于这一原理构建的通用检验框架,广泛适用于参数与非参数模型、嵌套与非嵌套模型的比较,是数理统计中最具影响力的方法之一。
从数学定义来看,假设存在参数化概率模型,其概率密度函数或概率质量函数为 ,其中 为参数。设零假设为 ,备择假设为 ,且 。似然比统计量定义为
其中 为似然函数。分子是在零假设约束下似然函数的最大值,分母则是在无约束条件(备择假设)下的最大值。当 很小时,说明零假设的拟合效果远不如备择假设,因而应当拒绝零假设。实践中更常使用的是对数似然比统计量 。在正则条件下(参数在真实值附近可微、模型可识别、支撑集不依赖于参数等),该统计量渐近服从自由度为 的卡方分布(),其中 为零假设与备择假设之间参数维度的差值。这一渐近性质是似然比检验得以广泛应用的根本原因——它无需依赖小样本下的精确分布,即可在大样本情境下给出可靠的推断结论。
在医学诊断领域,似然比发挥着不可替代的作用。阳性似然比(Positive Likelihood Ratio, LR)定义为敏感度除以一减去特异度,即 ;阴性似然比(Negative Likelihood Ratio, LR)定义为一减去敏感度再除以特异度,即 。敏感度反映检测正确识别患病者的能力,特异度反映检测正确识别非患病者的能力。阳性似然比越大,表明阳性结果对确诊疾病的支撑力度越强;阴性似然比越接近零,表明阴性结果排除疾病的能力越高。临床实践中有一套广为接受的经验准则:LR 大于十可视为强有力的诊断证据,介于五与十之间为中等强度证据,介于二与五之间为较弱证据;LR 小于零点一则具有极高的排除价值,介于零点一与零点二之间为中等排除能力。通过贝叶斯定理,似然比将先验概率转化为后验概率,实现了定量化的临床决策支持。具体而言,验后比(Post-Test Odds)等于验前比(Pre-Test Odds)乘以似然比。这一简洁的公式使得医生能够在整合患者个体信息与检测结果的基础上做出更为精准的判断。举例来说,若某种疾病的验前概率为百分之二十,则验前比为零点二五;若某检测的阳性似然比为十,则验后比为二点五,对应的验后概率约为百分之七十一,较验前概率提升逾三倍。
在机器学习和统计建模领域,似然比同样占据重要地位。嵌套模型(Nested Model)的比较通常借助似然比检验完成。例如在线性回归中,若要判断是否应加入若干额外的预测变量,可将包含这些变量的模型作为备择模型,将不包含这些变量的简化模型作为零模型,计算两者似然比统计量并与相应自由度的卡方分布临界值比较。若检验显著,则表明添加的变量对模型拟合有统计意义上显著的改善。在广义线性模型(GLM)中,似然比检验用于比较不同链接函数或不同变量组合的拟合效果;在结构方程模型(SEM)中,它用于评估因子结构或路径约束的合理性;在时间序列分析中,它用于判定自回归阶数或季节效应是否显著。赤池信息准则(AIC)和贝叶斯信息准则(BIC)等常用模型选择指标,其核心思想亦与似然比密切相关——它们均在似然函数的基础上引入了对参数数量的惩罚项,以平衡拟合优度与模型复杂度。可以将信息准则视为经过惩罚调整的似然比,只不过比较对象不再是嵌套模型,而是任意候选模型集合。
信息论视角揭示了似然比与KL散度(Kullback–Leibler Divergence)之间的深刻联系。给定两个概率分布 和 ,KL散度定义为 ,其本质正是对数似然比在分布 下的期望值。这意味着似然比不仅是假设检验的基石,也是度量分布间差异的信息论工具。在自然语言处理中,基于似然比的决策规则被广泛应用于文本分类与语言模型评估;在语音识别领域,似然比用于声学模型的匹配与解码;在计算生物学中,似然比检验用于识别差异表达基因和检测进化选择压力。
似然比方法的优势在于其渐近最优性——奈曼—皮尔逊引理指出,在给定显著性水平下,似然比检验是所有检验中功效最高的。同时,它对广泛分布族具有良好的适应性。然而其局限性也不容忽视:小样本下渐近分布可能偏离真实分布,需借助Bootstrap重抽样或精确分布进行修正;模型假设错误(如分布设定错误或独立同分布前提不成立)会导致检验失真;对于非嵌套模型,标准似然比检验不再适用,需要采用Vuong检验等替代方法。总体而言,似然比作为统计推断的核心工具,兼具理论美感与实用价值,是每位数据科学从业者必须深入掌握的基本概念。