ARTICLE

费希尔精确检验

费希尔精确检验(Fisher's exact test)是一种用于分析列联表(contingency table)的统计显著性检验方法,由英国统计学家罗纳德·费希尔(Ronald Fisher)于20世纪早期提出。与卡方检验不同,费希尔精确检验不依赖于大样本近似,而是在固定边际和(fixed marginal totals)的条件下,直接计算观测到的列联表出

浏览 3 更新 2025-10-26

费希尔精确检验(Fisher's exact test)是一种用于分析列联表(contingency table)的统计显著性检验方法,由英国统计学家罗纳德·费希尔(Ronald Fisher)于20世纪早期提出。与卡方检验不同,费希尔精确检验不依赖于大样本近似,而是在固定边际和(fixed marginal totals)的条件下,直接计算观测到的列联表出现的精确概率。因此,当样本量较小或单元格期望频数较低(通常认为期望频数小于5)时,费希尔精确检验是卡方检验的可靠替代方案。该检验在生物医学、遗传学、社会科学等领域有着广泛的应用,尤其适用于2×2列联表的分析场景。

基本原理

费希尔精确检验的核心思想是:在行合计与列合计都固定的前提下,所有可能的列联表排列构成一个超几何分布(hypergeometric distribution)。检验统计量即为观测到的列联表出现的概率,或者比观测结果更极端的所有列联表出现的概率之和。对于2×2列联表,设四个单元格的频数分别为a、b、c、d,边际合计分别为行合计R₁=a+b、R₂=c+d,列合计C₁=a+c、C₂=b+d,总样本数N=a+b+c+d。在零假设(行列变量独立)下,观测到特定列联表的概率为:

P=R1!R2!C1!C2!N!a!b!c!d!P = \frac{R₁!\,R₂!\,C₁!\,C₂!}{N!\,a!\,b!\,c!\,d!}

这一公式来源于超几何分布的概率质量函数。检验的p值即为观测到的概率加上所有比观测结果更极端的列联表概率之和(取决于备择假设的方向,分为单侧检验和双侧检验)。

单侧检验与双侧检验

费希尔精确检验可以做单侧或双侧检验,具体取决于研究问题。对于2×2列联表,单侧检验关注特定方向的关联(如比值比大于1或小于1),而双侧检验则关注任意方向的关联。计算双侧p值的常用方法有两种:一是将单侧p值乘以2(保守估计),二是将所有概率小于或等于观测概率的列联表概率相加(即精确双侧概率)。后一种方法更为精确,也是现代统计软件(如R、SPSS)的默认做法。

应用条件与优势

费希尔精确检验的最大优势在于其"精确"性质——它不依赖任何渐近近似,因此在任何样本量下都能提供准确的p值。具体而言,以下情形特别适合使用费希尔精确检验:(1)样本总量小于20;(2)任何单元格的期望频数小于5;(3)卡方检验的近似条件不满足时。此外,费希尔精确检验也适用于稀疏数据,即列联表中存在大量零单元格的情况。

然而,费希尔精确检验并非在所有情况下都优于卡方检验。当样本量较大时,精确计算的计算量会急剧增加,尽管现代计算机的发展已大幅缓解这一问题。对于大样本数据,卡方检验的结果与费希尔精确检验高度一致,但计算速度更快。

扩展到一般列联表

虽然费希尔精确检验最常用于2×2列联表,但其原理可以推广到r×c一般列联表。此时,计算所有可能的列联表排列并求和的计算量可能非常大。为此,统计学家发展了多种近似算法和蒙特卡洛模拟方法(Monte Carlo simulation)来估计精确p值。R语言中的fisher.test函数默认支持一般列联表的精确检验,但当表较大时会自动切换到模拟方法。

实际应用案例

在医学研究中,费希尔精确检验常用于临床试验的效果评价。例如,在一项比较新药与安慰剂的小型临床试验中,若样本量有限(如每组仅10例),研究者可以使用费希尔精确检验来分析治疗组与对照组之间的疗效差异是否具有统计学意义。在遗传学中,费希尔精确检验也被用于检测基因型与表型之间的关联,尤其是当某些基因型出现频率较低时。

与其他检验方法的比较

费希尔精确检验与皮尔逊卡方检验(Pearson's chi-squared test)是最常被对比的两种列联表分析方法。卡方检验的检验统计量近似服从卡方分布,这一近似在大样本下表现良好,但在小样本或稀疏表情况下会偏离。耶茨连续性校正(Yates' continuity correction)是对卡方检验的一种修正,旨在减少小样本下的偏差,但其保守性有时过强。与之相比,费希尔精确检验无需任何校正,直接给出精确概率值。

另一种相关方法是似然比检验(likelihood ratio test),也称为G检验。G检验在小样本下的表现优于未校正的卡方检验,但仍不如费希尔精确检验精确。在实际应用中,研究者应根据样本量、分布特征和计算资源综合选择最合适的检验方法。

争议与局限

费希尔精确检验虽然被广泛使用,但也存在一些争议。部分统计学家指出,该检验的"精确性"依赖于边际和固定的假设,而在实际实验中,行合计或列合计往往并非固定不变的。这一条件在生物学实验中相对容易满足(如固定实验组和对照组样本量),但在观察性研究中则不一定成立。此外,费希尔精确检验的保守性也是一个讨论焦点——由于超几何分布是离散的,检验的实际显著性水平通常小于名义显著性水平,这意味着检验的势(power)可能低于某些连续近似方法。

针对这些争议,现代统计学提供了多种替代方案,如布洛斯-科克伦精确检验(Boschloo's test)和巴纳德检验(Barnard's test),它们在某些条件下具有更高的检验势。这些方法是对费希尔精确检验的重要补充,但尚未在主流统计软件中得到广泛支持。

总结

费希尔精确检验是统计推断工具箱中的一项基础而重要的方法,它以精确的概率计算克服了卡方检验在小样本下的局限性。尽管存在边际固定假设和保守性等争议,该检验在医学、生物学、社会科学等领域的标准统计分析流程中仍占据不可替代的地位。理解其原理、适用条件和局限,有助于研究者在实际数据分析中做出正确的方法选择。