ARTICLE

费雪精确检验

费雪精确检验 (Fisher's Exact Test) 费雪精确检验 (Fisher's Exact Test) 是由英国统计学家Ronald Fisher于20世纪30年代提出的一种假设检验方法,专门用于分析列联表 (Contingency Table) 中两个分类变量之间的关联性。与卡方检验(Chi-squared Test)不同,费雪精确检验不依赖于

浏览 3 更新 2025-10-26

费雪精确检验 (Fisher's Exact Test)

费雪精确检验 (Fisher's Exact Test) 是由英国统计学家Ronald Fisher于20世纪30年代提出的一种假设检验方法,专门用于分析列联表 (Contingency Table) 中两个分类变量之间的关联性。与卡方检验(Chi-squared Test)不同,费雪精确检验不依赖于渐进近似,而是通过计算精确的概率值来进行推断,因此特别适用于小样本期望频数较小的情形。

背景与动机

在分析2×2列联表时,研究者通常使用卡方检验来判断两个变量之间是否存在统计上显著的关联。然而,卡方检验的统计量近似服从卡方分布,这一近似在样本量较大时效果良好,但当样本量较小或列联表中某个单元格的期望频数低于5时,卡方分布的近似效果会显著下降,导致检验结果的可靠性降低。

费雪精确检验正是为了填补这一空白而提出的。它直接在给定边际频数(行总计与列总计)不变的条件下,计算观测到的表格(以及所有更极端表格)出现的精确概率,从而避免了近似误差。由于计算量较大(需要枚举所有可能的表格构型),费雪精确检验在早期统计实践中主要局限于2×2表,但随着计算机技术的发展,现代统计软件已能高效地将其推广至更大规模的列联表。

核心原理:超几何分布

费雪精确检验的核心思想建立在超几何分布 (Hypergeometric Distribution) 的基础上。考虑一个2×2列联表,其结构如下:

| | 成功 (Success) | 失败 (Failure) | 行总计 | | :--- | :---: | :---: | :---: | | 组1 | a a | b b | a+b=R1 a + b = R_1 | | 组2 | c c | d d | c+d=R2 c + d = R_2 | | 列总计 | a+c=C1 a + c = C_1 | b+d=C2 b + d = C_2 | N N |

其中,a a b b c c d d 是四个单元格的观测频数,R1 R_1 R2 R_2 为行边际,C1 C_1 C2 C_2 为列边际,N N 为总样本量。

费雪精确检验的零假设 (H0 H_0 ) 是:行变量与列变量之间相互独立。在零假设成立且边际频数固定不变的条件下,单元格 a a 的取值服从超几何分布。具体地,出现特定表格(即特定 a a 值)的概率为:

P(a)=(R1a)(R2c)(NC1)=(R1!)(R2!)(C1!)(C2!)N!a!b!c!d!P(a) = \frac{\binom{R_1}{a} \binom{R_2}{c}}{\binom{N}{C_1}} = \frac{(R_1!)(R_2!)(C_1!)(C_2!)}{N! \cdot a! \cdot b! \cdot c! \cdot d!}

这个公式的直观含义是:从总数为 N N 的样本中,有 C1 C_1 个"成功"个体,我们随机抽取 R1 R_1 个个体组成组1,那么组1中恰好有 a a 个"成功"个体的概率正是由超几何分布给出的。

检验步骤与p值计算

费雪精确检验的p值计算并非仅基于单一表格的概率,而是将所有与观测表格同样极端或更极端的表格的概率相加。具体步骤如下:

  1. 确定观测表格:记录原始数据的2×2列联表,获取 a a b b c c d d 的值。
  2. 计算观测表格的概率:利用超几何分布的公式,计算当前观测表格出现的概率 Pobs P_{\text{obs}}
  3. 枚举所有可能表格:在固定行边际和列边际的条件下,单元格 a a 的取值范围是从 max(0,C1R2) \max(0, C_1 - R_2) min(R1,C1) \min(R_1, C_1) 的整数。对于 a a 的每一个可能取值,可以唯一确定整个表格,从而计算出对应的概率。
  4. 累加极端概率:将所有概率小于或等于 Pobs P_{\text{obs}} 的表格的概率累加起来。这一累加和即为p值

根据研究问题的方向性,费雪精确检验可以分为:

  • 单侧检验 (One-tailed):仅计算某一方向上比观测表格更极端的概率。例如,若备择假设为组1的成功率大于组2,则仅累加 a a 大于或等于观测值的表格概率。
  • 双侧检验 (Two-tailed):计算两个方向上比观测表格更极端的概率之和。对于双侧检验,通常的惯例是将所有概率小于或等于 Pobs P_{\text{obs}} 的表格的概率相加。

示例

假设我们进行了一项临床试验,比较两种药物(药物A与药物B)对某疾病的疗效。结果如下:

| | 有效 | 无效 | 行总计 | | :--- | :---: | :---: | :---: | | 药物A | 3 | 1 | 4 | | 药物B | 1 | 3 | 4 | | 列总计 | 4 | 4 | 8 |

该表格中,a=3 a=3 b=1 b=1 c=1 c=1 d=3 d=3 。固定边际 R1=4 R_1=4 R2=4 R_2=4 C1=4 C_1=4 C2=4 C_2=4 N=8 N=8 a a 的取值范围是从 max(0,44)=0 \max(0, 4-4)=0 min(4,4)=4 \min(4, 4)=4 。所有可能的表格及其概率如下:

  • a=0 a=0 P=4!4!4!4!8!0!4!4!0!=1.43% P = \frac{4!4!4!4!}{8! \cdot 0!4!4!0!} = 1.43\%
  • a=1 a=1 P=4!4!4!4!8!1!3!3!1!=22.86% P = \frac{4!4!4!4!}{8! \cdot 1!3!3!1!} = 22.86\%
  • a=2 a=2 P=4!4!4!4!8!2!2!2!2!=51.43% P = \frac{4!4!4!4!}{8! \cdot 2!2!2!2!} = 51.43\%
  • a=3 a=3 P=4!4!4!4!8!3!1!1!3!=22.86% P = \frac{4!4!4!4!}{8! \cdot 3!1!1!3!} = 22.86\%
  • a=4 a=4 P=4!4!4!4!8!4!0!0!4!=1.43% P = \frac{4!4!4!4!}{8! \cdot 4!0!0!4!} = 1.43\%

观测表格为 a=3 a=3 Pobs=22.86% P_{\text{obs}} = 22.86\%

单侧检验(备择假设:药物A比药物B更有效,即 a a 更大):p值 = P(a=3)+P(a=4)=22.86%+1.43%=24.29% P(a=3) + P(a=4) = 22.86\% + 1.43\% = 24.29\%

双侧检验:将所有概率小于或等于 Pobs=22.86% P_{\text{obs}} = 22.86\% 的表格概率相加,即 a=0 a=0 (1.43\%),a=1 a=1 (22.86\%),a=3 a=3 (22.86\%),a=4 a=4 (1.43\%)。p值 = 1.43%+22.86%+22.86%+1.43%=48.58% 1.43\% + 22.86\% + 22.86\% + 1.43\% = 48.58\%

若取显著性水平 α=0.05 \alpha = 0.05 ,则无论单侧还是双侧,p值均大于0.05,因此我们无法拒绝零假设,即没有足够的统计证据表明两种药物的疗效存在显著差异。

与卡方检验的比较

费雪精确检验与卡方检验既有联系又有区别:

  1. 适用条件:卡方检验要求较大样本量且期望频数不小于5;费雪精确检验无此限制,尤其适合小样本或稀疏表格。
  2. 精确性:费雪精确检验提供精确的p值,而非渐进近似;卡方检验的p值基于卡方分布的近似,在大样本下效果良好。
  3. 计算复杂度:费雪精确检验需要枚举所有可能表格,计算量随样本量增加而激增。对于2×2表计算尚可,但对于更大的表格,现代软件通常使用蒙特卡洛模拟或网络算法来近似。
  4. 保守性:由于离散性的存在,费雪精确检验通常被认为是偏保守的,即其实际的{第一类错误}率往往低于名义显著性水平。相比之下,卡方检验在近似条件满足时具有更好的检验功效。

在现代统计实践中,统计学家普遍建议:当样本量较大时(所有期望频数≥5),使用卡方检验即可;当样本量较小或期望频数较低时,应优先采用费雪精确检验。

推广与拓展

费雪精确检验不仅在2×2表中应用广泛,还可以拓展到更一般的情形:

  • r×c r \times c 列联表:对于行数 r r 和列数 c c 均大于2的列联表,可以利用多元超几何分布进行推广。此时计算量呈指数级增长,因此常借助计算机算法实现。
  • 条件独立性检验:在分层分析中,费雪精确检验可以用于检验在控制第三个变量后,两个变量之间的条件独立性。此时需要将数据按分层变量拆分为多个2×2表,分别计算后再进行合并推断。
  • McNemar检验的精确版本:对于配对设计的2×2表,费雪精确检验的思想也可以应用于配对数据的精确检验。

应用领域

费雪精确检验在多个学科中有着广泛的应用:

  • 生物医学研究:在小规模临床试验中比较治疗组与对照组的效果差异,特别是在罕见病研究中,样本量往往有限。
  • 遗传学:用于分析基因型与表型之间的关联,分析孟德尔分离比是否符合理论预期。
  • 生态学:分析物种在特定生境中的分布差异,判断物种与环境因子之间的依存关系。
  • 社会科学:在调查样本量较小的情况下,分析社会人口特征与行为倾向之间的关联。

局限性与注意事项

  1. 边际固定性假设:费雪精确检验的核心假设是在行和列的边际频数固定的条件下进行推断。在实际研究中,这一假设并不总是成立——有时只有行合计或列合计是事先确定的。因此,部分统计学家认为费雪精确检验的条件过于严格,可能不适用于某些研究设计。
  2. 计算限制:虽然现代计算机已能处理大多数2×2表,但对于样本量较大(如总样本 N>1000 N > 1000 )的表格,枚举所有可能构型的计算负担仍然很大。此时通常建议使用卡方检验或采用蒙特卡洛方法。
  3. 过度保守性:对于离散分布,费雪精确检验的p值往往是阶梯式的,无法达到名义显著性水平的精确控制,这在某些对检验功效要求较高的研究中可能成为劣势。

总体而言,费雪精确检验作为统计推断工具箱中的重要一员,以其精确性和对小样本的适应性,在数据分析中扮演着不可替代的角色。理解其原理与适用条件,有助于研究者在面对分类变量分析时做出更合理的方法选择。