ARTICLE

耶茨连续性校正

耶茨连续性校正:卡方检验的修正艺术 耶茨连续性校正(Yates's continuity correction,亦称 Yates 校正)是由英国统计学家弗兰克·耶茨(Frank Yates)于 1934 年提出的一种统计修正方法,专门用于四格表(2×2 列联表)的卡方检验。其核心思想是在计算卡方统计量时,将每个单元格的观测频数与期望频数之差的绝对值减去 0.

浏览 5 更新 2026-07-15

耶茨连续性校正:卡方检验的修正艺术

耶茨连续性校正(Yates's continuity correction,亦称 Yates 校正)是由英国统计学家弗兰克·耶茨(Frank Yates)于 1934 年提出的一种统计修正方法,专门用于四格表(2×2 列联表)卡方检验。其核心思想是在计算卡方统计量时,将每个单元格的观测频数与期望频数之差的绝对值减去 0.5(即做半单位校正),从而让离散的卡方分布更准确地逼近连续的卡方分布理论值。这一修正本质上是对皮尔逊卡方检验在小样本情形下过度显著倾向的矫正,被视为统计学中"连续性校正"概念的经典范例。

问题缘起:离散与连续之间的裂缝

卡方检验的理论基础是卡方分布,这是一种连续型概率分布。然而,在 2×2 列联表中,观测频数取值为离散整数——两个分类变量交叉后形成的四个计数只能是 0、1、2……等非负整数。当样本量较小时,这种离散性与连续性假设之间的裂隙会变得尤为突出:皮尔逊卡方统计量 χP2=(OiEi)2Ei\chi^2_P = \sum \frac{(O_i - E_i)^2}{E_i} 的抽样分布会呈现出明显的阶梯状跳跃,而非平滑的连续曲线。这意味着,直接用连续卡方分布计算 p 值会导致系统性地低估真实 p 值,从而高估统计显著性,即更容易错误地拒绝零假设(增加第一类错误的风险)。耶茨敏锐地识别出这一偏差,并提出了一种简洁而巧妙的修补方案。

数学表达:半单位校正的机制

耶茨校正的公式非常直观:在标准皮尔逊卡方统计量的基础上,对每个单元格的残差进行幅度缩减。对于 2×2 列联表,校正后的卡方统计量为:

χY2=i=14(OiEi0.5)2Ei\chi^2_Y = \sum_{i=1}^{4} \frac{(|O_i - E_i| - 0.5)^2}{E_i}

其中 OiO_i 为第 i 个单元格的观测频数,EiE_i 为相应的期望频数。当某个单元格的 OiEi<0.5|O_i - E_i| < 0.5 时,该单元格的贡献值取为 0(因为负数的平方无意义)。这一校正等价于在四格表的对数优势比估计中引入连续性校正,也等价于在 Fisher 精确检验与 Pearson 卡方检验之间搭建了一座桥梁。

对于特定的 2×2 列联表:

事件发生事件未发生暴露组ab非暴露组cd\begin{array}{c|cc} & \text{事件发生} & \text{事件未发生} \\ \hline \text{暴露组} & a & b \\ \text{非暴露组} & c & d \\ \end{array}

期望频数由边际合计计算:Ea=(a+b)(a+c)/nE_a = (a+b)(a+c)/n,依此类推。代入校正公式展开后,可得到更紧凑的计算形式:

χY2=n(adbcn/2)2(a+b)(c+d)(a+c)(b+d)\chi^2_Y = \frac{n(|ad - bc| - n/2)^2}{(a+b)(c+d)(a+c)(b+d)}

这一表达式清晰展示了校正的本质:将交叉乘积差的绝对值减去样本量的一半、再平方,从而在保持自由度为 1 的同时降低了统计量的数值,使 p 值向保守方向偏移。

适用条件与争议边界

耶茨校正并非适用于所有场景,其适用性在统计学界经历过长期辩论。主流观点认为,当四格表中存在期望频数小于 5 的单元格时,耶茨校正是一种合理的保守策略,能够有效控制第一类错误。然而,批评者(如肯尼思·罗特曼等)指出,耶茨校正过度保守——它虽然降低了错误拒绝零假设的概率,但也同时降低了统计功效,使得真正的差异更难被检测出来。在样本量较大时,校正前后的差异微乎其微,校正本身变得多余;而在样本量极小时,研究者往往更倾向于直接使用Fisher 精确检验

现代统计实践中的共识性建议包括:(1)当所有期望频数 5\geq 5 时,使用标准的未校正皮尔逊卡方检验;(2)当样本量较大(n>40n > 40)时,无需校正;(3)当期望频数在 3 到 5 之间且总样本量在 20 到 40 之间时,耶茨校正是一个可选的合理选择;(4)当期望频数小于 3 或总样本量小于 20 时,应直接使用 Fisher 精确检验而非卡方检验的任意变体。此外,许多现代统计软件(如 R 语言的 \texttt{chisq.test()} 函数)默认不启用耶茨校正,但提供了 \texttt{correct = TRUE} 参数供有需求的用户选择。

更广阔的校正谱系

耶茨连续性校正并非统计学的孤例,而是更广泛的"连续性校正"方法家族中的一员。类似的思想出现在二项分布的正态近似中——当用正态分布逼近二项分布计算概率时,加入 0.5 的校正因子(即所谓的连续性校正,continuity correction)可以显著提升近似精度。耶茨将这一思路从一维的二项分布推广到了二维的列联表情境,体现了统计方法论中一以贯之的逻辑脉络。在当代统计软件中,耶茨校正通常与似然比卡方检验(G 检验)和Mantel-Haenszel 卡方检验并列,构成 2×2 表分析的三大常用方法之一。

历史地位与现代评估

自 1934 年提出以来,耶茨校正已成为统计教学中的经典内容,几乎所有的生物统计学和流行病学教材都会提及这一方法。它代表了统计学发展早期对精确性与可计算性之间的权衡的深刻思考——在计算机尚未普及的年代,耶茨校正为研究者提供了一种在手算条件下获得更可靠推断结果的实用工具。而在今天,随着计算机的普及和精确检验方法的易得性提升,耶茨校正的实际应用频率有所下降。但这并不减损其作为统计思想史里程碑的意义:它提醒每一位数据分析者,统计推断中的近似总是有代价的,而对这一代价保持警觉,正是严谨统计思维的起点。