ARTICLE

耶茨连续性校正

耶茨连续性校正：卡方检验的修正艺术耶茨连续性校正（Yates's continuity correction，亦称 Yates 校正）是由英国统计学家弗兰克·耶茨（Frank Yates）于 1934 年提出的一种统计修正方法，专门用于四格表（2×2 列联表）的卡方检验。其核心思想是在计算卡方统计量时，将每个单元格的观测频数与期望频数之差的绝对值减去 0.

浏览 5 更新 2026-07-15

耶茨连续性校正：卡方检验的修正艺术

耶茨连续性校正（Yates's continuity correction，亦称 Yates 校正）是由英国统计学家弗兰克·耶茨（Frank Yates）于 1934 年提出的一种统计修正方法，专门用于四格表（2×2 列联表）的卡方检验。其核心思想是在计算卡方统计量时，将每个单元格的观测频数与期望频数之差的绝对值减去 0.5（即做半单位校正），从而让离散的卡方分布更准确地逼近连续的卡方分布理论值。这一修正本质上是对皮尔逊卡方检验在小样本情形下过度显著倾向的矫正，被视为统计学中"连续性校正"概念的经典范例。

问题缘起：离散与连续之间的裂缝

卡方检验的理论基础是卡方分布，这是一种连续型概率分布。然而，在 2×2 列联表中，观测频数取值为离散整数——两个分类变量交叉后形成的四个计数只能是 0、1、2……等非负整数。当样本量较小时，这种离散性与连续性假设之间的裂隙会变得尤为突出：皮尔逊卡方统计量 $\chi^2_P = \sum \frac{(O_i - E_i)^2}{E_i}$ 的抽样分布会呈现出明显的阶梯状跳跃，而非平滑的连续曲线。这意味着，直接用连续卡方分布计算 p 值会导致系统性地低估真实 p 值，从而高估统计显著性，即更容易错误地拒绝零假设（增加第一类错误的风险）。耶茨敏锐地识别出这一偏差，并提出了一种简洁而巧妙的修补方案。

数学表达：半单位校正的机制

耶茨校正的公式非常直观：在标准皮尔逊卡方统计量的基础上，对每个单元格的残差进行幅度缩减。对于 2×2 列联表，校正后的卡方统计量为：

\chi^2_Y = \sum_{i=1}^{4} \frac{(|O_i - E_i| - 0.5)^2}{E_i}

其中 $O_i$ 为第 i 个单元格的观测频数， $E_i$ 为相应的期望频数。当某个单元格的 $|O_i - E_i| < 0.5$ 时，该单元格的贡献值取为 0（因为负数的平方无意义）。这一校正等价于在四格表的对数优势比估计中引入连续性校正，也等价于在 Fisher 精确检验与 Pearson 卡方检验之间搭建了一座桥梁。

对于特定的 2×2 列联表：

\begin{array}{c|cc} & \text{事件发生} & \text{事件未发生} \\ \hline \text{暴露组} & a & b \\ \text{非暴露组} & c & d \\ \end{array}

期望频数由边际合计计算： $E_a = (a+b)(a+c)/n$ ，依此类推。代入校正公式展开后，可得到更紧凑的计算形式：

\chi^2_Y = \frac{n(|ad - bc| - n/2)^2}{(a+b)(c+d)(a+c)(b+d)}

这一表达式清晰展示了校正的本质：将交叉乘积差的绝对值减去样本量的一半、再平方，从而在保持自由度为 1 的同时降低了统计量的数值，使 p 值向保守方向偏移。

适用条件与争议边界

耶茨校正并非适用于所有场景，其适用性在统计学界经历过长期辩论。主流观点认为，当四格表中存在期望频数小于 5 的单元格时，耶茨校正是一种合理的保守策略，能够有效控制第一类错误。然而，批评者（如肯尼思·罗特曼等）指出，耶茨校正过度保守——它虽然降低了错误拒绝零假设的概率，但也同时降低了统计功效，使得真正的差异更难被检测出来。在样本量较大时，校正前后的差异微乎其微，校正本身变得多余；而在样本量极小时，研究者往往更倾向于直接使用Fisher 精确检验。

现代统计实践中的共识性建议包括：（1）当所有期望频数 $\geq 5$ 时，使用标准的未校正皮尔逊卡方检验；（2）当样本量较大（ $n > 40$ ）时，无需校正；（3）当期望频数在 3 到 5 之间且总样本量在 20 到 40 之间时，耶茨校正是一个可选的合理选择；（4）当期望频数小于 3 或总样本量小于 20 时，应直接使用 Fisher 精确检验而非卡方检验的任意变体。此外，许多现代统计软件（如 R 语言的 \texttt{chisq.test()} 函数）默认不启用耶茨校正，但提供了 \texttt{correct = TRUE} 参数供有需求的用户选择。

更广阔的校正谱系

耶茨连续性校正并非统计学的孤例，而是更广泛的"连续性校正"方法家族中的一员。类似的思想出现在二项分布的正态近似中——当用正态分布逼近二项分布计算概率时，加入 0.5 的校正因子（即所谓的连续性校正，continuity correction）可以显著提升近似精度。耶茨将这一思路从一维的二项分布推广到了二维的列联表情境，体现了统计方法论中一以贯之的逻辑脉络。在当代统计软件中，耶茨校正通常与似然比卡方检验（G 检验）和Mantel-Haenszel 卡方检验并列，构成 2×2 表分析的三大常用方法之一。

历史地位与现代评估

自 1934 年提出以来，耶茨校正已成为统计教学中的经典内容，几乎所有的生物统计学和流行病学教材都会提及这一方法。它代表了统计学发展早期对精确性与可计算性之间的权衡的深刻思考——在计算机尚未普及的年代，耶茨校正为研究者提供了一种在手算条件下获得更可靠推断结果的实用工具。而在今天，随着计算机的普及和精确检验方法的易得性提升，耶茨校正的实际应用频率有所下降。但这并不减损其作为统计思想史里程碑的意义：它提醒每一位数据分析者，统计推断中的近似总是有代价的，而对这一代价保持警觉，正是严谨统计思维的起点。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。