ARTICLE
Agresti-Coull区间
Agresti-Coull区间 (Agresti–Coull Interval) Agresti-Coull区间是构造二项比例置信区间的一种方法,由统计学家 Alan Agresti 与 Brent A. Coull 于 1998 年在《The American Statistician》上发表的论文 "Approximate is Better than
Agresti-Coull区间 (Agresti–Coull Interval)
Agresti-Coull区间是构造二项比例置信区间的一种方法,由统计学家 Alan Agresti 与 Brent A. Coull 于 1998 年在《The American Statistician》上发表的论文 "Approximate is Better than 'Exact' for Interval Estimation of Binomial Proportions" 中提出。该方法的精妙之处在于一个极其简洁的操作:向观测数据中人为加入少量"伪观测"后,仍使用最朴素的标准 Wald 区间公式计算即可,而所得区间的覆盖概率却大幅优于 Wald 区间,并逼近理论最优的 Wilson 得分区间。因其简明的计算过程和优异的统计性质,Agresti-Coull 区间已被多部权威教材推荐为日常应用中估计二项比例置信区间的首选方法。
问题背景:二项比例的区间估计
在统计实践中,一个极为常见的问题是:在 次独立的伯努利试验中观测到 次成功,欲得到一个关于真实成功概率 的 置信区间。此处 ,样本比例 是 的极大似然估计和无偏估计。
Wald 区间及其缺陷
统计学入门课程中最先教授的答案是 Wald 区间,即基于中心极限定理的正态近似:
其中 为标准正态分布的 分位数(如 95\% 区间对应 )。Wald 区间形式简单、易于手工计算,曾长期作为默认方法。
然而,Wald 区间存在多方面严重缺陷,使其在实际应用中并不可靠:
- 覆盖概率严重不足: 当样本量较小或真实比例 接近 0 和 1 时,名义 95\% 区间的实际覆盖概率可能低至 50\% 甚至更低。即使样本量达到 100,在 接近边界时覆盖仍可能不足。
- 退化区间问题: 若观测到 或 ,则 或 1,此时标准误 ,区间退化为零宽度的点估计 或 ,完全不反映抽样变异性。
- 区间越界: Wald 区间无视 的 约束,当 靠近边界时可能产生超出 的区间端点。
这些缺陷的根源在于 Wald 区间同时依赖两个近似——用 代替 来估计标准误,以及用正态分布近似二项分布——而在样本量不足、 极端时这两个近似同时崩坏。
其他候选方法概览
在 Agresti-Coull 之前,统计学家已提出若干替代方案:
- Wilson 得分区间 (1927): 通过求解关于 的二次不等式得到,覆盖概率表现优异,但公式复杂、不利于手工计算和课堂教学。
- Clopper-Pearson 区间 (1934): 基于二项分布精确构造,保证覆盖概率不低于名义水平,但过于保守(实际覆盖远高于名义水平),区间过宽。
- Jeffreys 区间: 使用无信息先验 的贝叶斯可信区间,具有良好的频率学派性质,但涉及 Beta 分位数计算。
Agresti-Coull 区间的独创性在于,它以几乎为零的额外计算成本达到了与 Wilson 区间近乎一致的覆盖概率。
Agresti-Coull 修正:定义与原理
简便形式(95\% 置信区间)
对于最常用的 95\% 置信区间,Agresti-Coull 修正可概括为一条朗朗上口的规则——"加二加四":人为增加两个成功和两个失败,然后在新数据上直接使用 Wald 公式。
定义调整后的样本比例和样本量:
则 Agresti-Coull 95\% 置信区间为:
因为分子加了 2、分母加了 4, 被拉向 0.5(中心收缩),避免了 取 0 或 1 时区间退化的困境。同时,增加 使标准误的估计更为稳健。
一般形式
"加二加四"是 95\% 置信水平下的简洁近似。对于任意置信水平 ,Agresti-Coull 区间的一般形式为:
对于 95\% 置信水平,,故 ,,,由此得到"加二加四"特例。对于 90\% 区间 (),则 ,应分别加约 1.35 个伪观测。
理论动机:Wilson 区间的线性近似
理解 Agresti-Coull 区间为何奏效的关键在于它与 Wilson 得分区间的关系。Wilson 得分区间通过求解以下二次不等式得到:
其解为:
Wilson 区间的中心点是 ,这恰好等于 Agresti-Coull 的 。换言之,Agresti-Coull 区间可以理解为:取 Wilson 区间的中心点 ,但用 Wald 区间的标准误 替代 Wilson 区间复杂的标准误表达式。这一近似在绝大多数实际场合下损失的信息微乎其微,却极大简化了计算。
覆盖概率的数值表现
Agresti 与 Coull (1998) 通过大规模模拟研究,对 Wald、Wilson、Clopper-Pearson、Jeffreys 以及 Agresti-Coull 五种区间进行了系统性比较。关键结论如下:
- 最小覆盖概率: 对于 到 的范围,Agresti-Coull 区间的最小覆盖概率始终远高于 Wald 区间。以 、名义 95\% 为例:Wald 区间的最小覆盖概率约 70\%,而 Agresti-Coull 区间的最小覆盖概率约 92\%,已非常接近名义水平。
- 平均覆盖概率: 对 取平均,Agresti-Coull 区间的平均覆盖率几乎精确地等于名义水平,与 Wilson 和 Jeffreys 区间在同一水平上,而 Clopper-Pearson 区间严重偏高(95\% 区间实际平均覆盖可达 98\% 以上)。
- 区间宽度: Agresti-Coull 区间的平均宽度与 Wilson 和 Jeffreys 区间几乎相同,显著窄于 Clopper-Pearson 区间。
- 振荡行为: 由于二项分布的离散性,所有区间方法的覆盖概率都会随 和 波动。但 Agresti-Coull 区间的振荡幅度远小于 Wald 区间,与 Wilson 区间相当。
综合来看,Agresti-Coull 区间以 Wald 区间的计算复杂度换取 Wilson 区间的覆盖性能,堪称"性价比"最高的二项比例区间估计方法。
计算示例
示例一:零观测事件
在一项 的早期临床试验中,20 名受试者中无人出现特定不良反应。欲估计不良反应发生率的 95\% 置信区间。
- Wald 区间: ,区间为 。这隐含地声称"我们有 95\% 的信心不良反应率为 0\%",显然不合理——仅 20 例零事件远不足以排除 10\% 甚至更高的发生率。
- Agresti-Coull 区间: \[ \tilde{p} = \frac{0 + 2}{20 + 4} = \frac{2}{24} \approx 0.0833 \] \[ \text{SE} = \sqrt{\frac{0.0833 \times 0.9167}{24}} \approx 0.0564 \] 95\% CI: ,截断下限至 0 得 。该区间表明,基于当前数据,不良反应率可高达约 19\%,合理反映了样本量有限带来的不确定性。
示例二:中等样本量
在一次 的民意调查中,62 人支持某候选人。求支持率的 95\% 置信区间。
- Wald 区间: ,。区间为 。
- Agresti-Coull 区间: \[ \tilde{p} = \frac{62 + 2}{100 + 4} = \frac{64}{104} \approx 0.6154 \] \[ \text{SE} = \sqrt{\frac{0.6154 \times 0.3846}{104}} \approx 0.0477 \] 区间为 。
在此例中 较大且 不极端,两种方法结果相近——但当样本量不足或比例极端时,Agresti-Coull 的优势将变得显著。
贝叶斯解释
Agresti-Coull 区间还有一层自然的贝叶斯解读。 恰好等于以 为先验分布时 的后验均值。 是一个在 上呈钟形、在 0.5 处达到峰值的先验,其信息量相当于预先观测到 2 次成功和 2 次失败。因此,"加二加四"可以被理解为:先以温和的先验信念向 0.5 收缩,再基于此收缩估计使用频率学派的 Wald 公式。这一视角既能帮助使用者直观理解修正的合理性,也揭示了频率学派方法与贝叶斯方法之间并非截然对立。
局限与使用建议
尽管 Agresti-Coull 区间在广泛场景下表现优异,仍存在若干需要注意的边界情形:
- 极小样本: 当 非常小(如 ),即使 Agresti-Coull 修正也不足以保证良好的覆盖概率。此时应考虑精确的 Clopper-Pearson 区间或贝叶斯可信区间。
- 区间截断: 如同 Wald 区间,Agresti-Coull 区间的下界可能为负、上界可能超过 1。实践中应截断至 范围。
- 非 95\% 置信水平: "加二加四"规则仅针对 95\% 区间设计。若需 90\% 或 99\% 区间,必须使用一般形式 而非机械地加二加四。
- 教学与报告: 在报告结果时,应明确说明使用了 Agresti-Coull 修正,并标注置信水平,以避免与 Wald 区间混淆。