比率参数的置信区间构造
比率参数置信区间:根据样本为未知总体比率p提供区间估计→以给定置信水平包含真值。通用结构:p^±E(边际误差),p^=X/n为点估计。每次抽样=伯努利试验→X∼Binomial(n,p)。
方法一:正态近似法(Wald)
中心极限定理:n大时p^≈N(p,p(1−p)/n)→标准化Z=(p^−p)/p(1−p)/n∼N(0,1)。用p^替p估标准误:SE(p^)=p^(1−p^)/n。区间:p^±Zα/2SE(p^)(95\%→Z0.025≈1.96;90\%→1.645;99\%→2.576)。
使用条件:np^≥10且n(1−p^)≥10→不满足→严重偏差。局限:p近0/1或n小时覆盖概率远低于名义(号称95\%实仅90\%);区间可能越界[0,1];p^=0或1→宽度0不合理。
方法二:Agresti-Coull(加四法)
调整:n~=n+4,X~=X+2,p~=(X+2)/(n+4)。用p~,n~套Wald公式。优点:实际覆盖概率近名义(小样本/p近边界也稳健);从不越界;简单易实现。推荐入门教学替代Wald。
方法三:Wilson得分区间
不解标准误中替p→直接解−Zα/2≤(p^−p)/p(1−p)/n≤Zα/2关于p的二次不等式。区间中心/宽度均异Wald→公式:1+Z2/n1(p^+2nZ2±Znp^(1−p^)+4n2Z2)。优点:非对称(反映二项分布偏态)、小样本/p近边界表现优、永不越界→被广泛认为标准方法。
方法四:Clopper-Pearson精确区间
不依赖正态近似→基于二项分布累积分布函数求解pL(P(Y≥X∣B(n,pL))=α/2)和pU(P(Y≤X∣B(n,pU))=α/2)→数值求解。保守性:实际覆盖率不低于名义→区间通常比Wilson/Agresti更宽。精确→直接源自离散二项非连续近似。
总结对比
| 方法 | 主要思想 | 优点 | 缺点 | |------|---------|------|------| | Wald | 正态近似 | 最简单 | 小样本/p近界差/可能越界 | | Agresti-Coull | 加四数据调整 | 简单/接近名义/不越界 | 近似/理论不如Wilson | | Wilson | 解二次不等式不替p | 稳健/理论优/非对称 | 稍复杂 | | Clopper-Pearson | 二项累积概率求解 | 保证最低覆盖率 | 过宽保守/计算复杂 |
实践:教学→Agresti-Coull(替代Wald);严谨→Wilson标准;药品安全等需最低覆盖率保证→Clopper-Pearson;小样本/p近界避Wald。