ARTICLE

比率参数的置信区间构造

比率参数的置信区间构造 比率参数置信区间:根据样本为未知总体比率p提供区间估计→以给定置信水平包含真值。通用结构: p E(边际误差), p=X/n为点估计。每次抽样=伯努利试验→X Binomial(n,p)。 方法一:正态近似法(Wald) 中心极限定理:n大时 p N(p, p(1-p)/n)→标准化Z=( p-p)/ p(1-p)/n N(0,1)。

浏览 44 更新 2025-10-25

比率参数的置信区间构造

比率参数置信区间:根据样本为未知总体比率pp提供区间估计→以给定置信水平包含真值。通用结构:p^±E\hat{p}\pm E边际误差),p^=X/n\hat{p}=X/n点估计。每次抽样=伯努利试验XBinomial(n,p)X\sim\mathrm{Binomial}(n,p)

方法一:正态近似法(Wald)

中心极限定理:n大时p^N(p,p(1p)/n)\hat{p}\approx N(p, p(1-p)/n)→标准化Z=(p^p)/p(1p)/nN(0,1)Z=(\hat{p}-p)/\sqrt{p(1-p)/n}\sim N(0,1)。用p^\hat{p}pp标准误SE(p^)=p^(1p^)/nSE(\hat{p})=\sqrt{\hat{p}(1-\hat{p})/n}。区间:p^±Zα/2SE(p^)\hat{p}\pm Z_{\alpha/2}SE(\hat{p})(95\%→Z0.0251.96Z_{0.025}\approx1.96;90\%→1.645;99\%→2.576)。

使用条件:np^10n\hat{p}\ge10n(1p^)10n(1-\hat{p})\ge10→不满足→严重偏差。局限:p近0/1或n小时覆盖概率远低于名义(号称95\%实仅90\%);区间可能越界[0,1];p^=0\hat{p}=0或1→宽度0不合理。

方法二:Agresti-Coull(加四法)

调整:n~=n+4\tilde{n}=n+4 X~=X+2\tilde{X}=X+2p~=(X+2)/(n+4)\tilde{p}=(X+2)/(n+4)。用p~,n~\tilde{p},\tilde{n}套Wald公式。优点:实际覆盖概率近名义(小样本/p近边界也稳健);从不越界;简单易实现。推荐入门教学替代Wald。

方法三:Wilson得分区间

不解标准误中替p→直接解Zα/2(p^p)/p(1p)/nZα/2-Z_{\alpha/2}\le(\hat{p}-p)/\sqrt{p(1-p)/n}\le Z_{\alpha/2}关于p的二次不等式。区间中心/宽度均异Wald→公式:11+Z2/n(p^+Z22n±Zp^(1p^)n+Z24n2)\frac{1}{1+Z^2/n}(\hat{p}+\frac{Z^2}{2n}\pm Z\sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{Z^2}{4n^2}})。优点:非对称(反映二项分布偏态)、小样本/p近边界表现优、永不越界→被广泛认为标准方法。

方法四:Clopper-Pearson精确区间

不依赖正态近似→基于二项分布累积分布函数求解pLp_LP(YXB(n,pL))=α/2P(Y\ge X\mid B(n,p_L))=\alpha/2)和pUp_UP(YXB(n,pU))=α/2P(Y\le X\mid B(n,p_U))=\alpha/2)→数值求解。保守性:实际覆盖率不低于名义→区间通常比Wilson/Agresti更宽。精确→直接源自离散二项非连续近似。

总结对比

| 方法 | 主要思想 | 优点 | 缺点 | |------|---------|------|------| | Wald | 正态近似 | 最简单 | 小样本/p近界差/可能越界 | | Agresti-Coull | 加四数据调整 | 简单/接近名义/不越界 | 近似/理论不如Wilson | | Wilson | 解二次不等式不替p | 稳健/理论优/非对称 | 稍复杂 | | Clopper-Pearson | 二项累积概率求解 | 保证最低覆盖率 | 过宽保守/计算复杂 |

实践:教学→Agresti-Coull(替代Wald);严谨→Wilson标准;药品安全等需最低覆盖率保证→Clopper-Pearson;小样本/p近界避Wald。