ARTICLE
捕获-重捕获
捕获-重捕获 (Capture-Recapture) 捕获-重捕获 是一类用于估计封闭总体中个体总数 N 的统计抽样方法。其核心思想是通过两次或多次独立抽样,利用标记个体的重叠信息来推断未被观测到的个体数量。该方法起源于生态学中对野生动物种群规模的调查,后广泛拓展至流行病学、社会学、软件工程和质量控制等领域。 基本设定与 Lincoln-Petersen 估
捕获-重捕获 (Capture-Recapture)
捕获-重捕获 是一类用于估计封闭总体中个体总数 的统计抽样方法。其核心思想是通过两次或多次独立抽样,利用标记个体的重叠信息来推断未被观测到的个体数量。该方法起源于生态学中对野生动物种群规模的调查,后广泛拓展至流行病学、社会学、软件工程和质量控制等领域。
基本设定与 Lincoln-Petersen 估计量
考虑一个大小为 的封闭总体(即调查期间无出生、死亡、迁入或迁出)。操作分两步:
- 首次捕获:从总体中随机捕获 个个体,全部标记后放回。
- 二次捕获:经过充分混合后,再次随机捕获 个个体,记录其中被标记的个体数 。
假设每次捕获都是独立随机的,且标记不可丢失,则第二次捕获中标记个体的比例 应近似等于总体中标记个体的比例 。由此推出经典的 Lincoln-Petersen 估计量(亦称 Lincoln 指数):
Chapman 无偏修正
当 较小或样本量有限时,Lincoln-Petersen 估计量是有偏的,且当 时估计量无定义。Chapman (1951) 提出如下无偏修正:
其方差的无偏估计为:
利用该方差可构造 的置信区间。
多次重捕获:Schnabel 方法
在实际研究中,仅进行两次捕获往往效率低下且难以检验假设。Schnabel (1938) 将上述方法推广至多次捕获情境:共进行 次捕获,第 次捕获 个个体,其中已标记个体数为 ,此时尚存标记总数为 (即前 次净新增标记数)。总体大小的 Schnabel 估计为加权平均:
核心假设及违背后果
捕获-重捕获方法的有效性依赖于以下假设:
- 封闭总体:若总体不封闭(有迁入迁出或出生死亡), 估计的是捕获期间的平均存在数量,易产生偏误。开放总体需引入Jolly-Seber 模型。
- 等捕获概率:所有个体在每次抽样中被捕获的概率相等。若存在捕获异质性(如某些个体更易或更难被捕获),Lincoln-Petersen 估计量将产生负偏误。对此可采用异质性模型(如 模型)。
- 标记不丢失:若标记脱落或被忽略, 将被低估,从而高估 。
- 标记不影响后续捕获概率:若标记导致"陷阱快乐"(trap-happy,标记个体更易再被捕获)或"陷阱回避"(trap-shy),估计将失真。
应用扩展
- 流行病学:利用多个独立来源(医院记录、疾控报告、死亡登记等)的病例名单,以捕获-重捕获方法估计某种疾病的真实患病人数。每个来源相当于一次"捕获",在多个来源中出现即视为"标记重合"。经典案例如估计注射吸毒者中的HIV感染人数。
- 审计与欺诈检测:将两次独立审计的查错记录进行比对,估计财务报告中的错误总数。
- 软件缺陷估计:由两组独立测试团队分别发现缺陷,比对共同发现数来估计软件中残留的缺陷数量。
- 人口普查覆盖评估:将人口普查数据与事后抽查(post-enumeration survey)进行匹配,估算人口普查的漏登率,即双系统估计(Dual-System Estimation)。
现代发展
经典两样本方法假设列表间独立,而实际应用中列表常不独立(如就诊记录与住院记录)。对数线性模型(log-linear models)将捕获-重捕获数据置于列联表框架中,可显式建模列表间的交互效应。此外,贝叶斯方法可通过先验分布纳入辅助信息,在处理稀疏数据和复杂依赖结构时更具灵活性。