ARTICLE

捕获-重捕获

捕获-重捕获 (Capture-Recapture) 捕获-重捕获 是一类用于估计封闭总体中个体总数 N 的统计抽样方法。其核心思想是通过两次或多次独立抽样,利用标记个体的重叠信息来推断未被观测到的个体数量。该方法起源于生态学中对野生动物种群规模的调查,后广泛拓展至流行病学、社会学、软件工程和质量控制等领域。 基本设定与 Lincoln-Petersen 估

浏览 0 更新 2025-11-20

捕获-重捕获 (Capture-Recapture)

捕获-重捕获 是一类用于估计封闭总体中个体总数 NN 的统计抽样方法。其核心思想是通过两次或多次独立抽样,利用标记个体的重叠信息来推断未被观测到的个体数量。该方法起源于生态学中对野生动物种群规模的调查,后广泛拓展至流行病学社会学、软件工程和质量控制等领域。

基本设定与 Lincoln-Petersen 估计量

考虑一个大小为 NN 的封闭总体(即调查期间无出生、死亡、迁入或迁出)。操作分两步:

  1. 首次捕获:从总体中随机捕获 n1n_1 个个体,全部标记后放回。
  2. 二次捕获:经过充分混合后,再次随机捕获 n2n_2 个个体,记录其中被标记的个体数 mm

假设每次捕获都是独立随机的,且标记不可丢失,则第二次捕获中标记个体的比例 m/n2m / n_2 应近似等于总体中标记个体的比例 n1/Nn_1 / N。由此推出经典的 Lincoln-Petersen 估计量(亦称 Lincoln 指数):

N^=n1n2m\hat{N} = \frac{n_1 n_2}{m}

Chapman 无偏修正

mm 较小或样本量有限时,Lincoln-Petersen 估计量是有偏的,且当 m=0m = 0 时估计量无定义。Chapman (1951) 提出如下无偏修正:

N^C=(n1+1)(n2+1)m+11\hat{N}_C = \frac{(n_1 + 1)(n_2 + 1)}{m + 1} - 1

其方差的无偏估计为:

Var^(N^C)=(n1+1)(n2+1)(n1m)(n2m)(m+1)2(m+2)\widehat{\operatorname{Var}}(\hat{N}_C) = \frac{(n_1 + 1)(n_2 + 1)(n_1 - m)(n_2 - m)}{(m + 1)^2 (m + 2)}

利用该方差可构造 N^C\hat{N}_C 的置信区间。

多次重捕获:Schnabel 方法

在实际研究中,仅进行两次捕获往往效率低下且难以检验假设。Schnabel (1938) 将上述方法推广至多次捕获情境:共进行 tt 次捕获,第 ii 次捕获 nin_i 个个体,其中已标记个体数为 mim_i,此时尚存标记总数为 Mi=j=1i1(njmj)M_i = \sum_{j=1}^{i-1} (n_j - m_j)(即前 i1i-1 次净新增标记数)。总体大小的 Schnabel 估计为加权平均:

N^=i=1tniMii=1tmi\hat{N} = \frac{\sum_{i=1}^{t} n_i M_i}{\sum_{i=1}^{t} m_i}

核心假设及违背后果

捕获-重捕获方法的有效性依赖于以下假设:

  • 封闭总体:若总体不封闭(有迁入迁出或出生死亡),N^\hat{N} 估计的是捕获期间的平均存在数量,易产生偏误。开放总体需引入Jolly-Seber 模型
  • 等捕获概率:所有个体在每次抽样中被捕获的概率相等。若存在捕获异质性(如某些个体更易或更难被捕获),Lincoln-Petersen 估计量将产生负偏误。对此可采用异质性模型(如 MhM_h 模型)。
  • 标记不丢失:若标记脱落或被忽略,mm 将被低估,从而高估 NN
  • 标记不影响后续捕获概率:若标记导致"陷阱快乐"(trap-happy,标记个体更易再被捕获)或"陷阱回避"(trap-shy),估计将失真。

应用扩展

  • 流行病学:利用多个独立来源(医院记录、疾控报告、死亡登记等)的病例名单,以捕获-重捕获方法估计某种疾病的真实患病人数。每个来源相当于一次"捕获",在多个来源中出现即视为"标记重合"。经典案例如估计注射吸毒者中的HIV感染人数。
  • 审计与欺诈检测:将两次独立审计的查错记录进行比对,估计财务报告中的错误总数。
  • 软件缺陷估计:由两组独立测试团队分别发现缺陷,比对共同发现数来估计软件中残留的缺陷数量。
  • 人口普查覆盖评估:将人口普查数据与事后抽查(post-enumeration survey)进行匹配,估算人口普查的漏登率,即双系统估计(Dual-System Estimation)。

现代发展

经典两样本方法假设列表间独立,而实际应用中列表常不独立(如就诊记录与住院记录)。对数线性模型(log-linear models)将捕获-重捕获数据置于列联表框架中,可显式建模列表间的交互效应。此外,贝叶斯方法可通过先验分布纳入辅助信息,在处理稀疏数据和复杂依赖结构时更具灵活性。