断点回归设计 (Regression Discontinuity Design)
断点回归设计 (RDD) 是一种强大的准实验方法,利用分配变量中的明确断点来估计政策的因果效应。在断点处个体接受处理的状态发生突变,创造类似于随机对照试验 (RCT) 的局部环境。
核心思想
三要素:分配变量 (R,连续变量如考试分数)、断点 (c,临界值)、结果变量 (Y)。断点两侧得分极为接近的个体在其他方面极相似,仅在处理状态上有系统性差异——形成“局部随机实验”。断点处结果变量的跳跃归因于处理效应。
两种类型
清晰断点回归 (SRD)
处理分配是确定性函数:Di=I(Ri≥c)(示性函数)。处理效应(LATE)为条件期望函数在断点处的跳跃:
τSRD=r↓climE[Yi∣Ri=r]−r↑climE[Yi∣Ri=r]
模糊断点回归 (FRD)
跨越断点仅改变接受处理的概率(非0/1)。借助工具变量思想,I(Ri≥c) 作为有效工具变量。处理效应(Wald估计量):
τFRD=limr↓cE[Di∣Ri=r]−limr↑cE[Di∣Ri=r]limr↓cE[Yi∣Ri=r]−limr↑cE[Yi∣Ri=r]
分子是简约式效应,分母是第一阶段效应。
关键假设
- 连续性假设(核心):无处理时潜在结果在断点处连续——任何跳跃只能归因于处理
- 不可操纵性:个体不能精确操纵分配变量得分(以McCrary检验验证)
估计方法
局部线性回归(最推荐):选择带宽 h,在 [c−h,c+h] 内估计:
Yi=α+τDi+β1(Ri−c)+β2Di(Ri−c)+ϵi
系数 τ 为RDD处理效应(两回归线截距之差)。带宽选择是关键:太宽引入偏差,太窄增大方差。现代软件内置数据驱动的最优带宽程序。
有效性检验
- McCrary检验:分配变量密度在断点处不应跳跃
- 协变量平衡性检验:前定协变量在断点处不应跳跃
- 安慰剂检验:在伪断点或安慰剂结果变量上不应有效应
- 稳健性检验:不同带宽和核函数下结果应稳定
优缺点
优点:高内部有效性(准实验方法中最可信),透明直观(图形展示)。缺点:低外部有效性(仅局部平均处理效应LATE),需断点附近大量数据,仅适用于有明确分配规则和断点的干预。
经典应用:奖学金对收入的影响——PSAT分数断点两侧的学生极相似,收入差异归因于奖学金本身的效应。