# 断点回归 (Regression Discontinuity Design)
断点回归 (Regression Discontinuity Design, RDD) 是一种用于{{{因果推断}}} (Causal Inference) 的{{{准实验设计}}} (Quasi-experimental Design)。它被广泛应用于评估那些基于一个明确的连续性变量(即驱动变量)是否达到某个特定临界值(即断点)来分配干预或处理(Treatment)的政策或项目效果。在满足其核心假设的情况下,RDD能够提供接近于{{{随机对照试验}}} (Randomized Controlled Trial, RCT) 的可靠因果估计。
## 核心思想与直觉
RDD的核心思想在于利用政策或规则中固有的“断点”来模拟一个局部性的随机实验。当一个干预措施的分配完全或主要取决于一个可观测的连续变量时,我们可以比较该变量值恰好在断点两侧的个体。
一个典型的例子是基于考试分数的奖学金评定。假设某大学规定,入学考试分数达到85分及以上的学生将获得奖学金,而低于85分的学生则没有。
* 驱动变量 (Forcing Variable / Assignment Variable):此例中为入学考试分数,它是一个连续变量。 * 断点 (Cutoff / Threshold):85分,这是决定是否获得奖学金的临界值。 * 处理组 (Treatment Group):分数 $\geq 85$ 的学生,他们获得了奖学金(即受到了“处理”)。 * 控制组 (Control Group):分数 $< 85$ 的学生,他们没有获得奖学金。
直觉上,一个考了85.1分的学生和一个考了84.9分的学生,在个人能力、家庭背景、学习动机等各方面可能都极为相似。他们之间最大的系统性差异就是前者获得了奖学金而后者没有。因此,通过比较这两组学生在未来某个结果变量(如学业成绩、毕业后收入等)上的差异,我们就可以近乎无偏地估计出奖学金带来的{{{处理效应}}} (Treatment Effect)。这个在断点处的效应被称为{{{局部平均处理效应}}} (Local Average Treatment Effect, LATE),因为它衡量的是对处于断点附近的这部分群体的平均影响。
## RDD的类型
根据驱动变量决定处理状态的确定性,RDD可以分为两种主要类型。
### 一. 清晰断点回归 (Sharp Regression Discontinuity Design, SRD)
在清晰RDD中,处理状态是驱动变量的一个确定性函数。所有在断点一侧的个体都接受处理,而在另一侧的个体都-不-接受处理。
用数学语言表达,令 $T_i$ 为个体 $i$ 的处理状态($1$ 表示接受处理,$0$ 表示未接受),$X_i$ 为其驱动变量的值,$c$ 为断点。在SRD中,分配规则为: $$ T_i = \begin{cases} 1 & \text{if } X_i \geq c \\ 0 & \text{if } X_i < c \end{cases} $$ SRD所估计的{{{处理效应}}} $\tau_{SRD}$ 是结果变量 $Y$ 的条件期望在断点 $c$ 处的不连续跳跃: $$ \tau_{SRD} = \underbrace{\lim_{x \to c^+} E[Y_i | X_i = x]}_{\text{从右侧逼近断点的处理组期望结果}} - \underbrace{\lim_{x \to c^-} E[Y_i | X_i = x]}_{\text{从左侧逼近断点的控制组期望结果}} $$ 这个差值即为在断点 $c$ 处的{{{局部平均处理效应}}} (LATE)。
### 二. 模糊断点回归 (Fuzzy Regression Discontinuity Design, FRD)
在模糊RDD中,穿过断点并不绝对地决定个体是否接受处理,而是显著改变其接受处理的概率。
例如,某项政策规定,年收入低于$20,000的家庭有资格申请一项住房补贴,但申请与否取决于家庭的自愿选择。在这种情况下,年收入恰好低于$20,000的家庭获得补贴的概率会显著高于恰好高于该收入线的家庭,但前者获得补贴的概率不为1(有人可能不知道或不申请),后者也不为0(可能存在特殊审批情况)。
FRD的结构类似于{{{工具变量}}} (Instrumental Variable, IV) 法。在这里,“是否跨越断点” 这个事件本身可以被视为一个工具变量: 1. 它与处理状态(是否真正获得补贴)高度相关,因为它显著改变了获得补贴的概率。 2. 它除了通过影响处理状态外,不直接影响结果变量(如家庭幸福感)。
FRD估计的{{{处理效应}}} $\tau_{FRD}$ 是结果变量在断点的跳跃幅度与处理概率在断点的跳跃幅度的比率: $$ \tau_{FRD} = \frac{\lim_{x \to c^+} E[Y_i | X_i = x] - \lim_{x \to c^-} E[Y_i | X_i = x]}{\lim_{x \to c^+} E[T_i | X_i = x] - \lim_{x \to c^-} E[T_i | X_i = x]} $$ 分母衡量了处理接受概率在断点处的实际跳跃幅度。
## 核心假设与有效性检验
RDD的有效性依赖于几个关键假设,这些假设保证了在断点附近的比较是有效的。
一. 连续性假设 (Continuity Assumption):这是RDD最核心的假设。它要求在没有处理的情况下,结果变量 $Y$ 作为驱动变量 $X$ 的函数在断点 $c$ 处是连续的。换言之,任何在断点处观察到的 $Y$ 的跳跃都只能归因于处理本身,而非其他因素。
二. 局部随机性假设 (Local Randomization):此假设意味着在断点附近一个极小的邻域内,个体被分配到处理组或控制组是“近似随机”的。这意味着断点两侧的个体在所有其他可能影响结果的观测和未观测特征上都是相似的。
为了保证这些假设成立,研究者通常需要进行一系列的有效性检验:
* 检验驱动变量的密度 (Density Test of the Forcing Variable):通过绘制驱动变量的分布直方图并进行正式的统计检验(如McCrary检验),检查在断点处驱动变量的密度是否存在不连续的跳跃。如果个体能够精确地操纵其驱动变量的值以获得处理(例如,努力让考试分数恰好达到85分),那么在断点右侧的密度会异常增高,而在左侧则会异常降低。这种操纵行为会破坏局部随机性假设。
* 检验协变量的连续性 (Continuity of Covariates):检查那些不受处理影响的、在处理之前就已确定的协变量(如性别、种族、家庭背景等)在断点处是否也表现出不连续的跳跃。如果在断点处观察到这些本应平滑变化的协变量也发生跳跃,则强烈暗示断点两侧的群体在处理之外还存在其他系统性差异,违反了局部随机性假设。
## 估计方法
RDD的估计实质上是对断点两侧条件期望的局部估计。
局部线性回归 (Local Linear Regression) 是当前学术界最推崇和标准化的估计方法。其思想是在断点两侧的一个特定{{{带宽}}} (Bandwidth) $h$ 范围内,分别拟合线性回归模型。
一个常用的模型设定如下,针对 $|X_i - c| \leq h$ 的样本: $$ Y_i = \alpha + \tau T_i + \beta_1 (X_i - c) + \beta_2 T_i(X_i - c) + \epsilon_i $$ 其中: * $T_i$ 是处理虚拟变量($X_i \geq c$ 时为1,否则为0)。 * $(X_i - c)$ 是中心化后的驱动变量,模型允许结果变量随驱动变量线性变化。 * $T_i(X_i - c)$ 是交互项,允许断点两侧的回归线有不同的斜率。 * 系数 $\tau$ 就是我们关心的在断点处的{{{局部平均处理效应}}} (LATE) 的估计值。
在实践中,{{{带宽}}}选择 (Bandwidth Selection) 至关重要。较窄的带宽会减少模型设定的偏误(因为更接近断点的个体更具可比性),但会增加估计的方差(因为样本量减少)。较宽的带宽则相反。目前已有多种数据驱动的最优带宽选择方法(如Imbens-Kalyanaraman或Calonico-Cattaneo-Titiunik方法),以在{{{偏误-方差权衡}}} (Bias-Variance Trade-off) 中取得平衡。
## 优点与局限性
### 优点 1. 高内部有效性 (High Internal Validity):当假设成立时,RDD为因果推断提供了非常强的依据,其结论的可信度可与RCT相媲美。 2. 透明的识别机制 (Transparent Identification):与某些复杂的计量模型不同,RDD的因果识别来源(即断点规则)是明确和直观的,易于理解和检验。 3. 应用广泛 (Wide Applicability):在社会科学、公共政策、医学等领域,许多规则和门槛都天然构成了断点,如选举中的获胜门槛、法律规定的最低饮酒年龄、环境规制中的排放标准等。
### 局限性 1. 低外部有效性 (Low External Validity):RDD估计的是一个“局部”效应,即仅对那些驱动变量值恰好在断点附近的群体有效。这个效应不一定能推广到全体受处理的群体或远离断点的群体。例如,奖学金对85分学生的影响,可能完全不同于它对95分学生的影响。 2. 数据要求高 (Data Intensive):为了在断点附近获得足够多的观测样本以得到精确的估计,RDD通常需要大规模的数据集。 3. 对操纵的敏感性 (Sensitivity to Manipulation):如前所述,如果个体能够系统性地操纵驱动变量以跨越断点,将会严重破坏RDD的识别假设。