ARTICLE

断点回归

断点回归 (Regression Discontinuity Design) 断点回归 (Regression Discontinuity Design, RDD) 是一种用于因果推断的准实验设计。它被广泛应用于评估那些基于一个明确的连续性变量(即驱动变量)是否达到某个特定临界值(即断点)来分配干预或处理的政策或项目效果。在满足其核心假设的情况下,RDD能够

浏览 52 更新 2025-10-26

断点回归 (Regression Discontinuity Design)

断点回归 (Regression Discontinuity Design, RDD) 是一种用于因果推断准实验设计。它被广泛应用于评估那些基于一个明确的连续性变量(即驱动变量)是否达到某个特定临界值(即断点)来分配干预或处理的政策或项目效果。在满足其核心假设的情况下,RDD能够提供接近于随机对照试验的可靠因果估计。

核心思想与直觉

RDD的核心思想在于利用政策或规则中固有的"断点"来模拟一个局部性的随机实验。当一个干预措施的分配完全或主要取决于一个可观测的连续变量时,我们可以比较该变量值恰好在断点两侧的个体。

一个典型的例子是基于考试分数的奖学金评定。假设某大学规定,入学考试分数达到85分及以上的学生将获得奖学金,而低于85分的学生则没有。其中,驱动变量为入学考试分数,是一个连续变量;断点为85分,是决定是否获得奖学金的临界值;处理组为分数 85\ge 85 的学生,他们获得了奖学金即受到了"处理";控制组为分数 <85< 85 的学生,他们没有获得奖学金。

直觉上,一个考了85.1分的学生和一个考了84.9分的学生,在个人能力、家庭背景、学习动机等各方面可能都极为相似。他们之间最大的系统性差异就是前者获得了奖学金而后者没有。因此,通过比较这两组学生在未来某个结果变量(如学业成绩、毕业后收入等)上的差异,我们就可以近乎无偏地估计出奖学金带来的处理效应。这个在断点处的效应被称为局部平均处理效应 (LATE),因为它衡量的是对处于断点附近的这部分群体的平均影响。

RDD的类型

根据驱动变量决定处理状态的确定性,RDD可以分为两种主要类型。

清晰断点回归 (Sharp RDD, SRD)

在清晰RDD中,处理状态是驱动变量的一个确定性函数。所有在断点一侧的个体都接受处理,而在另一侧的个体都不接受处理。

TiT_i 为个体 ii 的处理状态(1表示接受处理,0表示未接受),XiX_i 为其驱动变量的值,cc 为断点。在SRD中,分配规则为:

Ti={1if Xic0if Xi<cT_i = \begin{cases} 1 & \text{if } X_i \ge c \\ 0 & \text{if } X_i < c \end{cases}

SRD所估计的处理效应 τSRD\tau_{SRD} 是结果变量 YY 的条件期望在断点 cc 处的不连续跳跃:

τSRD=limxc+E[YiXi=x]limxcE[YiXi=x]\tau_{SRD} = \lim_{x \to c^+} E[Y_i \mid X_i = x] - \lim_{x \to c^-} E[Y_i \mid X_i = x]

这个差值即为在断点 cc 处的局部平均处理效应 (LATE)。

模糊断点回归 (Fuzzy RDD, FRD)

在模糊RDD中,穿过断点并不绝对地决定个体是否接受处理,而是显著改变其接受处理的概率。

例如,某项政策规定,年收入低于\$20,000的家庭有资格申请一项住房补贴,但申请与否取决于家庭的自愿选择。在这种情况下,年收入恰好低于\$20,000的家庭获得补贴的概率会显著高于恰好高于该收入线的家庭,但前者获得补贴的概率不为1(有人可能不知道或不申请),后者也不为0(可能存在特殊审批情况)。

FRD的结构类似于工具变量法。在这里,"是否跨越断点"这个事件本身可以被视为一个工具变量:它与处理状态(是否真正获得补贴)高度相关,因为它显著改变了获得补贴的概率;它除了通过影响处理状态外,不直接影响结果变量(如家庭幸福感)。FRD估计的处理效应 τFRD\tau_{FRD} 是结果变量在断点的跳跃幅度与处理概率在断点的跳跃幅度的比率:

τFRD=limxc+E[YiXi=x]limxcE[YiXi=x]limxc+E[TiXi=x]limxcE[TiXi=x]\tau_{FRD} = \frac{\lim_{x \to c^+} E[Y_i \mid X_i = x] - \lim_{x \to c^-} E[Y_i \mid X_i = x]}{\lim_{x \to c^+} E[T_i \mid X_i = x] - \lim_{x \to c^-} E[T_i \mid X_i = x]}

分母衡量了处理接受概率在断点处的实际跳跃幅度。

核心假设与有效性检验

RDD的有效性依赖于几个关键假设,这些假设保证了在断点附近的比较是有效的。

连续性假设是RDD最核心的假设。它要求在没有处理的情况下,结果变量 YY 作为驱动变量 XX 的函数在断点 cc 处是连续的。换言之,任何在断点处观察到的 YY 的跳跃都只能归因于处理本身,而非其他因素。

局部随机性假设意味着在断点附近一个极小的邻域内,个体被分配到处理组或控制组是"近似随机"的。这意味着断点两侧的个体在所有其他可能影响结果的观测和未观测特征上都是相似的。

为了保证这些假设成立,研究者通常需要进行一系列的有效性检验。第一,检验驱动变量的密度:通过绘制驱动变量的分布直方图并进行正式的统计检验(如McCrary检验),检查在断点处驱动变量的密度是否存在不连续的跳跃。如果个体能够精确地操纵其驱动变量的值以获得处理(例如,努力让考试分数恰好达到85分),那么在断点右侧的密度会异常增高,而在左侧则会异常降低。这种操纵行为会破坏局部随机性假设。第二,检验协变量的连续性:检查那些不受处理影响的、在处理之前就已确定的协变量(如性别、种族、家庭背景等)在断点处是否也表现出不连续的跳跃。如果在断点处观察到这些本应平滑变化的协变量也发生跳跃,则强烈暗示断点两侧的群体在处理之外还存在其他系统性差异。

估计方法

RDD的估计实质上是对断点两侧条件期望的局部估计。

局部线性回归是当前学术界最推崇和标准化的估计方法。其思想是在断点两侧的一个特定带宽 hh 范围内,分别拟合线性回归模型。

一个常用的模型设定如下,针对 Xich|X_i - c| \le h 的样本:

Yi=α+τTi+β1(Xic)+β2Ti(Xic)+ϵiY_i = \alpha + \tau T_i + \beta_1 (X_i - c) + \beta_2 T_i(X_i - c) + \epsilon_i

其中,TiT_i 是处理虚拟变量(XicX_i \ge c 时为1,否则为0),(Xic)(X_i - c) 是中心化后的驱动变量,模型允许结果变量随驱动变量线性变化,Ti(Xic)T_i(X_i - c) 是交互项,允许断点两侧的回归线有不同的斜率。系数 τ\tau 就是我们关心的在断点处的局部平均处理效应 (LATE) 的估计值。

在实践中,带宽选择至关重要。较窄的带宽会减少模型设定的偏误(因为更接近断点的个体更具可比性),但会增加估计的方差(因为样本量减少);较宽的带宽则相反。目前已有多种数据驱动的最优带宽选择方法(如Imbens-Kalyanaraman或Calonico-Cattaneo-Titiunik方法),以在偏误-方差权衡中取得平衡。

优点与局限性

优点

RDD具有以下主要优点。第一,高内部有效性:当假设成立时,RDD为因果推断提供了非常强的依据,其结论的可信度可与RCT相媲美。第二,透明的识别机制:与某些复杂的计量模型不同,RDD的因果识别来源(即断点规则)是明确和直观的,易于理解和检验。第三,应用广泛:在社会科学、公共政策、医学等领域,许多规则和门槛都天然构成了断点,如选举中的获胜门槛、法律规定的最低饮酒年龄、环境规制中的排放标准等。

局限性

RDD也存在若干局限性。第一,低外部有效性:RDD估计的是一个"局部"效应,即仅对那些驱动变量值恰好在断点附近的群体有效。这个效应不一定能推广到全体受处理的群体或远离断点的群体。例如,奖学金对85分学生的影响,可能完全不同于它对95分学生的影响。第二,数据要求高:为了在断点附近获得足够多的观测样本以得到精确的估计,RDD通常需要大规模的数据集。第三,对操纵的敏感性:如果个体能够系统性地操纵驱动变量以跨越断点,将会严重破坏RDD的识别假设。