ARTICLE
基准组
基准组 (Reference Group / Baseline Category) 基准组,亦称参照组或基线类别,是指在统计建模和计量经济学分析中,当引入分类变量(或称定性变量、虚拟变量)时,被选作比较基准的那个类别。在回归模型中,基准组对应的虚拟变量被省略(即不进入回归方程),模型中的截距项捕捉该组的条件均值,而其他类别的回归系数则度量的是这些类别相对于基
基准组 (Reference Group / Baseline Category)
基准组,亦称参照组或基线类别,是指在统计建模和计量经济学分析中,当引入分类变量(或称定性变量、虚拟变量)时,被选作比较基准的那个类别。在回归模型中,基准组对应的虚拟变量被省略(即不进入回归方程),模型中的截距项捕捉该组的条件均值,而其他类别的回归系数则度量的是这些类别相对于基准组的差异效应。这一设定是识别分类变量效应的标准方法,也是避免完全共线性(虚拟变量陷阱)的必要技术手段。
回归分析中的基准组
考虑一个包含分类变量(如地区:东部、中部、西部)的线性回归模型。若直接为三个地区各设一个虚拟变量并同时放入模型,则会因 与截距项完全共线而导致模型不可识别。解决方法是必须省略一个类别作为基准组:
其中东部为基准组(被省略)。此时:
- :东部(基准组)在控制 后的条件均值
- :中部相对于东部的平均差异
- :西部相对于东部的平均差异
若想比较中部与西部的差异,可计算 并进行Wald检验来检验其显著性。
基准组的选择原则
基准组的选择并非机械的,而是与研究的实质性问题和解释便利性密切相关:
- 实质性意义:应选择在理论上或实践中具有"默认"或"标准"含义的类别。例如,在性别工资差异研究中,通常以男性为基准组,使系数直接解读为"女性工资溢价/惩罚";在研究政策效应时,以未受政策干预的群体为基准组。
- 样本量充足:基准组应具有足够的样本量以保证 的估计精度。若某类别样本极少,则以其为基准组会导致所有其他类别的对比估计方差增大。
- 避免误导性比较:不应选择极端类别或异质性过高的混合群体作为基准,否则所有对比系数都将难以获得有意义的实质性解释。
- 敏感性分析:实践中建议交替变换基准组进行稳健性检验,确保核心结论不依赖于特定的基准组选择。
双重差分法中的基准组
在双重差分法 (Difference-in-Differences, DiD) 框架中,基准组的逻辑尤为重要。标准 DiD 设定包含两个维度:时间(处理前/后)和处理状态(处理组/对照组)。其中对照组(未受政策干预的个体)在概念上就是基准组——政策效应的识别依赖于处理组在处理后的结果变化减去对照组在同一时期的变化:
这里的对照组即为基准组,其角色是提供反事实模拟:若处理组未受干预,其变化趋势应与对照组一致(平行趋势假设)。因此,DiD 估计的有效性关键取决于基准组的选择是否满足这一假设。实践中,研究者常通过事件研究法、合成控制法或倾向得分匹配来构造更为可信的基准组。
实证案例:教育回报率估计
在教育经济学中,基准组的选择直接关乎研究结论。例如,Mincer 工资方程中若以"高中及以下"为基准组,则大学本科的系数度量的是本科相对于高中学历的平均工资溢价。然而,若研究问题关心的是研究生教育相对于本科教育的额外回报,则应以本科为基准组重新设定虚拟变量。同一个数据集、同一组变量,仅因基准组不同,报告的系数值将完全不同——这并非模型错误,而是同一组信息的不同参数化表达。在跨国比较研究中,基准组选择的差异也可能导致表面上的结论分歧,因此研究者在报告结果时应 extbf{明确声明基准组}并附上各组的描述性统计,以便读者判断对比的适当性。
多项选择模型中的基准组
在逻辑回归模型的多类别扩展——多项 Logit 模型中,基准组同样不可或缺。对于 个互斥的选择类别,模型设定为:
其中类别 被选作基准组,所有其他类别的对数几率均相对于基准组表达。基准组的重新选择会改变系数的数值但不改变选择概率的预测值,这是模型识别约束的直接后果。
注意事项与常见误区
- "无基准组"的模型不可识别:试图"平等对待"所有类别而同时放入全部虚拟变量且保留截距项会导致完全共线性,估计软件将自动删除一个变量(但选择可能并非研究者意图)。
- 基准组不等于"不重要":基准组的选择仅影响参数化的方式,不改变模型对数据的拟合优度(、对数似然值等全局统计量保持不变)。
- 截距的解释依赖基准组:模型截距始终等于基准组在控制变量取零值时的条件均值,因此截距的数值和显著性高度依赖于基准组的选择以及连续变量的中心化处理。
- 交互项中的基准组:当分类变量与其他变量交互时,基准组的所有交互项系数亦被省略,交互项系数度量的是非基准类别相对于基准类别的边际效应差异。
- 基准组与研究设计:在实验研究和准实验设计中,基准组(控制组)的构造方式直接决定了因果识别的内部有效性。随机化实验通过随机分配保证处理组与基准组在可观测和不可观测特征上的平衡,而观测研究则需要借助倾向得分匹配、工具变量或断点回归等策略来构造可比的基准组。忽视基准组的选择依据而仅依赖回归的机械输出,是实证研究中导致错误推断的常见来源。