简单回归与多元回归系数的比较 (Comparison of Simple and Multiple Regression Coefficients)
在回归分析 (Regression Analysis) 中,一个核心问题是理解自变量 (Independent Variable) 对因变量 (Dependent Variable) 的影响。然而,从一个只包含单个自变量的简单线性回归 (Simple Linear Regression)模型,扩展到一个包含多个自变量的多元线性回归 (Multiple Linear Regression)模型时,原有自变量的系数 (Coefficient) 往往会发生变化。理解这种变化的原因和方向,是正确解释回归结果和诊断模型设定问题的关键,其核心在于遗漏变量偏误 (Omitted Variable Bias)的概念。
模型的设定与系数的解释
为了清晰地比较,我们首先设定两个模型。假设我们关心变量 X1 对 Y 的影响。
1. 简单线性回归模型
该模型只包含一个自变量 X1:
Yi=β0+β1X1i+ui
- Yi 是因变量的第 i 次观测值。
- X1i 是自变量的第 i 次观测值。
- β0 是截距项 (Intercept)。
- β1 是 X1 的回归系数。它衡量的是,在不考虑任何其他变量影响的情况下,X1 每增加一个单位, Y 的期望变化量。这是一个 总效应 (Total Effect) 的度量。
- ui 是误差项 (Error Term),代表了所有未被 X1 解释的对 Y 的影响因素。
使用最小二乘法 (Ordinary Least Squares, OLS) 得到的 β1 的估计量 β^1 可以表示为:
β^1=Var(X1)Cov(X1,Y)
2. 多元线性回归模型
现在,我们加入第二个自变量 X2,构建一个多元回归模型:
Yi=γ0+γ1X1i+γ2X2i+vi
- γ0, γ1, γ2 是模型的回归系数。
- vi 是新的误差项。
在这里,系数 γ1 的解释发生了根本性的变化。它衡量的是,在保持其他自变量(此处为 X2)不变的情况下,X1 每增加一个单位,Y 的期望变化量。这被称为边际效应 (Marginal Effect) 或 偏效应 (Partial Effect),它遵循控制变量法 (ceteris paribus) 的原则。
比较 β^1 和 γ^1:遗漏变量偏误的根源
一般情况下,我们会发现 β^1=γ^1。简单回归中的系数 β^1 和多元回归中的系数 γ^1 之间的关系可以通过以下精确的数学公式来描述:
β^1=γ^1+γ^2δ^1
我们来拆解这个公式:
- β^1:Y 对 X1 进行简单回归得到的系数。
- γ^1:在控制了 X2 后,Y 对 X1 和 X2 进行多元回归得到的 X1 的系数。这是我们通常希望得到的、X1 对 Y 的"真实"偏效应的估计。
- γ^2:在同一多元回归中,X2 的系数,衡量了在控制 X1 后 X2 对 Y 的偏效应。
- δ^1:这是一个辅助回归 (Auxiliary Regression) 的系数。这个回归是将原本被遗漏的变量 X2 对包含的变量 X1 进行回归:X2=δ0+δ1X1+error。因此,δ^1 衡量了 X1 和 X2 之间的相关关系。
这个公式告诉我们,简单回归的系数 β^1 实际上包含了两个部分:
- X1 对 Y 的直接影响 (γ^1)。
- 通过与 X2 的相关性产生的间接影响 (γ^2δ^1)。当 X1 变化时,它会引起与其相关的 X2 也发生变化(由 δ^1 描述),而 X2 的变化又会进一步影响 Y(由 γ^2 描述)。
简单回归模型由于未能将 X2 单独分离出来,因此把这个间接影响也错误地归因于 X1。这个差值 γ^2δ^1 就被称为遗漏变量偏误。
Frisch-Waugh-Lovell 定理的视角
上述公式可以从 Frisch-Waugh-Lovell 定理 (FWL Theorem) 获得更深刻的理解。该定理表明,多元回归中 X1 的系数 γ^1 等价于以下两步程序的结果:
- 将 X1 对 X2 回归,取残差 eX1。这相当于从 X1 中"剥离"掉 X2 所能解释的部分,得到 X1 中与 X2 正交 的分量。
- 将 Y 对 eX1 进行简单回归。
换言之,γ^1 度量的是 X1 中"独立于 X2 的变动"对 Y 的影响——这正是"控制"一词的几何含义。与此对照,简单回归的 β^1 使用了 X1 的全部变动(包括与 X2 相关的部分),因此受到遗漏变量偏误的污染。FWL 定理为理解"控制"提供了清晰的代数与几何直觉。
遗漏变量偏误的条件与方向
从公式 β^1−γ^1=γ^2δ^1 可以看出,产生遗漏变量偏误(即 β^1=γ^1)需要同时满足两个条件:
- 被遗漏的变量 X2 本身是 Y 的一个相关影响因素。这意味着在真实的多元模型中,它的系数不为零,即 γ2=0。如果 γ2=0,那么 X2 本就与 Y 无关,遗漏它不会产生任何偏误。
- 被遗漏的变量 X2 与模型中包含的自变量 X1 相关。这意味着 Corr(X1,X2)=0,从而导致辅助回归系数 δ1=0。如果 X1 和 X2 不相关(即正交),那么即使 X2 对 Y 有影响,这个影响也不会通过 X1 错误地传导,也就不会对 β^1 造成偏误。
偏误的方向取决于 γ^2 和 δ^1 (即 Corr(X1,X2) 的符号)的乘积:
| X1与X2的相关性 (Corr(X1,X2)) | X2对Y的影响 (γ2) | 偏误方向 (β^1−γ^1) | 结论 | | :---: | :---: | :---: | :--- | | 正相关 (>0) | 正向 (>0) | 正偏误 (>0) | β^1 高估了 γ1 | | 正相关 (>0) | 负向 (<0) | 负偏误 (<0) | β^1 低估了 γ1 | | 负相关 (<0) | 正向 (>0) | 负偏误 (<0) | β^1 低估了 γ1 | | 负相关 (<0) | 负向 (<0) | 正偏误 (>0) | β^1 高估了 γ1 |
示例: 假设我们研究教育年限(X1)对个人收入(Y)的影响。
- 简单回归:Income=β0+β1Education+u。我们通常会得到一个显著为正的 β^1。
- 遗漏变量:我们有理由相信个人能力(Ability,X2)既影响收入(能力高的人收入更高,γ2>0),又与教育年限正相关(能力高的人倾向于接受更长时间的教育,Corr(Education,Ability)>0)。
- 多元回归:Income=γ0+γ1Education+γ2Ability+v。
- 偏误分析:由于 γ2>0 且 Corr(X1,X2)>0,遗漏变量偏误为正。这意味着简单回归得到的 β^1 会高估教育对收入的真实回报(γ1)。它错误地将一部分由"能力"带来的收入增长归功于"教育"。
何时系数保持不变?
只有在遗漏变量偏误项 γ^2δ^1 为零时,简单回归和多元回归的系数才会相等,即 β^1=γ^1。这发生在以下两种特殊情况之一:
- γ^2=0:新加入的变量 X2 对因变量 Y 没有影响。将它加入模型是无害但非必要的。
- δ^1=0:新加入的变量 X2 与原有的变量 X1 在样本中完全不相关(正交)。在这种理想情况下,模型能够清晰地区分 X1 和 X2 各自对 Y 的贡献,因此加入 X2 不会影响对 X1 效果的衡量。
对应用研究的启示
- 系数变化是信息:在实证研究中,当加入新的控制变量后,原有变量的系数发生大小甚至符号上的改变,这本身是非常重要的信息。它揭示了变量之间复杂的相关性,并帮助我们诊断初始模型可能存在的遗漏变量偏误。
- 追求正确的模型设定:研究者的目标是建立一个"正确设定"的模型,即包含所有与因变量相关且与模型中其他自变量相关的解释变量。通过这种方式,我们才能获得对每个自变量偏效应的无偏估计。
- 区别于多重共线性:需要注意的是,遗漏变量偏误与多重共线性是两个不同的问题。遗漏变量偏误导致系数估计有偏且不一致。而多重共线性(即自变量之间高度相关)不会导致系数估计有偏,但会增大其标准误 (Standard Errors),降低估计的精度,使得我们难以对单个变量的影响做出可靠的统计推断。
- 符号反转的可能性:在某些情况下,遗漏变量偏误不仅改变系数的大小,甚至可能改变系数的符号。例如,若 γ^2 和 δ^1 的乘积为负且绝对值大于 γ^1,则 β^1 可能与 γ^1 异号。这种"符号反转" (Sign Reversal) 是最具误导性的遗漏变量偏误形式,因为它暗示了与真实关系方向相反的结论。
- 逐步回归的谨慎使用:上述公式 β^1=γ^1+γ^2δ^1 为理解逐步添加控制变量时系数的变化提供了分析框架。研究者可以追踪每一步系数变化的方向和幅度,从而推断被遗漏变量的可能性质。但应注意,这种方法仅能提供定性判断,不能替代基于经济理论的模型设定。
更多实例:工资方程的系数比较
除了教育-能力的经典案例外,考虑另一个重要场景:研究工作经验 (X1) 对工资 (Y) 的影响。
- 简单回归:Wage=β0+β1Experience+u。
- 遗漏变量:工作任期 (Tenure, X2) 可能与工作经验正相关(在同一家公司工作越久,总工作经验也越多),且对工资有正向影响(γ2>0)。
- 偏误方向:Corr(Experience,Tenure)>0,γ2>0,故遗漏变量偏误为正,简单回归高估了经验本身的回报——它错误地将部分任期溢价归因于经验。
- 政策含义:若政策制定者依赖简单回归结果来设计培训补贴,可能将过多资源投向通用经验培养,而忽视了企业内部人力资本积累(任期)的作用。
另一个值得关注的场景是"坏控制" (Bad Control) 问题。当 X2 本身受到 X1 的影响(即 X2 是中介变量而非混杂变量),将其纳入回归反而会引入新的偏误。此时 γ^1 不再等于 X1 对 Y 的总效应,而仅捕获直接效应。研究者必须在控制混杂与避免过度控制之间取得平衡。