ARTICLE

简单回归与多元回归系数的比较

简单回归与多元回归系数的比较 (Comparison of Simple and Multiple Regression Coefficients) 在回归分析 (Regression Analysis) 中,一个核心问题是理解自变量 (Independent Variable) 对因变量 (Dependent Variable) 的影响。然而,从一个只包含

浏览 43 更新 2025-10-28

简单回归与多元回归系数的比较 (Comparison of Simple and Multiple Regression Coefficients)

回归分析 (Regression Analysis) 中,一个核心问题是理解自变量 (Independent Variable) 对因变量 (Dependent Variable) 的影响。然而,从一个只包含单个自变量的简单线性回归 (Simple Linear Regression)模型,扩展到一个包含多个自变量的多元线性回归 (Multiple Linear Regression)模型时,原有自变量的系数 (Coefficient) 往往会发生变化。理解这种变化的原因和方向,是正确解释回归结果和诊断模型设定问题的关键,其核心在于遗漏变量偏误 (Omitted Variable Bias)的概念。

模型的设定与系数的解释

为了清晰地比较,我们首先设定两个模型。假设我们关心变量 X1 X_1 Y Y 的影响。

1. 简单线性回归模型

该模型只包含一个自变量 X1 X_1 :

Yi=β0+β1X1i+uiY_i = \beta_0 + \beta_1 X_{1i} + u_i
  • Yi Y_i 是因变量的第 i i 次观测值。
  • X1i X_{1i} 是自变量的第 i i 次观测值。
  • β0 \beta_0 截距项 (Intercept)。
  • β1 \beta_1 X1 X_1 回归系数。它衡量的是,在不考虑任何其他变量影响的情况下,X1 X_1 每增加一个单位, Y Y 的期望变化量。这是一个 总效应 (Total Effect) 的度量。
  • ui u_i 误差项 (Error Term),代表了所有未被 X1 X_1 解释的对 Y Y 的影响因素。

使用最小二乘法 (Ordinary Least Squares, OLS) 得到的 β1 \beta_1 的估计量 β^1 \hat{\beta}_1 可以表示为:

β^1=Cov(X1,Y)Var(X1)\hat{\beta}_1 = \frac{\text{Cov}(X_1, Y)}{\text{Var}(X_1)}

2. 多元线性回归模型

现在,我们加入第二个自变量 X2 X_2 ,构建一个多元回归模型:

Yi=γ0+γ1X1i+γ2X2i+viY_i = \gamma_0 + \gamma_1 X_{1i} + \gamma_2 X_{2i} + v_i
  • γ0 \gamma_0 , γ1 \gamma_1 , γ2 \gamma_2 是模型的回归系数。
  • vi v_i 是新的误差项。

在这里,系数 γ1 \gamma_1 的解释发生了根本性的变化。它衡量的是,在保持其他自变量(此处为 X2 X_2 )不变的情况下,X1 X_1 每增加一个单位,Y Y 的期望变化量。这被称为边际效应 (Marginal Effect)偏效应 (Partial Effect),它遵循控制变量法 (ceteris paribus) 的原则。

比较 β^1 \hat{\beta}_1 γ^1 \hat{\gamma}_1 :遗漏变量偏误的根源

一般情况下,我们会发现 β^1γ^1 \hat{\beta}_1 \neq \hat{\gamma}_1 。简单回归中的系数 β^1 \hat{\beta}_1 和多元回归中的系数 γ^1 \hat{\gamma}_1 之间的关系可以通过以下精确的数学公式来描述:

β^1=γ^1+γ^2δ^1\hat{\beta}_1 = \hat{\gamma}_1 + \hat{\gamma}_2 \hat{\delta}_1

我们来拆解这个公式:

  • β^1 \hat{\beta}_1 :Y Y X1 X_1 进行简单回归得到的系数。
  • γ^1 \hat{\gamma}_1 :在控制了 X2 X_2 后,Y Y X1 X_1 X2 X_2 进行多元回归得到的 X1 X_1 的系数。这是我们通常希望得到的、X1 X_1 Y Y 的"真实"偏效应的估计。
  • γ^2 \hat{\gamma}_2 :在同一多元回归中,X2 X_2 的系数,衡量了在控制 X1 X_1 X2 X_2 Y Y 的偏效应。
  • δ^1 \hat{\delta}_1 :这是一个辅助回归 (Auxiliary Regression) 的系数。这个回归是将原本被遗漏的变量 X2 X_2 对包含的变量 X1 X_1 进行回归:X2=δ0+δ1X1+error X_2 = \delta_0 + \delta_1 X_1 + \text{error} 。因此,δ^1 \hat{\delta}_1 衡量了 X1 X_1 X2 X_2 之间的相关关系

这个公式告诉我们,简单回归的系数 β^1 \hat{\beta}_1 实际上包含了两个部分:

  1. X1 X_1 Y Y 的直接影响 (γ^1 \hat{\gamma}_1 )。
  2. 通过与 X2 X_2 的相关性产生的间接影响 (γ^2δ^1 \hat{\gamma}_2 \hat{\delta}_1 )。当 X1 X_1 变化时,它会引起与其相关的 X2 X_2 也发生变化(由 δ^1 \hat{\delta}_1 描述),而 X2 X_2 的变化又会进一步影响 Y Y (由 γ^2 \hat{\gamma}_2 描述)。

简单回归模型由于未能将 X2 X_2 单独分离出来,因此把这个间接影响也错误地归因于 X1 X_1 。这个差值 γ^2δ^1 \hat{\gamma}_2 \hat{\delta}_1 就被称为遗漏变量偏误

Frisch-Waugh-Lovell 定理的视角

上述公式可以从 Frisch-Waugh-Lovell 定理 (FWL Theorem) 获得更深刻的理解。该定理表明,多元回归中 X1 X_1 的系数 γ^1 \hat{\gamma}_1 等价于以下两步程序的结果:

  1. X1 X_1 X2 X_2 回归,取残差 eX1 e_{X_1} 。这相当于从 X1 X_1 中"剥离"掉 X2 X_2 所能解释的部分,得到 X1 X_1 中与 X2 X_2 正交 的分量。
  2. Y Y eX1 e_{X_1} 进行简单回归。

换言之,γ^1 \hat{\gamma}_1 度量的是 X1 X_1 中"独立于 X2 X_2 的变动"对 Y Y 的影响——这正是"控制"一词的几何含义。与此对照,简单回归的 β^1 \hat{\beta}_1 使用了 X1 X_1 的全部变动(包括与 X2 X_2 相关的部分),因此受到遗漏变量偏误的污染。FWL 定理为理解"控制"提供了清晰的代数与几何直觉。

遗漏变量偏误的条件与方向

从公式 β^1γ^1=γ^2δ^1 \hat{\beta}_1 - \hat{\gamma}_1 = \hat{\gamma}_2 \hat{\delta}_1 可以看出,产生遗漏变量偏误(即 β^1γ^1 \hat{\beta}_1 \neq \hat{\gamma}_1 )需要同时满足两个条件:

  1. 被遗漏的变量 X2 X_2 本身是 Y Y 的一个相关影响因素。这意味着在真实的多元模型中,它的系数不为零,即 γ20 \gamma_2 \neq 0 。如果 γ2=0 \gamma_2 = 0 ,那么 X2 X_2 本就与 Y Y 无关,遗漏它不会产生任何偏误。
  2. 被遗漏的变量 X2 X_2 与模型中包含的自变量 X1 X_1 相关。这意味着 Corr(X1,X2)0 \text{Corr}(X_1, X_2) \neq 0 ,从而导致辅助回归系数 δ10 \delta_1 \neq 0 。如果 X1 X_1 X2 X_2 不相关(即正交),那么即使 X2 X_2 Y Y 有影响,这个影响也不会通过 X1 X_1 错误地传导,也就不会对 β^1 \hat{\beta}_1 造成偏误。

偏误的方向取决于 γ^2 \hat{\gamma}_2 δ^1 \hat{\delta}_1 (即 Corr(X1,X2) \text{Corr}(X_1, X_2) 的符号)的乘积:

| X1 X_1 X2 X_2 的相关性 (Corr(X1,X2) {\text{Corr}(X_1, X_2)} ) | X2 X_2 Y Y 的影响 (γ2 {\gamma_2} ) | 偏误方向 (β^1γ^1 {\hat{\beta}_1 - \hat{\gamma}_1} ) | 结论 | | :---: | :---: | :---: | :--- | | 正相关 (>0 >0 ) | 正向 (>0 >0 ) | 正偏误 (>0 >0 ) | β^1 \hat{\beta}_1 高估γ1 \gamma_1 | | 正相关 (>0 >0 ) | 负向 (<0 <0 ) | 负偏误 (<0 <0 ) | β^1 \hat{\beta}_1 低估γ1 \gamma_1 | | 负相关 (<0 <0 ) | 正向 (>0 >0 ) | 负偏误 (<0 <0 ) | β^1 \hat{\beta}_1 低估γ1 \gamma_1 | | 负相关 (<0 <0 ) | 负向 (<0 <0 ) | 正偏误 (>0 >0 ) | β^1 \hat{\beta}_1 高估γ1 \gamma_1 |

示例: 假设我们研究教育年限(X1 X_1 )对个人收入(Y Y )的影响。

  • 简单回归:Income=β0+β1Education+u Income = \beta_0 + \beta_1 Education + u 。我们通常会得到一个显著为正的 β^1 \hat{\beta}_1
  • 遗漏变量:我们有理由相信个人能力(Ability,X2 X_2 )既影响收入(能力高的人收入更高,γ2>0 \gamma_2 > 0 ),又与教育年限正相关(能力高的人倾向于接受更长时间的教育,Corr(Education,Ability)>0 \text{Corr}(Education, Ability) > 0 )。
  • 多元回归:Income=γ0+γ1Education+γ2Ability+v Income = \gamma_0 + \gamma_1 Education + \gamma_2 Ability + v
  • 偏误分析:由于 γ2>0 \gamma_2 > 0 Corr(X1,X2)>0 \text{Corr}(X_1, X_2) > 0 ,遗漏变量偏误为正。这意味着简单回归得到的 β^1 \hat{\beta}_1 高估教育对收入的真实回报(γ1 \gamma_1 )。它错误地将一部分由"能力"带来的收入增长归功于"教育"。

何时系数保持不变?

只有在遗漏变量偏误项 γ^2δ^1 \hat{\gamma}_2 \hat{\delta}_1 为零时,简单回归和多元回归的系数才会相等,即 β^1=γ^1 \hat{\beta}_1 = \hat{\gamma}_1 。这发生在以下两种特殊情况之一:

  1. γ^2=0 \hat{\gamma}_2 = 0 :新加入的变量 X2 X_2 对因变量 Y Y 没有影响。将它加入模型是无害但非必要的。
  2. δ^1=0 \hat{\delta}_1 = 0 :新加入的变量 X2 X_2 与原有的变量 X1 X_1 在样本中完全不相关(正交)。在这种理想情况下,模型能够清晰地区分 X1 X_1 X2 X_2 各自对 Y Y 的贡献,因此加入 X2 X_2 不会影响对 X1 X_1 效果的衡量。

对应用研究的启示

  • 系数变化是信息:在实证研究中,当加入新的控制变量后,原有变量的系数发生大小甚至符号上的改变,这本身是非常重要的信息。它揭示了变量之间复杂的相关性,并帮助我们诊断初始模型可能存在的遗漏变量偏误。
  • 追求正确的模型设定:研究者的目标是建立一个"正确设定"的模型,即包含所有与因变量相关且与模型中其他自变量相关的解释变量。通过这种方式,我们才能获得对每个自变量偏效应的无偏估计
  • 区别于多重共线性:需要注意的是,遗漏变量偏误与多重共线性是两个不同的问题。遗漏变量偏误导致系数估计有偏不一致。而多重共线性(即自变量之间高度相关)不会导致系数估计有偏,但会增大其标准误 (Standard Errors),降低估计的精度,使得我们难以对单个变量的影响做出可靠的统计推断
  • 符号反转的可能性:在某些情况下,遗漏变量偏误不仅改变系数的大小,甚至可能改变系数的符号。例如,若 γ^2 \hat{\gamma}_2 δ^1 \hat{\delta}_1 的乘积为负且绝对值大于 γ^1 \hat{\gamma}_1 ,则 β^1 \hat{\beta}_1 可能与 γ^1 \hat{\gamma}_1 异号。这种"符号反转" (Sign Reversal) 是最具误导性的遗漏变量偏误形式,因为它暗示了与真实关系方向相反的结论。
  • 逐步回归的谨慎使用:上述公式 β^1=γ^1+γ^2δ^1 \hat{\beta}_1 = \hat{\gamma}_1 + \hat{\gamma}_2 \hat{\delta}_1 为理解逐步添加控制变量时系数的变化提供了分析框架。研究者可以追踪每一步系数变化的方向和幅度,从而推断被遗漏变量的可能性质。但应注意,这种方法仅能提供定性判断,不能替代基于经济理论的模型设定。

更多实例:工资方程的系数比较

除了教育-能力的经典案例外,考虑另一个重要场景:研究工作经验 (X1 X_1 ) 对工资 (Y Y ) 的影响。

  • 简单回归Wage=β0+β1Experience+u Wage = \beta_0 + \beta_1 Experience + u
  • 遗漏变量:工作任期 (Tenure, X2 X_2 ) 可能与工作经验正相关(在同一家公司工作越久,总工作经验也越多),且对工资有正向影响(γ2>0 \gamma_2 > 0 )。
  • 偏误方向Corr(Experience,Tenure)>0 \text{Corr}(Experience, Tenure) > 0 γ2>0 \gamma_2 > 0 ,故遗漏变量偏误为正,简单回归高估了经验本身的回报——它错误地将部分任期溢价归因于经验。
  • 政策含义:若政策制定者依赖简单回归结果来设计培训补贴,可能将过多资源投向通用经验培养,而忽视了企业内部人力资本积累(任期)的作用。

另一个值得关注的场景是"坏控制" (Bad Control) 问题。当 X2 X_2 本身受到 X1 X_1 的影响(即 X2 X_2 是中介变量而非混杂变量),将其纳入回归反而会引入新的偏误。此时 γ^1 \hat{\gamma}_1 不再等于 X1 X_1 Y Y 的总效应,而仅捕获直接效应。研究者必须在控制混杂与避免过度控制之间取得平衡。