ARTICLE

多重回归

多重回归 (Multiple Regression) 多重回归(Multiple Regression),又称多元线性回归,是回归分析的一种重要扩展形式。与仅包含一个自变量的简单线性回归不同,多重回归允许研究者将两个或两个以上的自变量同时纳入模型,以解释或预测一个因变量。其核心价值在于:现实世界的经济和社会现象几乎总是由多个因素共同驱动的,多重回归提供了一个

浏览 0 更新 2025-12-15

多重回归 (Multiple Regression)

多重回归(Multiple Regression),又称多元线性回归,是回归分析的一种重要扩展形式。与仅包含一个自变量的简单线性回归不同,多重回归允许研究者将两个或两个以上的自变量同时纳入模型,以解释或预测一个因变量。其核心价值在于:现实世界的经济和社会现象几乎总是由多个因素共同驱动的,多重回归提供了一个系统性的框架来量化每个因素的独立贡献,并在统计上控制混杂变量的影响。

模型设定与数学表达

多重回归的总体模型可写为:

Y=β0+β1X1+β2X2++βkXk+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon

其中 Y Y 为因变量,X1,X2,,Xk X_1, X_2, \dots, X_k k k 个自变量,β0 \beta_0 为截距项,βj \beta_j j=1,,k j = 1, \dots, k )为各个自变量的偏回归系数ε \varepsilon 为随机误差项。对于包含 n n 个观测值的样本,更紧凑的矩阵表示为:

y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 y \mathbf{y} n×1 n \times 1 因变量向量,X \mathbf{X} n×(k+1) n \times (k+1) 设计矩阵(第一列为全 1 向量),β \boldsymbol{\beta} (k+1)×1 (k+1) \times 1 参数向量,ε \boldsymbol{\varepsilon} n×1 n \times 1 误差向量。矩阵表示不仅简洁,而且为后续的代数推导和计算提供了便利。

偏回归系数的解释

多重回归与简单回归的关键区别在于系数的解释方式。在多重回归中,每个系数 βj \beta_j 衡量的是:在保持所有其他自变量不变的情况下ceteris paribus),Xj X_j 每增加一个单位时,Y Y 的期望变化量。这一"其他条件不变"的解读使得研究者能够从混杂因素中分离出单个变量的净效应。

例如,在估计教育回报的经典模型 ln(工资)=β0+β1教育年限+β2工作经验+ε \ln(\text{工资}) = \beta_0 + \beta_1 \text{教育年限} + \beta_2 \text{工作经验} + \varepsilon 中,β1 \beta_1 表示在工作经验相同的前提下,多接受一年教育所带来的工资百分比变化。如果没有控制工作经验,简单回归可能会因高学历者通常也有更多工作经验而高估教育的真实回报。这一例子充分说明了多重回归在因果推断中的关键作用——通过控制可观测的混杂因素来逼近真实的因果效应。

参数估计:普通最小二乘法

多重回归的参数通常通过普通最小二乘法(OLS)来估计。OLS 寻找使残差平方和最小的系数向量:

β^=argminβ(yXβ)(yXβ)\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})' (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

通过求解一阶条件,得到经典的OLS 估计量

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

这一公式要求 XX \mathbf{X}'\mathbf{X} 可逆,即自变量之间不存在完全多重共线性。在Gauss-Markov定理成立的条件下(即满足线性、零条件均值、同方差且无自相关),OLS 估计量是所有线性无偏估计量中方差最小的(BLUE, Best Linear Unbiased Estimator),这一性质是 OLS 在计量经济学中占据核心地位的理论基础。

Frisch-Waugh-Lovell 定理

Frisch-Waugh-Lovell定理(FWL 定理)揭示了多重回归的一个重要性质:在包含多个自变量的回归中,某个特定变量的系数估计值,等价于先将该变量和其他所有变量分别对其他变量进行回归以"去除"其他变量的影响,再对两组残差进行简单回归所得的结果。这一结果不仅为偏回归系数的"其他条件不变"解释提供了严格的数学基础,也是许多高级计量方法(如固定效应模型、部分线性模型)的理论出发点。

模型评估与统计推断

多重回归的拟合优度由R-squaredR2 R^2 )衡量,定义为:

R2=1SSRSST=ESSSSTR^2 = 1 - \frac{\text{SSR}}{\text{SST}} = \frac{\text{ESS}}{\text{SST}}

其中 SSR 为残差平方和,SST 为总离差平方和,ESS 为回归平方和。然而,R2 R^2 会随着自变量数量的增加而单调递增,即使加入完全无关的变量也是如此。为此,Adjusted R-squared(调整后 R2 R^2 )通过引入自由度惩罚加以修正:

Rˉ2=1SSR/(nk1)SST/(n1)\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k-1)}{\text{SST}/(n-1)}

在统计推断方面,每个系数的显著性通过 t 检验来评估,原假设为 H0:βj=0 H_0: \beta_j = 0 ,检验统计量为 t=β^j/SE(β^j) t = \hat{\beta}_j / \text{SE}(\hat{\beta}_j) 。模型的整体显著性则通过 F 检验来评估,检验所有斜率系数是否联合为零。此外,研究者还经常使用联合假设检验(如 Wald 检验)来考察多个线性约束是否同时成立。

经典假设条件

OLS 估计量的优良性质依赖于以下假设:

  1. 线性:模型在参数上是线性的。
  2. 零条件均值E(εX1,,Xk)=0 E(\varepsilon \mid X_1, \dots, X_k) = 0 ,确保自变量与误差项不相关。这是确保无偏性的关键假设。
  3. 同方差性Var(εX1,,Xk)=σ2 \text{Var}(\varepsilon \mid X_1, \dots, X_k) = \sigma^2 ,即误差项方差恒定。违反此假设即为异方差性
  4. 无自相关:不同观测的误差项互不相关,即 Cov(εi,εj)=0 \text{Cov}(\varepsilon_i, \varepsilon_j) = 0 ij i \neq j )。
  5. 无完全多重共线性:自变量之间不存在严格的线性关系,即矩阵 X \mathbf{X} 满秩,保证 XX \mathbf{X}'\mathbf{X} 可逆。

实际应用中,这些假设经常被违反,从而催生了各种稳健估计方法,如异方差稳健标准误(Huber-White 标准误)、广义最小二乘法(GLS)和工具变量法(IV)。

多重共线性问题

多重共线性(Multicollinearity)指自变量之间存在高度(但不完全)的相关性。当存在多重共线性时,OLS 估计量仍然无偏,但方差会被放大,导致系数估计不稳定、标准误增大、t 统计量变小,从而使得本应显著的变量变得不显著。检测共线性的常用指标是方差膨胀因子(VIF, Variance Inflation Factor):

VIFj=11Rj2\text{VIF}_j = \frac{1}{1 - R_j^2}

其中 Rj2 R_j^2 是将 Xj X_j 对其他所有自变量回归得到的拟合优度。一般认为 VIF 大于 10 表示存在严重的共线性问题。应对方法包括删除冗余变量、使用岭回归正则化方法、通过主成分分析降维、或增大样本量。

扩展与变体

多重回归是众多高级计量方法的基础。多项式回归通过引入自变量的高次项拟合非线性关系;岭回归Lasso回归通过惩罚项应对高维数据和共线性问题;Logistic回归将多重回归推广至分类因变量;方差分析(ANOVA)在数学上等价于带虚拟变量的多重回归;而面板数据模型则在多重回归框架中加入了个体和时间的异质性。可以说,多重回归是现代计量经济学和统计建模的基石——从简单的政策效应评估到复杂的机器学习算法,其核心思想始终贯穿其中。