ARTICLE

多元回归

多元回归 (Multiple Regression) 多元回归 (Multiple Regression),全称多元线性回归 (Multiple Linear Regression),是计量经济学和统计学中最核心的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性依赖关系,是简单线性回归从单变量情形向多变量情形的自然推广

浏览 6 更新 2026-06-20

多元回归 (Multiple Regression)

多元回归 (Multiple Regression),全称多元线性回归 (Multiple Linear Regression),是计量经济学统计学中最核心的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性依赖关系,是简单线性回归从单变量情形向多变量情形的自然推广。与仅考察单一因素影响的简单回归不同,多元回归的核心价值在于"控制其他条件不变"(ceteris paribus):在保持其他自变量不变的情况下,估计某一自变量对因变量的偏效应。这一特性使其成为因果推断和政策评估的基础框架。

模型设定与基本假设

总体回归模型 (Population Regression Model) 的标准形式为:

y=β0+β1x1+β2x2++βkxk+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon

其中 yy 为因变量,x1,x2,,xkx_1, x_2, \ldots, x_kkk 个自变量(回归元),β0\beta_0 为截距项,βj\beta_jj=1,,kj = 1, \ldots, k)为偏回归系数,ε\varepsilon 为随机误差项。

多元回归模型建立在以下经典线性模型假设高斯-马尔可夫假设)之上:

  1. 线性性:因变量 yy 与参数 βj\beta_j 之间为线性关系。变量本身可以是非线性变换(如对数、平方项),即模型对参数线性而非对变量线性。
  2. 严格外生性:误差项的条件期望为零,即 E[εx1,,xk]=0\mathbb{E}[\varepsilon \mid x_1, \ldots, x_k] = 0。这意味着所有自变量与误差项不相关。
  3. 无完全多重共线性:自变量之间不存在精确的线性关系,即矩阵 XX 满列秩。这是参数可识别的必要条件。
  4. 球形误差:误差项满足同方差性Var(εi)=σ2\operatorname{Var}(\varepsilon_i) = \sigma^2 对所有 ii)且不存在自相关Cov(εi,εj)=0\operatorname{Cov}(\varepsilon_i, \varepsilon_j) = 0iji \neq j)。
  5. 正态性(可选,用于有限样本推断):εN(0,σ2I)\varepsilon \sim \mathcal{N}(0, \sigma^2 I)

在上述假设下,高斯-马尔可夫定理保证普通最小二乘法(OLS)给出的估计量是最优线性无偏估计量(BLUE)。

最小二乘估计

使用矩阵记号 y=Xβ+εy = X\beta + \varepsilon,其中 yyn×1n \times 1 向量,XXn×(k+1)n \times (k+1) 设计矩阵(第一列全为1以对应截距),β\beta(k+1)×1(k+1) \times 1 参数向量。OLS的目标是最小化残差平方和 RSS=(yXβ)(yXβ)\text{RSS} = (y - X\beta)'(y - X\beta)

β\beta 求一阶条件并令其为零,得到正规方程 XXβ^=XyX'X\hat{\beta} = X'y。在无完全多重共线性的假设下,XXX'X 可逆,OLS估计量为:

β^=(XX)1Xy\hat{\beta} = (X'X)^{-1}X'y

其协方差矩阵为 Var(β^)=σ2(XX)1\operatorname{Var}(\hat{\beta}) = \sigma^2 (X'X)^{-1},其中 σ2\sigma^2 的无偏估计量为 σ^2=RSSnk1=eenk1\hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1} = \frac{e'e}{n - k - 1}(残差平方和除以自由度)。单个系数估计量 β^j\hat{\beta}_j 的方差为 Var(β^j)=σ^2[(XX)1]jj\operatorname{Var}(\hat{\beta}_j) = \hat{\sigma}^2 [(X'X)^{-1}]_{jj}

Frisch-Waugh-Lovell定理(FWL定理)为理解多元回归中偏效应的估计提供了深刻的几何直觉:在 β^1\hat{\beta}_1 的估计中,先分别将 yyX1X_1X2X_2 回归并取残差,再将残差化的 yy 对残差化的 X1X_1 回归,所得系数与完整多元回归的 β^1\hat{\beta}_1 完全一致。该定理将"控制其他变量"操作化为"剔除其他变量线性影响后的净相关"。

拟合优度与模型选择

决定系数 R2R^2 衡量模型对因变量变异性的解释比例:

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

其中 TSS=(yiyˉ)2\text{TSS} = \sum (y_i - \bar{y})^2 为总平方和,ESS=(y^iyˉ)2\text{ESS} = \sum (\hat{y}_i - \bar{y})^2 为回归平方和(解释平方和),RSS=ei2\text{RSS} = \sum e_i^2 为残差平方和。R2R^2 的一个致命缺陷是它随自变量数目增加而单调不减——即使新增的变量毫无解释力,R2R^2 也不会下降。

因此引入调整决定系数Adjusted R-squared):

Rˉ2=1RSS/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{TSS} / (n - 1)}

Rˉ2\bar{R}^2 对模型复杂度施加惩罚——仅当新增变量的 tt 统计量绝对值大于1时,Rˉ2\bar{R}^2 才会上升。在进行非嵌套模型比较时,AIC(赤池信息准则)和BIC(贝叶斯信息准则)也广泛使用:AIC=nln(RSS/n)+2k\text{AIC} = n\ln(\text{RSS}/n) + 2kBIC=nln(RSS/n)+kln(n)\text{BIC} = n\ln(\text{RSS}/n) + k\ln(n)。BIC对复杂度的惩罚更重,倾向于选择更简洁的模型。

假设检验

单系数检验:对假设 H0:βj=0H_0 : \beta_j = 0,构造 tt 统计量

tj=β^jse(β^j)tnk1t_j = \frac{\hat{\beta}_j}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - k - 1}

在经典正态假设下,该统计量服从自由度为 nk1n - k - 1tt 分布。也可检验任意常数 aa,即 H0:βj=aH_0 : \beta_j = a。当 nk1n - k - 1 较大时,tt 分布逼近标准正态分布。

联合显著性检验F检验用于检验多个系数是否同时为零,如总体显著性检验 H0:β1=β2==βk=0H_0 : \beta_1 = \beta_2 = \cdots = \beta_k = 0

F=(TSSRSS)/kRSS/(nk1)=R2/k(1R2)/(nk1)Fk,nk1F = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \sim F_{k, n - k - 1}

F检验也用于检验线性约束条件(如 β2+β3=1\beta_2 + \beta_3 = 1),通过比较受约束模型与无约束模型的残差平方和来实现。

置信区间βj\beta_j100(1α)%100(1 - \alpha)\% 置信区间为 β^j±tnk1,α/2se(β^j)\hat{\beta}_j \pm t_{n - k - 1, \alpha/2} \cdot \operatorname{se}(\hat{\beta}_j)。区间不包含零等价于在 α\alpha 显著性水平下拒绝 H0:βj=0H_0 : \beta_j = 0

多重共线性

多重共线性 (Multicollinearity) 指自变量之间存在高度(而非完全)线性相关的情形。虽然不影响OLS估计量的无偏性和BLUE性质,但会导致估计方差膨胀,使系数符号异常、tt 统计量偏小、系数估计对数据微小变动极度敏感。

检测多重共线性的主要工具是方差膨胀因子 (VIF):

VIFj=11Rj2\text{VIF}_j = \frac{1}{1 - R_j^2}

其中 Rj2R_j^2 是将 xjx_j 对其余所有自变量回归得到的决定系数。经验上,VIFj>10\text{VIF}_j > 10(即 Rj2>0.9R_j^2 > 0.9)被视为严重多重共线性的信号。处理方法包括:增加样本量、删除高度相关的变量、使用主成分回归岭回归(Ridge Regression)等有偏估计方法、或对变量进行中心化处理(降低交互项与主效应之间的共线性)。

模型误设与诊断

多元回归中常见的模型误设包括:

  1. 遗漏变量偏差:遗漏了与已包含变量相关且对 yy 有影响的变量,导致所有系数估计不一致。这是观测性研究中最严重的问题之一——其方向与大小可通过遗漏变量公式刻画:设真实模型为 y=β1x1+β2x2+εy = \beta_1 x_1 + \beta_2 x_2 + \varepsilon,若遗漏 x2x_2 而只将 yyx1x_1 回归,则 plimβ^1(short)=β1+β2Cov(x1,x2)Var(x1)\operatorname{plim} \hat{\beta}_1^{\text{(short)}} = \beta_1 + \beta_2 \frac{\operatorname{Cov}(x_1, x_2)}{\operatorname{Var}(x_1)}
  2. 包含无关变量:在模型中引入了与 yy 无关的变量。虽然OLS仍保持无偏性,但会增大系数估计的方差,降低估计效率。
  3. 函数形式误设:真实的非线性关系被错误地建模为线性关系。可使用Ramsey RESET检验Box-Cox变换进行诊断与修正。

残差诊断是评估模型假设有效性的关键步骤:残差图可目测同方差性与线性性假设;QQ图用于判断误差正态性;Durbin-Watson检验Breusch-Godfrey检验检测自相关;Breusch-Pagan检验White检验检测异方差。当异方差存在时,可使用异方差稳健标准误(Huber-White标准误)进行修正推断,或采用加权最小二乘法(WLS)与广义最小二乘法(GLS)进行有效估计。

扩展与应用

多元回归是计量经济学方法体系的基石,几乎所有现代方法都可视为其扩展:

  • 工具变量(IV)与两阶段最小二乘法(2SLS):解决内生性问题,通过引入与误差项不相关但与内生变量相关的工具变量来恢复因果参数的识别。
  • 面板数据模型:利用固定效应或随机效应模型处理不可观测的个体异质性,其中固定效应估计量本质上是对去均值后数据的多元OLS(FWL定理的直接应用)。
  • Logit模型Probit模型:当因变量为二元变量时,使用广义线性模型框架处理非线性概率问题。
  • LASSO回归岭回归:在高维设定下,通过引入惩罚项(L1L_1L2L_2 惩罚)实现变量选择与系数收缩,在高维计量(pnp \gg n)和机器学习中广泛应用。
  • 非线性最小二乘法广义矩方法(GMM):将多元回归推广到非线性参数模型与矩条件估计框架。

在实际应用中,多元回归广泛用于劳动经济学中的工资方程估计、金融学中的CAPMFama-French三因子模型、宏观经济预测(IS-LM模型的实证对应)、政策评估中双重差分法的回归实现等。其核心——在统计控制中分离各因素的独立贡献——是所有实证研究的通用语言。