ARTICLE

多元回归模型

多元回归模型 (Multiple Regression Model) 多元线性回归模型(Multiple Linear Regression Model)是计量经济学中最核心的分析工具之一,它将一元线性回归模型拓展至包含两个或两个以上自变量的情形。其基本形式为: 或以矩阵形式简洁表示为 y = X + u,其中 y 为 n 1 因变量向量, X 为 n (k

浏览 4 更新 2025-10-26

多元回归模型 (Multiple Regression Model)

多元线性回归模型(Multiple Linear Regression Model)是计量经济学中最核心的分析工具之一,它将一元线性回归模型拓展至包含两个或两个以上自变量的情形。其基本形式为:

Yi=β0+β1X1i+β2X2i++βkXki+ui,i=1,,nY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i, \quad i = 1, \dots, n

或以矩阵形式简洁表示为 y=Xβ+u\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u},其中 y\mathbf{y}n×1n \times 1 因变量向量,X\mathbf{X}n×(k+1)n \times (k+1) 设计矩阵(第一列通常为 1),β\boldsymbol{\beta}(k+1)×1(k+1) \times 1 参数向量,u\mathbf{u} 为误差向量。多元回归的核心优势在于能够控制混杂因素——通过将可能同时影响因变量且与核心解释变量相关的变量纳入模型,从而在"保持其他条件不变"(ceteris paribus)的前提下分离出各解释变量的偏效应(partial effect),这是观测性经济研究中进行因果推断的基础性策略。

OLS 估计与矩阵代数

在经典假设下,多元回归模型的参数通过普通最小二乘(OLS)估计,最小化残差平方和 SSR=(yXβ^)(yXβ^)\mathrm{SSR} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})。由一阶条件导出正规方程 XXβ^=Xy\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y},在 X\mathbf{X} 列满秩(无完全多重共线性)时得到:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

该估计量在Gauss-Markov 定理的条件下是BLUE(最佳线性无偏估计量)。残差方差的无偏估计量为 σ^2=SSRnk1\hat{\sigma}^2 = \frac{\mathrm{SSR}}{n - k - 1},其中分母 nk1n - k - 1 为自由度校正。

系数解释与偏效应

多元回归中,β^j\hat{\beta}_jj1j \geq 1)的解释为:在其他所有自变量保持不变的情况下,XjX_j 每增加一个单位,YY 的期望变化量。这一"控制"机制可通过Frisch-Waugh-Lovell 定理(FWL 定理)得到精确的几何理解:β^j\hat{\beta}_j 等于将 YY 对除 XjX_j 外的所有自变量回归所得的残差,再对 XjX_j 关于同一组自变量回归的残差进行一元回归的斜率。换言之,多元回归系数本质上是剔除了其他变量线性影响后的"纯净"关系,这也解释了为什么添加控制变量会改变核心解释变量的系数估计值——它隔离了该变量与被控制变量之间的相关性。

拟合优度:R2R^2 与 Adjusted R2R^2

模型的整体解释力由决定系数衡量:

R2=ESSTSS=1SSRTSSR^2 = \frac{\mathrm{ESS}}{\mathrm{TSS}} = 1 - \frac{\mathrm{SSR}}{\mathrm{TSS}}

其中 TSS=(YiYˉ)2\mathrm{TSS} = \sum (Y_i - \bar{Y})^2 为总平方和,ESS=(Y^iYˉ)2\mathrm{ESS} = \sum (\hat{Y}_i - \bar{Y})^2 为回归平方和。R2R^2 随自变量个数增加而单调不减,即使添加的是无关变量。因此引入调整 R2R^2Adjusted R-squared):

Rˉ2=1SSR/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{\mathrm{SSR} / (n - k - 1)}{\mathrm{TSS} / (n - 1)}

调整 R2R^2 对无意义的新增变量施加惩罚,是模型选择中兼顾拟合与简洁性的重要准则。

假设检验体系

多元回归的推断依赖一套分层检验框架:

  • 单个系数检验(tt 检验)H0:βj=0H_0: \beta_j = 0,检验统计量 t=β^j/SE(β^j)tnk1t = \hat{\beta}_j / \mathrm{SE}(\hat{\beta}_j) \sim t_{n-k-1}
  • 联合假设检验(FF 检验):检验多个线性约束是否同时成立,如 H0:β2=β3=0H_0: \beta_2 = \beta_3 = 0F统计量通过比较受约束模型与无约束模型的残差平方和来构建,是模型整体显著性检验(所有斜率系数同时为零)的基础。
  • Chow 检验:检验不同子样本间回归系数是否结构性变化(结构突变),本质上是受约束回归中线性约束的 FF 检验特例。

关键假设及违反后果

多元回归的有效性严格依赖经典线性模型假设:

  1. 线性于参数YYβ\boldsymbol{\beta} 呈线性关系。若真实关系非线性(如二次项、交互项),可通过变量变换或引入多项式项修正。
  2. 满秩X\mathbf{X} 无完全多重共线性。若近似共线性严重,系数方差膨胀(方差膨胀因子 VIFj=1/(1Rj2)\mathrm{VIF}_j = 1/(1 - R_j^2) 可作为诊断工具),估计结果对数据微小变动极敏感。
  3. 严格外生性E(uiX)=0\mathbb{E}(u_i \mid \mathbf{X}) = 0。违反此假设——即内生性问题——是应用研究中最致命的威胁,来源于遗漏变量偏误联立性偏误测量误差,使 OLS 估计量有偏且不一致。工具变量法(IV/2SLS)是标准补救策略。
  4. 同方差与无自相关:违反时 OLS 非有效,需使用稳健标准误(Huber-White、聚类标准误)或采用广义最小二乘(GLS)。

模型设定专题

遗漏变量偏误(Omitted Variable Bias)是多元回归框架下的核心分析概念:若真实模型包含 X2X_2,但估计时遗漏了它,则 β^1\hat{\beta}_1 的偏误为 β2δ~1\beta_2 \cdot \tilde{\delta}_1,其中 δ~1\tilde{\delta}_1X2X_2X1X_1 回归的斜率。该公式是判断偏误方向和量级的重要工具。与此相对,纳入无关变量不导致偏误,但会增大方差、损失效率。

虚拟变量(Dummy Variable)允许将定性信息(如性别、地区、政策前后)纳入回归框架,截距虚拟变量改变基准水平,交互虚拟变量(斜率虚拟变量)则允许不同组别具有不同的边际效应。固定效应模型中的个体虚拟变量是这一思想在面板数据中的系统化推广。

交互项(Interaction Term)X1X2X_1 \cdot X_2 的引入打破了加法可分性的约束,使得一个变量的边际效应依赖于另一变量的水平。在交互项存在时,各构成项系数的解释需格外谨慎:β1\beta_1 不再是一般意义上的"偏效应",而是在交互变量取值为零时的特例效应。

思想史简评

多元回归的思想可追溯至Karl PearsonGeorge Udny Yule在十九世纪末关于相关与回归的争论,以及R. A. Fisher在二十世纪初对自由度、方差分析和实验设计理论的系统构建。从一元到多元的推广看似只是添加变量,但它在方法论上标志着从简单的"相关"思维向"控制-分离"思维的飞跃——研究者在多元框架下可以开始严肃地追问:在排除了其他可观测因素的混杂之后,一个变量是否仍对结果具有独立的解释力?这一问题意识贯穿了整个现代计量经济学的因果推断范式(从匹配估计断点回归再到双重差分),而多元回归模型正是这一范式最基础、最日常的操作平台。在当代数据密集型研究中,高维多元回归与正则化方法(Lasso、Ridge)的结合使其在面对变量数接近甚至超过样本量的场景时依然具有生命力,进一步拓展了经典框架的适用边界。