多元回归 (Multiple Regression)
多元回归 (Multiple Regression),全称多元线性回归 (Multiple Linear Regression),是计量经济学 和统计学 中最核心的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性依赖关系,是简单线性回归 从单变量情形向多变量情形的自然推广。与仅考察单一因素影响的简单回归不同,多元回归的核心价值在于"控制其他条件不变"(ceteris paribus):在保持其他自变量不变的情况下,估计某一自变量对因变量的偏效应。这一特性使其成为因果推断 和政策评估的基础框架。
模型设定与基本假设
总体回归模型 (Population Regression Model) 的标准形式为:
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ε y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β k x k + ε
其中 y y y 为因变量,x 1 , x 2 , … , x k x_1, x_2, \ldots, x_k x 1 , x 2 , … , x k 为 k k k 个自变量(回归元),β 0 \beta_0 β 0 为截距项,β j \beta_j β j (j = 1 , … , k j = 1, \ldots, k j = 1 , … , k )为偏回归系数,ε \varepsilon ε 为随机误差项。
多元回归模型建立在以下经典线性模型假设 (高斯-马尔可夫假设 )之上:
线性性 :因变量 y y y 与参数 β j \beta_j β j 之间为线性关系。变量本身可以是非线性变换(如对数、平方项),即模型对参数线性而非对变量线性。严格外生性 :误差项的条件期望为零,即 E [ ε ∣ x 1 , … , x k ] = 0 \mathbb{E}[\varepsilon \mid x_1, \ldots, x_k] = 0 E [ ε ∣ x 1 , … , x k ] = 0 。这意味着所有自变量与误差项不相关。无完全多重共线性 :自变量之间不存在精确的线性关系,即矩阵 X X X 满列秩。这是参数可识别的必要条件。球形误差 :误差项满足同方差性 (Var ( ε i ) = σ 2 \operatorname{Var}(\varepsilon_i) = \sigma^2 Var ( ε i ) = σ 2 对所有 i i i )且不存在自相关 (Cov ( ε i , ε j ) = 0 \operatorname{Cov}(\varepsilon_i, \varepsilon_j) = 0 Cov ( ε i , ε j ) = 0 对 i ≠ j i \neq j i = j )。正态性 (可选,用于有限样本推断):ε ∼ N ( 0 , σ 2 I ) \varepsilon \sim \mathcal{N}(0, \sigma^2 I) ε ∼ N ( 0 , σ 2 I ) 。
在上述假设下,高斯-马尔可夫定理 保证普通最小二乘法 (OLS)给出的估计量是最优线性无偏估计量(BLUE )。
最小二乘估计
使用矩阵记号 y = X β + ε y = X\beta + \varepsilon y = Xβ + ε ,其中 y y y 为 n × 1 n \times 1 n × 1 向量,X X X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 设计矩阵(第一列全为1以对应截距),β \beta β 为 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 参数向量。OLS的目标是最小化残差平方和 RSS = ( y − X β ) ′ ( y − X β ) \text{RSS} = (y - X\beta)'(y - X\beta) RSS = ( y − Xβ ) ′ ( y − Xβ ) 。
对 β \beta β 求一阶条件并令其为零,得到正规方程 X ′ X β ^ = X ′ y X'X\hat{\beta} = X'y X ′ X β ^ = X ′ y 。在无完全多重共线性的假设下,X ′ X X'X X ′ X 可逆,OLS估计量为:
β ^ = ( X ′ X ) − 1 X ′ y \hat{\beta} = (X'X)^{-1}X'y β ^ = ( X ′ X ) − 1 X ′ y
其协方差矩阵为 Var ( β ^ ) = σ 2 ( X ′ X ) − 1 \operatorname{Var}(\hat{\beta}) = \sigma^2 (X'X)^{-1} Var ( β ^ ) = σ 2 ( X ′ X ) − 1 ,其中 σ 2 \sigma^2 σ 2 的无偏估计量为 σ ^ 2 = RSS n − k − 1 = e ′ e n − k − 1 \hat{\sigma}^2 = \frac{\text{RSS}}{n - k - 1} = \frac{e'e}{n - k - 1} σ ^ 2 = n − k − 1 RSS = n − k − 1 e ′ e (残差平方和除以自由度)。单个系数估计量 β ^ j \hat{\beta}_j β ^ j 的方差为 Var ( β ^ j ) = σ ^ 2 [ ( X ′ X ) − 1 ] j j \operatorname{Var}(\hat{\beta}_j) = \hat{\sigma}^2 [(X'X)^{-1}]_{jj} Var ( β ^ j ) = σ ^ 2 [( X ′ X ) − 1 ] jj 。
Frisch-Waugh-Lovell定理 (FWL定理)为理解多元回归中偏效应的估计提供了深刻的几何直觉:在 β ^ 1 \hat{\beta}_1 β ^ 1 的估计中,先分别将 y y y 和 X 1 X_1 X 1 对 X 2 X_2 X 2 回归并取残差,再将残差化的 y y y 对残差化的 X 1 X_1 X 1 回归,所得系数与完整多元回归的 β ^ 1 \hat{\beta}_1 β ^ 1 完全一致。该定理将"控制其他变量"操作化为"剔除其他变量线性影响后的净相关"。
拟合优度与模型选择
决定系数 R 2 R^2 R 2 衡量模型对因变量变异性的解释比例:
R 2 = ESS TSS = 1 − RSS TSS R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} R 2 = TSS ESS = 1 − TSS RSS
其中 TSS = ∑ ( y i − y ˉ ) 2 \text{TSS} = \sum (y_i - \bar{y})^2 TSS = ∑ ( y i − y ˉ ) 2 为总平方和,ESS = ∑ ( y ^ i − y ˉ ) 2 \text{ESS} = \sum (\hat{y}_i - \bar{y})^2 ESS = ∑ ( y ^ i − y ˉ ) 2 为回归平方和(解释平方和),RSS = ∑ e i 2 \text{RSS} = \sum e_i^2 RSS = ∑ e i 2 为残差平方和。R 2 R^2 R 2 的一个致命缺陷是它随自变量数目增加而单调不减——即使新增的变量毫无解释力,R 2 R^2 R 2 也不会下降。
因此引入调整决定系数 (Adjusted R-squared ):
R ˉ 2 = 1 − RSS / ( n − k − 1 ) TSS / ( n − 1 ) \bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{TSS} / (n - 1)} R ˉ 2 = 1 − TSS / ( n − 1 ) RSS / ( n − k − 1 )
R ˉ 2 \bar{R}^2 R ˉ 2 对模型复杂度施加惩罚——仅当新增变量的 t t t 统计量绝对值大于1时,R ˉ 2 \bar{R}^2 R ˉ 2 才会上升。在进行非嵌套模型比较时,AIC (赤池信息准则)和BIC (贝叶斯信息准则)也广泛使用:AIC = n ln ( RSS / n ) + 2 k \text{AIC} = n\ln(\text{RSS}/n) + 2k AIC = n ln ( RSS / n ) + 2 k ,BIC = n ln ( RSS / n ) + k ln ( n ) \text{BIC} = n\ln(\text{RSS}/n) + k\ln(n) BIC = n ln ( RSS / n ) + k ln ( n ) 。BIC对复杂度的惩罚更重,倾向于选择更简洁的模型。
假设检验
单系数检验 :对假设 H 0 : β j = 0 H_0 : \beta_j = 0 H 0 : β j = 0 ,构造 t t t 统计量
t j = β ^ j se ( β ^ j ) ∼ t n − k − 1 t_j = \frac{\hat{\beta}_j}{\operatorname{se}(\hat{\beta}_j)} \sim t_{n - k - 1} t j = se ( β ^ j ) β ^ j ∼ t n − k − 1
在经典正态假设下,该统计量服从自由度为 n − k − 1 n - k - 1 n − k − 1 的 t t t 分布。也可检验任意常数 a a a ,即 H 0 : β j = a H_0 : \beta_j = a H 0 : β j = a 。当 n − k − 1 n - k - 1 n − k − 1 较大时,t t t 分布逼近标准正态分布。
联合显著性检验 :F检验 用于检验多个系数是否同时为零,如总体显著性检验 H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0 : \beta_1 = \beta_2 = \cdots = \beta_k = 0 H 0 : β 1 = β 2 = ⋯ = β k = 0 :
F = ( TSS − RSS ) / k RSS / ( n − k − 1 ) = R 2 / k ( 1 − R 2 ) / ( n − k − 1 ) ∼ F k , n − k − 1 F = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)} = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \sim F_{k, n - k - 1} F = RSS / ( n − k − 1 ) ( TSS − RSS ) / k = ( 1 − R 2 ) / ( n − k − 1 ) R 2 / k ∼ F k , n − k − 1
F检验也用于检验线性约束条件(如 β 2 + β 3 = 1 \beta_2 + \beta_3 = 1 β 2 + β 3 = 1 ),通过比较受约束模型与无约束模型的残差平方和来实现。
置信区间 :β j \beta_j β j 的 100 ( 1 − α ) % 100(1 - \alpha)\% 100 ( 1 − α ) % 置信区间为 β ^ j ± t n − k − 1 , α / 2 ⋅ se ( β ^ j ) \hat{\beta}_j \pm t_{n - k - 1, \alpha/2} \cdot \operatorname{se}(\hat{\beta}_j) β ^ j ± t n − k − 1 , α /2 ⋅ se ( β ^ j ) 。区间不包含零等价于在 α \alpha α 显著性水平下拒绝 H 0 : β j = 0 H_0 : \beta_j = 0 H 0 : β j = 0 。
多重共线性
多重共线性 (Multicollinearity) 指自变量之间存在高度(而非完全)线性相关的情形。虽然不影响OLS估计量的无偏性和BLUE性质,但会导致估计方差膨胀,使系数符号异常、t t t 统计量偏小、系数估计对数据微小变动极度敏感。
检测多重共线性的主要工具是方差膨胀因子 (VIF):
VIF j = 1 1 − R j 2 \text{VIF}_j = \frac{1}{1 - R_j^2} VIF j = 1 − R j 2 1
其中 R j 2 R_j^2 R j 2 是将 x j x_j x j 对其余所有自变量回归得到的决定系数。经验上,VIF j > 10 \text{VIF}_j > 10 VIF j > 10 (即 R j 2 > 0.9 R_j^2 > 0.9 R j 2 > 0.9 )被视为严重多重共线性的信号。处理方法包括:增加样本量、删除高度相关的变量、使用主成分回归 或岭回归 (Ridge Regression)等有偏估计方法、或对变量进行中心化处理(降低交互项与主效应之间的共线性)。
模型误设与诊断
多元回归中常见的模型误设包括:
遗漏变量偏差 :遗漏了与已包含变量相关且对 y y y 有影响的变量,导致所有系数估计不一致。这是观测性研究中最严重的问题之一——其方向与大小可通过遗漏变量公式刻画:设真实模型为 y = β 1 x 1 + β 2 x 2 + ε y = \beta_1 x_1 + \beta_2 x_2 + \varepsilon y = β 1 x 1 + β 2 x 2 + ε ,若遗漏 x 2 x_2 x 2 而只将 y y y 对 x 1 x_1 x 1 回归,则 plim β ^ 1 (short) = β 1 + β 2 Cov ( x 1 , x 2 ) Var ( x 1 ) \operatorname{plim} \hat{\beta}_1^{\text{(short)}} = \beta_1 + \beta_2 \frac{\operatorname{Cov}(x_1, x_2)}{\operatorname{Var}(x_1)} plim β ^ 1 (short) = β 1 + β 2 Var ( x 1 ) Cov ( x 1 , x 2 ) 。包含无关变量 :在模型中引入了与 y y y 无关的变量。虽然OLS仍保持无偏性,但会增大系数估计的方差,降低估计效率。函数形式误设 :真实的非线性关系被错误地建模为线性关系。可使用Ramsey RESET检验 或Box-Cox变换 进行诊断与修正。
残差诊断是评估模型假设有效性的关键步骤:残差图 可目测同方差性与线性性假设;QQ图 用于判断误差正态性;Durbin-Watson检验 和Breusch-Godfrey检验 检测自相关;Breusch-Pagan检验 和White检验 检测异方差。当异方差存在时,可使用异方差稳健标准误 (Huber-White标准误)进行修正推断,或采用加权最小二乘法 (WLS)与广义最小二乘法 (GLS)进行有效估计。
扩展与应用
多元回归是计量经济学方法体系的基石,几乎所有现代方法都可视为其扩展:
工具变量 (IV)与两阶段最小二乘法 (2SLS):解决内生性问题,通过引入与误差项不相关但与内生变量相关的工具变量来恢复因果参数的识别。面板数据模型 :利用固定效应或随机效应模型处理不可观测的个体异质性,其中固定效应估计量本质上是对去均值后数据的多元OLS(FWL定理的直接应用)。Logit模型 与Probit模型 :当因变量为二元变量时,使用广义线性模型 框架处理非线性概率问题。LASSO回归 与岭回归 :在高维设定下,通过引入惩罚项(L 1 L_1 L 1 或 L 2 L_2 L 2 惩罚)实现变量选择与系数收缩,在高维计量(p ≫ n p \gg n p ≫ n )和机器学习中广泛应用。非线性最小二乘法 与广义矩方法 (GMM):将多元回归推广到非线性参数模型与矩条件估计框架。
在实际应用中,多元回归广泛用于劳动经济学中的工资方程估计、金融学中的CAPM 与Fama-French三因子模型 、宏观经济预测(IS-LM模型 的实证对应)、政策评估中双重差分法 的回归实现等。其核心——在统计控制中分离各因素的独立贡献——是所有实证研究的通用语言。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。