ARTICLE

多元线性回归 (MLR)

多元线性回归(MLR):核心模型与方法 多元线性回归(Multiple Linear Regression, MLR)是计量经济学和统计学中最基本、应用最广泛的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性关系,是一元线性回归的自然推广。其一般形式为: 其中 Y_i 是因变量,X_ji 是第 j 个自变量在第 i 次

浏览 0 更新 2025-10-26

多元线性回归(MLR):核心模型与方法

多元线性回归(Multiple Linear Regression, MLR)是计量经济学统计学中最基本、应用最广泛的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性关系,是一元线性回归的自然推广。其一般形式为:

Yi=β0+β1X1i+β2X2i++βkXki+εi,i=1,2,,nY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i, \quad i = 1, 2, \ldots, n

其中 YiY_i 是因变量,XjiX_{ji} 是第 jj 个自变量在第 ii 次观测中的取值,βj\beta_j 是待估的回归系数,εi\varepsilon_i 是随机误差项,nn 是样本容量,kk 是自变量个数。截距项 β0\beta_0 表示当所有自变量为零时 YY 的期望值,而斜率系数 βj\beta_j 衡量在其他变量不变条件下 XjX_jYY 的边际影响。

矩阵表示与OLS估计

多元线性回归模型可以简洁地表示为矩阵形式:

Y=Xβ+ε\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 Y\mathbf{Y}n×1n \times 1 因变量向量,X\mathbf{X}n×(k+1)n \times (k+1) 设计矩阵(第一列全为1对应截距项),β\boldsymbol{\beta}(k+1)×1(k+1) \times 1 参数向量,ε\boldsymbol{\varepsilon}n×1n \times 1 误差向量。

普通最小二乘法OLS)通过最小化残差平方和来估计参数:

β^=argminβ(YXβ)(YXβ)=(XX)1XY\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

该解的存在性依赖于 X\mathbf{X} 满列秩,即不存在完全多重共线性。OLS 估计量 β^\hat{\boldsymbol{\beta}} 具有清晰的数值含义:在其他自变量保持不变的情况下,XjX_j 每增加一单位,YY 平均变化 β^j\hat{\beta}_j 个单位。这一 "其他条件不变"(ceteris paribus)的解释正是多元回归区别于一元回归的核心优势——它允许研究者在控制混杂因素后识别单个变量的偏效应。

例如,在工资方程 ln(工资)=β0+β1教育年限+β2工作经验+ε\ln(\text{工资}) = \beta_0 + \beta_1 \text{教育年限} + \beta_2 \text{工作经验} + \varepsilon 中,β1\beta_1 衡量的是在工作经验相同的情况下,多接受一年教育所带来的工资百分比变化。这种"控制其他变量"的能力使得多元回归成为因果推断的基本工具。

高斯-马尔可夫定理与经典假设

多元线性回归的理论基础是高斯-马尔可夫定理(Gauss-Markov Theorem)。该定理指出,在以下经典假设下,OLS 估计量是所有线性无偏估计量中方差最小的,即BLUE最佳线性无偏估计量):

  1. 参数线性(Linearity in Parameters):模型是参数的线性函数,即 Y=β0+β1X1++βkXk+εY = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k + \varepsilon。自变量本身可以是非线性的(如 X2X^2lnX\ln X),但参数必须线性进入模型。
  2. 随机抽样(Random Sampling):样本 {(X1i,X2i,,Xki,Yi):i=1,,n}\{ (X_{1i}, X_{2i}, \ldots, X_{ki}, Y_i) : i = 1,\ldots,n \} 来自总体随机抽样,保证样本独立同分布。
  3. 不存在完全多重共线性(No Perfect Collinearity)X\mathbf{X} 满列秩,即 (XX)(\mathbf{X}'\mathbf{X}) 可逆。这意味着没有一个自变量是其他自变量的线性组合。
  4. 零条件均值(Zero Conditional Mean)E[εX]=0E[\boldsymbol{\varepsilon}|\mathbf{X}] = \mathbf{0},即误差项与所有自变量不相关。这是保证无偏性的最关键假设。违反该假设将导致内生性问题。
  5. 同方差性(Homoskedasticity)Var(εiX)=σ2\text{Var}(\varepsilon_i|\mathbf{X}) = \sigma^2,即误差项具有常数的方差。若违反则出现异方差性
  6. 无自相关(No Autocorrelation)Cov(εi,εjX)=0,  ij\text{Cov}(\varepsilon_i, \varepsilon_j|\mathbf{X}) = 0, \; \forall i \neq j,即不同观测的误差项互不相关。

若前四条成立,OLS 是无偏的;若前六条全部成立,OLS 是BLUE。需要注意的是,高斯-马尔可夫定理不要求误差项服从正态分布——正态性仅在小样本下进行精确推断(t检验和F检验的精确分布)时才需要。在大样本下,依靠中心极限定理即可进行渐近有效的推断。

拟合优度与模型评价

多元回归中常用的拟合优度指标包括:

  • R2R^2(决定系数):衡量模型对因变量总变异的解释比例,定义为 R2=1SSR/SSTR^2 = 1 - \text{SSR}/\text{SST},其中 SSR 为残差平方和,SST 为总离差平方和。R2R^2 越接近1,表示模型拟合越好。然而,在多元回归中,增加自变量总会使 R2R^2 提高(或至少不降),这可能导致过拟合——即模型虽然在样本内拟合良好,但在样本外预测能力差。
  • 调整 R2R^2(Adjusted R2R^2:对自变量个数进行惩罚,计算公式为 Rˉ2=1SSR/(nk1)SST/(n1)\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k-1)}{\text{SST}/(n-1)}。调整 R2R^2 可以随自变量的增加而下降,因此更适合用于模型选择。
  • F 检验:检验模型整体显著性,原假设为 H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0,即所有斜率系数同时为零。F 统计量为: \[ F = \frac{(\text{SST} - \text{SSR})/k}{\text{SSR}/(n-k-1)} \sim F_{k, n-k-1} \]
  • 各系数的 t 检验:检验单个系数是否显著异于零,tj=β^j/se(β^j)tnk1t_j = \hat{\beta}_j / \text{se}(\hat{\beta}_j) \sim t_{n-k-1}。可构造置信区间 β^j±tα/2se(β^j)\hat{\beta}_j \pm t_{\alpha/2} \cdot \text{se}(\hat{\beta}_j)

模型诊断与常见问题

多元线性回归在实际应用中面临多重挑战,需要系统的诊断方法:

  1. 多重共线性(Multicollinearity):当自变量之间存在高度相关关系时,估计量的方差增大,系数估计变得不稳定且对数据微小变化极为敏感。症状包括:个别变量不显著但整体 F 检验显著、标准误较大、系数符号与经济直觉不符。诊断方法包括计算方差膨胀因子(VIF),VIFj=1/(1Rj2)\text{VIF}_j = 1/(1-R_j^2),其中 Rj2R_j^2 是第 jj 个自变量对其他自变量回归的决定系数。通常认为 VIF>10\text{VIF} > 10 指示严重的共线性。处理办法包括剔除冗余变量、增加样本量或使用正则化方法。
  2. 异方差性(Heteroskedasticity):误差项方差不恒定,常见于横截面数据(例如收入数据的方差随收入水平增加而扩大)。异方差性下 OLS 估计量仍是无偏和一致的,但不再是 BLUE,且标准误有偏导致推断失效。常用检验包括Breusch-Pagan检验(假设异方差为线性形式)和White检验(更一般形式),修正方法包括使用Huber-White稳健标准误(也称为异方差稳健标准误)。
  3. 自相关(Autocorrelation / Serial Correlation):误差项跨期相关,常见于时间序列数据。Durbin-Watson检验是常用诊断工具,其统计量 d2(1ρ^)d \approx 2(1-\hat{\rho})d2d \approx 2 表示无自相关。处理办法包括使用Newey-West标准误广义最小二乘法(GLS)。
  4. 内生性(Endogeneity):当 E[εX]0E[\varepsilon|\mathbf{X}] \neq \mathbf{0} 时,OLS 不仅不是 BLUE,甚至不一致。内生性三大来源为:遗漏变量偏误(如遗漏能力变量导致教育系数的估计有偏)、测量误差(变量观测值与真实值存在偏差)、互为因果(如 GDP 与教育支出相互影响)。解决方法包括工具变量法(IV)、两阶段最小二乘法(2SLS)或面板数据模型
  5. 模型设定错误(Specification Error):如遗漏非线性项(Xj2X_j^2 或交互项 XjXkX_j X_k)、使用了错误的函数形式(如应使用对数形式却用了线性形式),或遗漏重要解释变量。RESET检验(Regression Specification Error Test)是常用的设定检验。

扩展与进阶方向

多元线性回归是更复杂模型的基础框架,其思想延伸至计量的各个分支:

总之,多元线性回归不仅是实证分析的标准起点,也是理解几乎所有高级计量方法的基础框架。掌握 MLR 的含义、经典假设、诊断方法与扩展方向,是进入现代计量经济学和经验研究的必要门槛。无论是做因果识别、预测建模还是政策评估,MLR 提供的思维框架——控制变量、偏效应、假设检验——始终贯穿其中。