ARTICLE

多元回归分析

多元回归分析 (Multiple Regression Analysis) 多元回归分析 (Multiple Regression Analysis) 是一种强大的统计学方法,用于研究一个因变量(Dependent Variable)与两个或更多个自变量(Independent Variables)之间的关系。它是简单线性回归(Simple Linear R

浏览 45 更新 2025-10-26

多元回归分析 (Multiple Regression Analysis)

多元回归分析 (Multiple Regression Analysis) 是一种强大的统计学方法,用于研究一个因变量(Dependent Variable)与两个或更多个自变量(Independent Variables)之间的关系。它是简单线性回归(Simple Linear Regression)的扩展,旨在通过一个线性方程来描述或预测因变量的变化。与简单线性回归只包含一个自变量不同,多元回归分析能够同时评估多个因素对因变量的影响,并量化每个因素的独立贡献。这使得它在经济学金融学、社会科学、工程学及生物医学等众多领域中成为一种基础且应用广泛的分析工具。

模型设定

多元线性回归模型的基本形式如下:

Yi=β0+β1X1i+β2X2i++βkXki+εiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i

其中:

  • YiY_i 是第 ii 个观测值的 因变量(Dependent Variable),也称为响应变量(Response Variable)或被解释变量(Explained Variable),即我们希望解释或预测的变量。
  • X1i,X2i,,XkiX_{1i}, X_{2i}, \ldots, X_{ki} 是第 ii 个观测值的 kk自变量(Independent Variables),也称为解释变量(Explanatory Variables)、预测变量(Predictors)或回归元(Regressors)。
  • β0\beta_0截距项(Intercept),表示当所有自变量的取值都为零时 YY 的期望值。在很多应用场景中其实际意义有限,但对于模型正确设定至关重要。
  • β1,β2,,βk\beta_1, \beta_2, \ldots, \beta_k回归系数(Regression Coefficients),也称偏回归系数(Partial Regression Coefficients)。βj\beta_j 度量了在 保持其他所有自变量不变 的情况下(拉丁语:ceteris paribus),自变量 XjX_j 每增加一个单位时因变量 YY 的期望变化量。这是多元回归分析中解释系数的核心。
  • εi\varepsilon_i 是第 ii 个观测值的 误差项(Error Term),也称为扰动项(Disturbance),代表所有未被模型包含的影响 YY 的其他因素,以及测量误差和随机性。

模型的经典假设

为了使通过普通最小二乘法(Ordinary Least Squares, OLS)得到的估计量具有良好的统计性质(如无偏性与有效性),多元回归模型需要满足一系列经典假设,统称为 高斯-马尔可夫假设(Gauss-Markov Assumptions):

  1. 线性关系 (Linearity):因变量 YY 和自变量 X1,,XkX_1, \ldots, X_k 之间的关系在参数 β\beta 上是线性的。
  2. 随机抽样 (Random Sampling):样本数据是从总体中随机抽取的。
  3. 不存在完全多重共线性 (No Perfect Multicollinearity):在样本中,没有任何一个自变量是其他自变量的精确线性组合。若存在完全多重共线性,OLS 估计量不唯一,模型将无法估计。实践中更常见的是近似多重共线性,它虽不影响无偏性但会增大系数估计的方差。
  4. 零条件均值 (Zero Conditional Mean):给定任意自变量的值,误差项的期望值为零,即 E(εiX1i,,Xki)=0E(\varepsilon_i \mid X_{1i}, \ldots, X_{ki}) = 0。这是最关键的假设,违反它会导致有偏且不一致的估计,典型情形如遗漏变量偏误(Omitted Variable Bias)。
  5. 同方差性 (Homoskedasticity):对于所有自变量的任意组合,误差项的方差均为常数,即 Var(εiX1i,,Xki)=σ2\operatorname{Var}(\varepsilon_i \mid X_{1i}, \ldots, X_{ki}) = \sigma^2。若方差不恒定,则称模型存在异方差性(Heteroskedasticity),此时 OLS 估计量仍无偏但不再有效,且标准误的估计有偏。
  6. 误差项不自相关 (No Autocorrelation):不同观测值的误差项之间不相关,即 Cov(εi,εj)=0\operatorname{Cov}(\varepsilon_i, \varepsilon_j) = 0 对所有 iji \neq j。此假设在处理时间序列数据时尤其重要,序列相关是常见的违例形式。
  7. 误差项呈正态分布 (Normality of Errors):误差项独立于自变量,且服从均值为零、方差为 σ2\sigma^2 的正态分布。该假设对于小样本下的假设检验(如 t 检验和 F 检验)是必要的;在大样本中,根据中心极限定理可适当放宽,OLS 估计量渐近正态。

参数估计:普通最小二乘法 (OLS)

OLS 是估计回归系数 β0,β1,,βk\beta_0, \beta_1, \ldots, \beta_k 的标准方法。其目标是找到一组估计值 β^0,β^1,,β^k\hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k,使得残差平方和(Sum of Squared Residuals, SSR)最小化:

minβ^0,,β^ki=1n(YiY^i)2=minβ^0,,β^ki=1n(Yi(β^0+β^1X1i++β^kXki))2\min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 = \min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \sum_{i=1}^n \bigl(Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \cdots + \hat{\beta}_k X_{ki})\bigr)^2

通过求解该最小化问题(通常使用微积分中的偏导数或矩阵代数),可以得到回归系数的最佳线性无偏估计量(BLUE, Best Linear Unbiased Estimator)。在矩阵形式下,OLS 估计量可简洁地表示为 β^=(XX)1XY\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y},其中 X\mathbf{X}n×(k+1)n \times (k+1) 设计矩阵,Y\mathbf{Y}n×1n \times 1 的因变量向量。

模型拟合优度评估

决定系数 (R2R^2) 衡量了模型中的自变量能够解释因变量总变异的百分比,取值范围在 0 到 1 之间,越接近 1 说明模型的解释能力越强:

R2=ESSTSS=1SSRTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}}

其中 TSS 是总平方和,ESS 是解释平方和,SSR 是残差平方和。然而在多元回归中,R2R^2 有一项固有缺点:增加任何一个新的自变量(即使与因变量无关),R2R^2 的值都不会下降。为克服这一缺陷,统计学家引入了 调整后的决定系数 (Adjusted R2R^2),它对模型中自变量的数量施加惩罚,从而提供了一个更公允的模型比较标准:

Radj2=1(n1)(nk1)SSRTSSR^2_{\text{adj}} = 1 - \frac{(n-1)}{(n-k-1)}\frac{\text{SSR}}{\text{TSS}}

其中 nn 为样本量,kk 为自变量个数。当比较包含不同数量自变量的模型时,应优先使用调整后的 R2R^2

模型的显著性检验

F 检验 (F-test for Overall Significance) 用于评估整个回归模型的有效性。其原假设为所有自变量的系数同时为零:

H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0

若 F 检验的p值小于预设的显著性水平(如 0.05),则拒绝原假设,表明模型整体显著,即至少有一个自变量对因变量具有显著的解释能力。F 统计量的构造为 ESS/kSSR/(nk1)\frac{\text{ESS}/k}{\text{SSR}/(n-k-1)},在原假设下服从自由度为 (k,nk1)(k, n-k-1) 的 F 分布。

t 检验 (t-test for Individual Coefficients) 用于评估每个单独的自变量对因变量的影响是否显著。对于每个系数 βj\beta_j,其检验的原假设为 H0:βj=0H_0: \beta_j = 0。若 t 检验的 p 值足够小,即可拒绝原假设,认为自变量 XjX_j 在统计上对 YY 有显著影响(在控制了其他变量后)。

系数解释的注意事项

在解释多元回归的系数时,必须强调"保持其他变量不变" 的前提。例如,在一个预测房价的模型中:

Price=β0+β1Size+β2Bedrooms+ε\text{Price} = \beta_0 + \beta_1 \text{Size} + \beta_2 \text{Bedrooms} + \varepsilon

系数 β1\beta_1 的含义是:在卧室数量(Bedrooms)不变的情况下,房屋面积(Size)每增加一个单位,房价(Price)平均增加 β1\beta_1 个单位。忽略这一前提将导致对系数的错误解读,这在实证研究中被称为"保持其他条件不变"(ceteris paribus)的解释原则。

应用举例

假设一位经济学家研究影响个人工资水平的因素,收集了工资(wage)、受教育年限(educ)、工作经验(exper)和在现公司的工作年限(tenure)等数据,建立如下多元回归模型:

log(wage)i=β0+β1educi+β2experi+β3tenurei+εi\log(\text{wage})_i = \beta_0 + \beta_1 \text{educ}_i + \beta_2 \text{exper}_i + \beta_3 \text{tenure}_i + \varepsilon_i

这里对工资取对数是一种常见做法,可使系数的解释变为百分比变化(半弹性)。假设 OLS 估计结果为:

log(wage)^=0.584+0.083educ+0.015exper+0.017tenure\widehat{\log(\text{wage})} = 0.584 + 0.083 \cdot \text{educ} + 0.015 \cdot \text{exper} + 0.017 \cdot \text{tenure}

系数解释:β^1=0.083\hat{\beta}_1 = 0.083 表示在工作经验和公司任职年限不变的情况下,受教育年限每增加一年,工资平均约增长 8.3\%;β^2=0.015\hat{\beta}_2 = 0.015 表示在受教育年限和任职年限不变的情况下,工作经验每增加一年,工资平均约增长 1.5\%。

研究者还会查看调整后的 R2R^2 以了解三个变量共同解释了工资对数变化的多少比例,通过 F 检验判断模型整体是否显著,并通过对每个系数的 t 检验判断每个因素是否具有统计上的显著性。若需进一步比较不同模型形式(如加入交互项、二次项等),可使用AICc信息准则进行模型选择。