# 多元线性回归 (Multiple Linear Regression)
多元线性回归 (Multiple Linear Regression, MLR) 是{{{统计学}}}和{{{计量经济学}}}中一种用于研究一个{{{因变量}}}(dependent variable)与两个或多个{{{自变量}}}(independent variables)之间线性关系的基本且功能强大的分析技术。它是{{{简单线性回归}}}的扩展,允许我们同时考察多个解释变量对被解释变量的影响。
多元回归模型的核心目标是构建一个线性方程,以尽可能准确地根据一组自变量的值来预测因变量的值,并量化每个自变量对因变量的独立贡献。
## 模型设定与方程
多元线性回归的总体模型(Population Model)可以表示为以下形式:
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon $$
其中,各个组成部分的含义如下:
* $Y$ :因变量(Dependent Variable),也称为被解释变量、响应变量或结果变量。这是我们试图解释或预测的变量。 * $X_1, X_2, \dots, X_k$ :自变量(Independent Variables),也称为解释变量、预测变量或回归元(regressors)。这些是被认为会影响因变量 $Y$ 的变量。 * $\beta_0$ :截距项(Intercept)。代表当所有自变量 $X_1, X_2, \dots, X_k$ 的值都为零时,因变量 $Y$ 的期望值。在许多经济学应用中,截距项本身可能没有直接的经济学含义,但它对于模型的正确设定至关重要。 * $\beta_1, \beta_2, \dots, \beta_k$ :回归系数(Regression Coefficients),也称为参数或斜率系数。$\beta_j$(对于$j=1, \dots, k$)度量了在保持所有其他自变量不变的情况下(这一条件常被称为“ceteris paribus”),自变量 $X_j$ 每增加一个单位,因变量 $Y$ 的期望变化量。这个“ceteris paribus”的解释是多元回归分析的核心。 * $\epsilon$ :{{{误差项}}}(Error Term),也称为扰动项或残差。它代表了所有未被模型中的自变量所解释、但又影响 $Y$ 的其他因素的总和。这些因素可能包括被忽略的变量、测量误差、或纯粹的随机性。
由于总体参数 $\beta_j$ 是未知的,我们需要使用样本数据对其进行估计。通过样本数据得到的估计模型(Sample Regression Function)为:
$$ \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2 + \dots + \hat{\beta}_k X_k $$
这里,带有“帽子”符号(hat, $\hat{\cdot}$)的项表示来自样本数据的估计值。$\hat{Y}$ 是因变量的预测值,$\hat{\beta}_j$ 则是总体参数 $\beta_j$ 的估计值。
## 参数估计:普通最小二乘法 (OLS)
最常用的参数估计算法是{{{普通最小二乘法}}} (Ordinary Least Squares, OLS)。OLS的原理是选择一组参数估计值 $\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_k$ ,使得观测值 $Y_i$ 与模型预测值 $\hat{Y}_i$ 之间的离差平方和(即{{{残差平方和}}},Sum of Squared Residuals, SSR)最小化。
数学上,OLS旨在求解以下最小化问题:
$$ \min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \text{SSR} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \dots + \hat{\beta}_k X_{ik}))^2 $$
其中 $n$ 是样本量。通过{{{微积分}}}中的求{{{偏导数}}}并令其为零的方法,可以推导出 $\hat{\beta}_j$ 的解析解。
### 矩阵形式
在实践中,使用{{{矩阵代数}}}来表示和求解多元回归问题更为简洁高效。模型可以写为:
$$ Y = X\beta + \epsilon $$
其中: * $Y$ 是一个 $n \times 1$ 的因变量观测值向量。 * $X$ 是一个 $n \times (k+1)$ 的{{{设计矩阵}}},包含了自变量的观测值以及一列用于截距项的 1。 * $\beta$ 是一个 $(k+1) \times 1$ 的未知参数向量。 * $\epsilon$ 是一个 $n \times 1$ 的误差向量。
使用这种表示法,OLS估计量 $\hat{\beta}$ 的解为:
$$ \hat{\beta} = (X'X)^{-1}X'Y $$
这个公式是{{{计量经济学}}}中的基石。它要求矩阵 $(X'X)$ 是可逆的,这直接关联到下文将讨论的“无完全共线性”假设。
## 经典线性回归模型 (CLRM) 的假设
为了保证OLS估计量具有良好的统计性质(如无偏性和有效性),需要满足一系列假设,即{{{高斯-马尔可夫假设}}} (Gauss-Markov Assumptions)。
1. 参数线性:模型在参数 $\beta_j$ 上是线性的。 2. 随机抽样:样本数据是从总体中随机抽取的。 3. 零条件均值:给定任何自变量的值,误差项的期望值为零,即 $E(\epsilon | X_1, \dots, X_k) = 0$。这意味着自变量与误差项不相关,是{{{外生变量}}}。该假设的违反会导致{{{遗漏变量偏误}}}。 4. 不存在完全{{{多重共线性}}}:在样本中,没有任何一个自变量是其他自变量的完美线性组合。如果存在完全多重共线性,$(X'X)$ 矩阵将是奇异矩阵,无法求逆,OLS估计量无解。 5. {{{同方差性}}} (Homoscedasticity):对于所有自变量的组合,误差项 $\epsilon$ 的{{{方差}}}都是一个常数 $\sigma^2$。即 $Var(\epsilon | X_1, \dots, X_k) = \sigma^2$。如果此假设不成立,则存在{{{异方差性}}} (Heteroscedasticity)。 6. 无{{{自相关}}} (No Autocorrelation):不同观测值的误差项之间不相关。即 $Cov(\epsilon_i, \epsilon_j | X) = 0$ 对于所有 $i \neq j$。此假设在处理{{{时间序列数据}}}时尤为重要。
在满足假设1至5的情况下,根据{{{高斯-马尔可夫定理}}},OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
7. 误差项正态性:误差项独立于自变量,并且服从{{{正态分布}}},其均值为0,方差为 $\sigma^2$。该假设对于进行{{{假设检验}}}(如t检验和F检验)是必需的,但在大样本下,由于{{{中心极限定理}}},该假设可以放宽。
## 模型评估与拟合优度
评估多元回归模型的好坏主要依赖以下几个指标:
* 判定系数 ($R^2$):$R^2$ 衡量了模型中的自变量能够解释因变量总变异的百分比。其计算公式为 $R^2 = 1 - \frac{SSR}{TSS}$,其中 $TSS$ 是{{{总平方和}}}。$R^2$ 的取值范围在0和1之间,越接近1说明模型的解释力越强。然而,$R^2$ 有一个缺点:在模型中增加任何新的自变量,即使该变量与因变量毫无关系,$R^2$ 的值也几乎总会上升。 * 调整后判定系数 (Adjusted $R^2$):为了弥补$R^2$的不足,调整后$R^2$被提出来。它在计算时考虑了自变量的数量,对增加不显著的变量进行了“惩罚”。其公式为 $\bar{R}^2 = 1 - \frac{SSR/(n-k-1)}{TSS/(n-1)}$。因此,当比较含有不同数量自变量的模型时,调整后$R^2$是一个更可靠的指标。 * 回归标准误 (Standard Error of the Regression, SER):SER度量了模型预测的平均误差大小,即残差的典型大小。它的数值越小,表明模型的预测越精确。
## 假设检验
在多元回归中,我们不仅关心模型的整体拟合度,更关心每个自变量是否对因变量有{{{统计显著性}}}的影响。
* 对单个系数的检验 (t检验): 我们通常检验的原假设是 $H_0: \beta_j = 0$,即自变量 $X_j$ 对 $Y$ 没有影响。备择假设是 $H_1: \beta_j \neq 0$。检验统计量是{{{t统计量}}},计算公式为: $$ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} $$ 其中 $SE(\hat{\beta}_j)$ 是系数估计值 $\hat{\beta}_j$ 的{{{标准误}}}。通过比较计算出的t值与来自{{{t分布}}}的临界值,或直接查看其对应的{{{p值}}},我们可以判断是否拒绝原假设。
* 对模型整体显著性的检验 (F检验): F检验用于检验模型中所有自变量作为一个整体是否对因变量有显著的线性影响。其原假设是所有斜率系数都为零:$H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0$。备择假设是至少有一个斜率系数不为零。{{{F统计量}}}的计算公式为: $$ F = \frac{R^2/k}{(1-R^2)/(n-k-1)} $$ 与t检验类似,通过比较F统计量和{{{F分布}}}的临界值或其p值来做出判断。
## 常见问题
* {{{遗漏变量偏误}}} (Omitted Variable Bias):当一个与因变量相关、且与模型中至少一个自变量相关的变量被遗漏时,会导致OLS估计量有偏且不一致。 * {{{多重共线性}}} (Multicollinearity):当模型中的两个或多个自变量高度相关时,会使得系数估计值的{{{标准误}}}变大,从而难以精确地评估单个自变量的独立影响。诊断工具包括{{{方差膨胀因子}}} (Variance Inflation Factor, VIF)。 * {{{异方差性}}}与{{{自相关}}}:当这些问题存在时,OLS估计量虽然仍是无偏的,但不再是有效的,且其标准误的计算是错误的,导致假设检验失效。解决方法包括使用{{{稳健标准误}}} (Robust Standard Errors) 或采用{{{广义最小二乘法}}} (Generalized Least Squares, GLS)。