知经 KNOWECON · 卓越的经济金融统计数学学习平台

多元回归分析

# 多元回归分析 (Multiple Regression Analysis)

多元回归分析 (Multiple Regression Analysis) 是一种强大的{{{统计学}}}方法,用于研究一个{{{因变量}}}(Dependent Variable)与两个或更多个{{{自变量}}}(Independent Variables)之间的关系。它是{{{简单线性回归}}}(Simple Linear Regression)的扩展,旨在通过一个线性方程来描述或预测因变量的变化。

与简单线性回归只包含一个自变量不同,多元回归分析能够同时评估多个因素对因变量的影响,并量化每个因素的独立贡献。这使得它在{{{经济学}}}、{{{金融学}}}、社会科学、工程学等众多领域中成为一种基础且应用广泛的分析工具。

## 模型设定

多元线性回归模型的基本形式如下:

$$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i $$

其中: * $Y_i$ 是第 $i$ 个观测值的 因变量(Dependent Variable),也称为响应变量(Response Variable)或被解释变量(Explained Variable)。这是我们希望解释或预测的变量。 * $X_{1i}, X_{2i}, \ldots, X_{ki}$ 是第 $i$ 个观测值的 $k$ 个 自变量(Independent Variables),也称为解释变量(Explanatory Variables)、预测变量(Predictors)或回归元(Regressors)。这些是用来解释 $Y$ 变化的因素。 * $\beta_0$ 是 截距项(Intercept),表示当所有自变量的取值都为零时,$Y$ 的期望值。在很多应用场景中,这个值的实际意义有限,但它对于模型的正确设定至关重要。 * $\beta_1, \beta_2, \ldots, \beta_k$ 是 回归系数(Regression Coefficients),也称为偏回归系数(Partial Regression Coefficients)。$\beta_j$ 度量了在 保持其他所有自变量不变 的情况下(拉丁语:{{{ceteris paribus}}}),自变量 $X_j$ 每增加一个单位,因变量 $Y$ 的期望变化量。这是多元回归分析中解释系数的核心。 * $\varepsilon_i$ 是第 $i$ 个观测值的 误差项(Error Term),也称为扰动项(Disturbance)。它代表了所有未被模型包含的、影响 $Y$ 的其他因素,以及测量误差和随机性。

## 模型的经典假设

为了使通过{{{普通最小二乘法}}}(Ordinary Least Squares, OLS)得到的估计量具有良好的统计性质(如无偏性、有效性),多元回归模型需要满足一系列经典假设,通常被称为 高斯-马尔可夫假设(Gauss-Markov Assumptions):

1. 线性关系 (Linearity):因变量 $Y$ 和自变量 $X_1, \ldots, X_k$ 之间的关系是线性的(在参数 $\beta$ 上是线性的)。 2. 随机抽样 (Random Sampling):样本数据是从总体中随机抽取的。 3. 不存在完全{{{多重共线性}}} (No Perfect Multicollinearity):在样本中,没有任何一个自变量是其他自变量的精确线性组合。如果存在完全多重共线性,模型将无法估计。 4. 零条件均值 (Zero Conditional Mean):给定任意自变量的值,误差项的期望值为零。即 $E(\varepsilon_i | X_{1i}, \ldots, X_{ki}) = 0$。这是最关键的假设,违反它会导致有偏估计,例如存在{{{遗漏变量偏误}}}(Omitted Variable Bias)。 5. {{{同方差性}}} (Homoskedasticity):对于所有自变量的任意组合,误差项的{{{方差}}}都是一个常数。即 $\text{Var}(\varepsilon_i | X_{1i}, \ldots, X_{ki}) = \sigma^2$。如果方差不恒定,则称模型存在{{{异方差性}}}(Heteroskedasticity)。 6. 误差项不{{{自相关}}} (No Autocorrelation):不同观测值的误差项之间不相关。即 $\text{Cov}(\varepsilon_i, \varepsilon_j) = 0$ 对于所有 $i \neq j$。此假设在处理{{{时间序列数据}}}时尤其重要。 7. 误差项呈{{{正态分布}}} (Normality of Errors):误差项独立于自变量,并且服从均值为0、方差为 $\sigma^2$ 的正态分布。这个假设对于进行{{{假设检验}}}(如t检验和F检验)在小样本中是必要的,但在大样本中根据{{{中心极限定理}}}可适当放宽。

## 参数估计与模型评估

### 1. 参数估计:普通最小二乘法 (OLS) OLS 是估计回归系数 $\beta_0, \beta_1, \ldots, \beta_k$ 的标准方法。其目标是找到一组估计值 $\hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k$,使得残差平方和(Sum of Squared Residuals, SSR)最小化: $$ \min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 = \min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \sum_{i=1}^n (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \cdots + \hat{\beta}_k X_{ki}))^2 $$ 通过求解这个最小化问题(通常使用{{{微积分}}}中的偏导数或{{{矩阵}}}代数),可以得到回归系数的最佳线性无偏估计量(BLUE)。

### 2. 模型拟合优度评估 * {{{决定系数}}} ($R^2$):$R^2$ 衡量了模型中的自变量能够解释因变量总变异的百分比。其取值范围在0到1之间,越接近1说明模型的解释能力越强。 $$ R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{SSR}}{\text{TSS}} $$ 其中 TSS 是总平方和,ESS 是解释平方和,SSR 是残差平方和。 * 调整后的决定系数 (Adjusted $R^2$):在多元回归中,$R^2$ 有一个缺点,即增加任何一个新的自变量(即使它与因变量无关),$R^2$ 的值都不会下降。调整后的 $R^2$ 对模型中自变量的数量进行了惩罚,从而提供了一个更公允的模型比较标准。 $$ R^2_{adj} = 1 - \frac{(n-1)}{(n-k-1)}\frac{\text{SSR}}{\text{TSS}} $$ 其中 $n$ 是样本量,$k$ 是自变量的个数。当比较包含不同数量自变量的模型时,应优先使用调整后的 $R^2$。

### 3. 模型的显著性检验 * F检验 (F-test for Overall Significance):F检验用于评估整个回归模型的有效性。它检验的{{{原假设}}}是所有自变量的系数同时为零: $$ H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 $$ 如果F检验的{{{p值}}}小于预设的{{{显著性水平}}}(如0.05),则拒绝原假设,表明模型整体上是显著的,即至少有一个自变量对因变量有显著的解释能力。

* t检验 (t-test for Individual Coefficients):t检验用于评估每个单独的自变量对因变量的影响是否显著。对于每个系数 $\beta_j$,其检验的原假设为: $$ H_0: \beta_j = 0 $$ 如果t检验的p值足够小,我们就可以拒绝原假设,认为自变量 $X_j$ 在统计上对 $Y$ 有显著影响(在控制了其他变量后)。

## 系数解释的注意事项

在解释多元回归的系数时,必须强调“保持其他变量不变” 的前提。例如,在一个预测房价的模型中: $$ \text{Price} = \beta_0 + \beta_1 \text{Size} + \beta_2 \text{Bedrooms} + \varepsilon $$ 系数 $\beta_1$ 的含义是:在卧室数量(Bedrooms)不变的情况下,房屋面积(Size)每增加一个单位(如平方米),房价(Price)平均增加 $\beta_1$ 个单位。忽略这个前提会导致对系数的错误解读。

## 应用举例

假设一位经济学家想要研究影响个人工资水平的因素,他收集了以下数据:工资(wage)、受教育年限(educ)、工作经验(exper)和在现公司的工作年限(tenure)。 他建立的多元回归模型为: $$ \log(\text{wage})_i = \beta_0 + \beta_1 \text{educ}_i + \beta_2 \text{exper}_i + \beta_3 \text{tenure}_i + \varepsilon_i $$ (这里对工资取对数是一种常见做法,可以使系数的解释变为百分比变化) 假设估计结果为: $$ \widehat{\log(\text{wage})} = 0.584 + 0.083 \cdot \text{educ} + 0.015 \cdot \text{exper} + 0.017 \cdot \text{tenure} $$ * 系数解释: * $\hat{\beta}_1 = 0.083$:在工作经验和公司任职年限不变的情况下,受教育年限每增加一年,工资平均约增长8.3%。 * $\hat{\beta}_2 = 0.015$:在受教育年限和公司任职年限不变的情况下,工作经验每增加一年,工资平均约增长1.5%。 * 模型评估:研究者还会查看调整后的 $R^2$ 来了解这三个变量共同解释了工资对数变化的多少,通过F检验判断模型整体是否显著,并通过对每个系数的t检验来判断每个因素是否都具有统计上的显著性。