知经 KNOWECON · 卓越的经济金融统计数学学习平台

经典线性回归模型

# 经典线性回归模型 (Classical Linear Regression Model)

经典线性回归模型 (Classical Linear Regression Model, CLRM) 是{{{计量经济学}}}和{{{统计学}}}中最基础、最重要的模型之一。它旨在通过一组可观测的{{{自变量}}}(或解释变量)来建模并解释一个{{{因变量}}}(或被解释变量)的期望值。该模型的核心在于其一系列严格的假设,这些假设合称为 高斯-马尔可夫假设 (Gauss-Markov Assumptions)。当这些假设成立时,通过{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 得到的参数估计量具有优良的统计性质。

## 模型设定

一个典型的多元经典线性回归模型可以表示为如下的{{{总体回归函数}}} (Population Regression Function, PRF):

$$ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + u_i $$

其中:

* $Y_i$ 是第 $i$ 个观测值的 因变量 (Dependent Variable)。 * $X_{1i}, X_{2i}, \dots, X_{ki}$ 是第 $i$ 个观测值的 $k$ 个 自变量 (Independent Variables) 或 解释变量 (Explanatory Variables)。 * $\beta_0$ 是 截距项 (Intercept),代表当所有自变量都为零时 $Y$ 的期望值。 * $\beta_1, \beta_2, \dots, \beta_k$ 是 斜率系数 (Slope Coefficients) 或称 参数 (Parameters)。$\beta_j$ 度量了在其他自变量保持不变的情况下,$X_j$ 每增加一个单位,$Y$ 的期望值的变化量,这也被称为{{{边际效应}}}。 * $u_i$ 是第 $i$ 个观测值的 误差项 (Error Term) 或 随机扰动项 (Stochastic Disturbance Term)。它代表了所有未被模型中的自变量所解释的、影响 $Y$ 的因素,包括测量误差、模型设定偏误、以及纯粹的随机性。

## 经典假设 (高斯-马尔可夫假设)

CLRM的有效性完全建立在其 foundational assumptions 之上。前五个假设构成了{{{高斯-马尔可夫定理}}}的核心,保证了OLS估计量的“BLUE”性质。

假设 1: 参数线性 (Linearity in Parameters)

模型必须是关于参数 $\beta_0, \beta_1, \dots, \beta_k$ 的线性函数。

* 解释:这意味着参数本身不能是指数、对数或其他非线性函数的形式。然而,这个假设 不要求 变量本身是线性的。例如,$Y = \beta_0 + \beta_1 X^2 + \beta_2 \log(Z) + u$ 依然是参数线性的,因为 $Y$ 是 $\beta_0, \beta_1, \beta_2$ 的线性组合。但 $Y = \beta_0 + X^{\beta_1} + u$ 就不是参数线性的。

假设 2: 随机抽样 (Random Sampling)

数据集 $\{ (Y_i, X_{1i}, \dots, X_{ki}) : i=1, \dots, n \}$ 是从总体中随机抽取的样本。

* 解释:此假设保证了样本具有代表性,并且每个观测值的误差项 $u_i$ 与其他任何观测值的误差项 $u_j$ (for $j \neq i$) 是相互独立的。

假设 3: 不存在完全共线性 (No Perfect Collinearity)

在样本中,任何一个自变量都不能被其他自变量的线性组合完美地表示出来。

* 解释:如果存在完全{{{共线性}}},例如 $X_2 = 2 X_1$,那么我们就无法独立地估计 $X_1$ 和 $X_2$ 对 $Y$ 的影响。在数学上,这会导致{{{设计矩阵}}} $X$ 的秩亏,使得 $(X'X)$ 矩阵不可逆,从而无法计算出唯一的OLS估计值。若变量间存在高度而非完全的线性关系,则称为{{{多重共线性}}} (Multicollinearity),这虽然不违反该假设,但会增大估计量的{{{标准误}}},降低估计精度。

假设 4: 零条件均值 (Zero Conditional Mean)

给定任意自变量的值,误差项的期望值为零。

$$ E(u_i | X_{1i}, X_{2i}, \dots, X_{ki}) = 0 $$

* 解释:这是CLRM中 最关键 的一个假设。它意味着自变量与所有影响因变量但未被包含在模型中的因素(即误差项)不相关。当这个假设成立时,我们称自变量是{{{外生的}}} (Exogenous)。如果一个或多个自变量与误差项相关,即 $E(u_i | X) \neq 0$,则称其为{{{内生的}}} (Endogenous)。内生性是计量经济分析中最严重的问题之一,因为它会导致OLS估计量产生{{{偏误}}} (Bias) 和{{{不一致性}}} (Inconsistency)。

假设 5: 同方差性 (Homoscedasticity)

给定任意自变量的值,误差项的方差是恒定的。

$$ \text{Var}(u_i | X_{1i}, X_{2i}, \dots, X_{ki}) = \sigma^2 $$

* 解释同方差性 (Homoscedasticity) 意味着误差项的离散程度不随自变量的变化而变化。如果误差项的方差随着自变量的变化而系统性地改变,则称模型存在{{{异方差性}}} (Heteroscedasticity)。例如,在高收入人群中,消费行为的差异性可能远大于低收入人群,此时以收入为自变量解释消费的模型就可能存在异方差。异方差不会导致OLS估计量有偏,但会使其不再是“最优”的(失去最小方差性),并且常规的{{{标准误}}}计算方法是错误的,导致{{{t检验}}}和{{{F检验}}}失效。

假设 6: 无自相关 (No Autocorrelation or Serial Correlation)

对于任意两个不同的观测值 $i$ 和 $j$,其误差项是相互独立的(不相关)。

$$ \text{Cov}(u_i, u_j | X_i, X_j) = 0 \quad \text{for} \quad i \neq j $$

* 解释:此假设在处理{{{时间序列数据}}}时尤为重要。它要求一个时期的误差项不应与另一个时期的误差项相关。如果存在{{{自相关}}},例如,一个时期的冲击(如经济衰退)会持续影响未来几个时期,那么OLS估计量虽然仍然是无偏的,但不再具有最小方差性,且标准误计算错误。

假设 7: 误差项正态分布 (Normality of Error Terms)

误差项 $u_i$ 独立于自变量 $X$ ,并且服从均值为0、方差为 $\sigma^2$ 的{{{正态分布}}}。

$$ u_i | X \sim \mathcal{N}(0, \sigma^2) $$

* 解释:这是一个较强的假设,它并非{{{高斯-马尔可夫定理}}}所必需的。然而,在小样本情况下,该假设对于进行精确的{{{统计推断}}}(如构建{{{置信区间}}}和进行{{{假设检验}}})是必要的。当样本容量足够大时,根据{{{中心极限定理}}} (Central Limit Theorem),OLS估计量将渐近服从正态分布,因此正态性假设可以放宽。

## OLS估计量及其性质

当假设1至假设5成立时,{{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 表明,{{{普通最小二乘法}}} (OLS) 估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)

* 最佳 (Best):在所有线性和无偏的估计量中,OLS估计量具有最小的{{{方差}}}。这意味着它的估计结果最有效、最精确。 * 线性 (Linear):OLS估计量 $\hat{\beta}_j$ 是因变量 $Y_i$ 的线性函数。 * 无偏 (Unbiased):OLS估计量的期望值等于真实的总体参数,即 $E(\hat{\beta}_j) = \beta_j$。这意味着,平均而言,OLS方法能够准确地估计出真实的参数值。这一性质主要依赖于零条件均值假设(假设4)。

当所有七个假设都成立时,OLS估计量不仅是BLUE,而且其抽样分布是精确的正态分布,从而使得基于t分布和F分布的统计推断在任何样本量下都是有效的。