ARTICLE

古典线性回归模型

古典线性回归模型 (Classical Linear Regression Model) 古典线性回归模型 (Classical Linear Regression Model, CLRM) 是 计量经济学 的基石,由 普通最小二乘法 (Ordinary Least Squares, OLS) 框架下的线性 回归分析 构成。它研究一个 因变量 Y 与一个或多

浏览 4 更新 2025-07-17

古典线性回归模型 (Classical Linear Regression Model)

古典线性回归模型 (Classical Linear Regression Model, CLRM) 是 计量经济学 的基石,由 普通最小二乘法 (Ordinary Least Squares, OLS) 框架下的线性 回归分析 构成。它研究一个 因变量 YY 与一个或多个 自变量 X1,X2,,XkX_1, X_2, \ldots, X_k 之间的线性关系,是经济学实证研究的核心工具。

模型设定

对于 nn 个观测值,总体回归模型为:

Yi=β0+β1X1i+β2X2i++βkXki+εi,i=1,2,,nY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i, \quad i = 1, 2, \ldots, n

其中 β0\beta_0 为截距项,βj\beta_jj=1,,kj = 1, \ldots, k)为斜率参数,衡量自变量 XjX_jYY 的边际效应;εi\varepsilon_i随机误差项,捕捉模型未包含的所有因素。用矩阵表示为:

y=Xβ+ε\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

高斯-马尔可夫假定

OLS 估计量具有优良统计性质的前提是以下 高斯-马尔可夫假定 (Gauss-Markov Assumptions):

  1. 线性性:模型对参数 β\boldsymbol{\beta} 是线性的,即 Y=Xβ+εY = \boldsymbol{X}\boldsymbol{\beta} + \varepsilon
  2. 严格外生性E(εiX)=0\mathbb{E}(\varepsilon_i \mid \boldsymbol{X}) = 0,误差项与所有自变量的任意观测值不相关。
  3. 无完全多重共线性X\boldsymbol{X} 列满秩,即 rank(X)=k+1\text{rank}(\boldsymbol{X}) = k+1,自变量之间不存在精确线性关系。
  4. 球面误差方差Var(εiX)=σ2\text{Var}(\varepsilon_i \mid \boldsymbol{X}) = \sigma^2同方差性),且 Cov(εi,εjX)=0\text{Cov}(\varepsilon_i, \varepsilon_j \mid \boldsymbol{X}) = 0(无 自相关)。
  5. 正态性(可选):εiXN(0,σ2)\varepsilon_i \mid \boldsymbol{X} \sim N(0, \sigma^2),用于有限样本下的 假设检验置信区间 构造。

OLS 估计

OLS 通过最小化残差平方和求解 β\boldsymbol{\beta}

minβ^i=1n(Yixiβ^)2=(yXβ^)(yXβ^)\min_{\hat{\boldsymbol{\beta}}} \sum_{i=1}^{n} (Y_i - \boldsymbol{x}_i'\hat{\boldsymbol{\beta}})^2 = (\boldsymbol{y} - \boldsymbol{X}\hat{\boldsymbol{\beta}})'(\boldsymbol{y} - \boldsymbol{X}\hat{\boldsymbol{\beta}})

一阶条件给出正规方程 XXβ^=Xy\boldsymbol{X}'\boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{X}'\boldsymbol{y},解为:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{y}

在假定 1--4 下,OLS 估计量是 线性无偏的E(β^X)=β\mathbb{E}(\hat{\boldsymbol{\beta}} \mid \boldsymbol{X}) = \boldsymbol{\beta},且方差-协方差矩阵为:

Var(β^X)=σ2(XX)1\text{Var}(\hat{\boldsymbol{\beta}} \mid \boldsymbol{X}) = \sigma^2 (\boldsymbol{X}'\boldsymbol{X})^{-1}

高斯-马尔可夫定理

高斯-马尔可夫定理 断言:在假定 1--4 下,OLS 估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。即对于参数 β\boldsymbol{\beta} 的任意线性组合 cβ\boldsymbol{c}'\boldsymbol{\beta},在所有线性无偏估计量中,OLS 估计量 cβ^\boldsymbol{c}'\hat{\boldsymbol{\beta}} 具有最小方差。这一定理确立了 OLS 在古典框架下的最优性,是计量理论的里程碑。

拟合优度与模型诊断

决定系数 R2R^2 衡量模型对数据的拟合程度:

R2=1i=1nε^i2i=1n(YiYˉ)2=1SSRSSTR^2 = 1 - \frac{\sum_{i=1}^{n} \hat{\varepsilon}_i^2}{\sum_{i=1}^{n} (Y_i - \bar{Y})^2} = 1 - \frac{\text{SSR}}{\text{SST}}

其中 ε^i=Yixiβ^\hat{\varepsilon}_i = Y_i - \boldsymbol{x}_i'\hat{\boldsymbol{\beta}} 为残差。R2[0,1]R^2 \in [0, 1],越接近 1 表明拟合越好,但增加自变量会使 R2R^2 机械上升,因此常用 调整 R2R^2Rˉ2\bar{R}^2)进行自由度修正。

对方差 σ2\sigma^2 的无偏估计为 σ^2=1nk1i=1nε^i2\hat{\sigma}^2 = \frac{1}{n-k-1}\sum_{i=1}^{n} \hat{\varepsilon}_i^2

假设检验

在假定 5(正态性)下,可构造如下检验:

  • 单个系数检验H0:βj=0H_0: \beta_j = 0t 检验,统计量 t=β^j/SE(β^j)tnk1t = \hat{\beta}_j / \text{SE}(\hat{\beta}_j) \sim t_{n-k-1}
  • 联合检验H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0F 检验,统计量 F=R2/k(1R2)/(nk1)Fk,nk1F = \frac{R^2/k}{(1-R^2)/(n-k-1)} \sim F_{k, n-k-1}
  • 线性约束检验:检验多个线性约束(如 β1=β2\beta_1 = \beta_2),通过比较受约束与无约束模型的残差平方和构造 F 统计量。

违背假定的后果

古典假定在实践中常被违背:

  1. 异方差性Var(εiX)σ2\text{Var}(\varepsilon_i \mid \boldsymbol{X}) \neq \sigma^2,此时 OLS 仍无偏但不再有效,标准误有偏。解决方案包括 怀特稳健标准误加权最小二乘法 (WLS)。
  2. 自相关Cov(εi,εj)0\text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0,常见于 时间序列数据。OLS 标准误有偏,需使用 Newey-West 标准误广义最小二乘法 (GLS)。
  3. 多重共线性:自变量间高度相关(虽非完全共线),导致 Var(β^j)\text{Var}(\hat{\beta}_j) 膨胀,系数估计不稳定。可通过 方差膨胀因子 (VIF) 诊断。

经济学应用

古典线性回归模型广泛应用于经济学各领域:

  1. 劳动经济学:估计教育回报率——ln(wage)=β0+β1educ+β2exper+ε\ln(\text{wage}) = \beta_0 + \beta_1 \text{educ} + \beta_2 \text{exper} + \varepsilon,其中 β1\beta_1 衡量每增加一年教育带来的工资百分比变化。
  2. 消费函数:凯恩斯消费函数 C=β0+β1Y+εC = \beta_0 + \beta_1 Y + \varepsilonβ1\beta_1边际消费倾向
  3. 资产定价CAPMβ\beta 系数的估计——RiRf=α+β(RmRf)+εR_i - R_f = \alpha + \beta (R_m - R_f) + \varepsilonβ\beta 衡量资产 ii 的系统性风险。
  4. 政策评估:通过 双重差分法 (DiD) 的回归形式 Y=β0+β1Treat+β2Post+β3Treat×Post+εY = \beta_0 + \beta_1 \text{Treat} + \beta_2 \text{Post} + \beta_3 \text{Treat} \times \text{Post} + \varepsilonβ3\beta_3 捕捉政策处理效应。

古典线性回归模型是理解现代计量方法(如 工具变量法面板数据模型断点回归)的逻辑起点,掌握其假定、推导与诊断是深入学习 计量经济学 的必要基础。