ARTICLE

经典线性模型

经典线性模型 (Classical Linear Model) 经典线性模型,全称经典线性回归模型 (Classical Linear Regression Model, CLRM),是计量经济学中最为基础和核心的理论框架。它设定了一组理想化的假设条件,在这些条件下,普通最小二乘法 (OLS)估计量被证明具有优良的统计性质。经典线性模型不仅是计量经济学教学的

浏览 7 更新 2026-07-11

经典线性模型 (Classical Linear Model)

经典线性模型,全称经典线性回归模型 (Classical Linear Regression Model, CLRM),是计量经济学中最为基础和核心的理论框架。它设定了一组理想化的假设条件,在这些条件下,普通最小二乘法 (OLS)估计量被证明具有优良的统计性质。经典线性模型不仅是计量经济学教学的起点,也是更复杂模型(如广义最小二乘法工具变量法面板数据模型)推导的参照基准——理解在何种情况下CLRM的假设被违背,以及违背后如何修正,构成了现代计量经济学的主要内容。

模型设定

经典线性模型的基本形式为:

yi=β0+β1xi1+β2xi2++βkxik+εi,i=1,2,,ny_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \varepsilon_i, \quad i = 1, 2, \ldots, n

其中 yiy_i 为第 ii 个观测的被解释变量(因变量),xi1,,xikx_{i1}, \ldots, x_{ik}kk 个解释变量(自变量或回归元),β0,β1,,βk\beta_0, \beta_1, \ldots, \beta_k 为待估计的未知参数,εi\varepsilon_i 为随机扰动项(误差项)。以矩阵形式简洁表示为:

y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 y\mathbf{y}n×1n \times 1 向量,X\mathbf{X}n×(k+1)n \times (k+1) 矩阵(第一列通常为常数项对应的1),β\boldsymbol{\beta}(k+1)×1(k+1) \times 1 参数向量,ε\boldsymbol{\varepsilon}n×1n \times 1 扰动项向量。

经典假设

经典线性模型的效力来源于以下一组核心假设。这些假设共同确保了OLS估计量具有最优的统计性质:

  1. 线性性 (Linearity):模型对参数是线性的,即 yiy_i 是参数 βj\beta_j 的线性函数。这并不意味着变量之间必须是线性关系——通过对变量进行变换(如取对数、平方项、交互项),模型仍可纳入非线性关系,关键是参数以线性形式进入模型。
  2. 严格外生性 (Strict Exogeneity):扰动项的条件期望为零,即 E[εX]=0\mathbb{E}[\boldsymbol{\varepsilon} \mid \mathbf{X}] = \mathbf{0}。这意味着扰动项与所有观测的解释变量(包括所有时间点上的)都不相关。该假设强于仅要求同期的 E[εixi1,,xik]=0\mathbb{E}[\varepsilon_i \mid x_{i1}, \ldots, x_{ik}] = 0,但在时间序列中,严格外生性排除了反馈效应——被解释变量的过去值影响未来解释变量的情况。
  3. 无完全多重共线性 (No Perfect Multicollinearity):解释变量之间不存在精确的线性关系,即矩阵 X\mathbf{X} 是满列秩的(rank(X)=k+1\text{rank}(\mathbf{X}) = k+1)。如果存在完全多重共线性,(XX)1(\mathbf{X}'\mathbf{X})^{-1} 不存在,参数无法唯一估计。实践中,高度的非完全多重共线性同样会导致估计量的方差膨胀,可通过方差膨胀因子 (VIF)诊断。
  4. 球形扰动项 (Spherical Disturbances):该假设包含两个子条件—— \begin{itemize}
  5. 同方差性 (Homoskedasticity)Var(εiX)=σ2\text{Var}(\varepsilon_i \mid \mathbf{X}) = \sigma^2 对所有 ii 成立,即扰动项的方差是常数,不随解释变量或观测次序变化。
  6. 无自相关 (No Autocorrelation)Cov(εi,εjX)=0\text{Cov}(\varepsilon_i, \varepsilon_j \mid \mathbf{X}) = 0 对所有 iji \neq j 成立。在截面数据中,这意味着不同观测之间相互独立;在时间序列中,这意味着不存在序列相关。 \end{itemize} 用矩阵形式,该假设等价于 Var(εX)=σ2In\text{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n
  7. 正态性 (Normality)(可选假设):εXN(0,σ2In)\boldsymbol{\varepsilon} \mid \mathbf{X} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n)。该假设在小样本中对于假设检验的精确 ttFF 分布是必要的,但在大样本下,即使不满足正态性,借助中心极限定理,OLS估计量仍具有渐近正态性,检验统计量可使用渐近分布进行推断。

OLS估计

在经典线性模型框架下,参数向量 β\boldsymbol{\beta} 通过最小化残差平方和获得:

minβ^i=1nε^i2=minβ^(yXβ^)(yXβ^)\min_{\hat{\boldsymbol{\beta}}} \sum_{i=1}^{n} \hat{\varepsilon}_i^2 = \min_{\hat{\boldsymbol{\beta}}} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})

取一阶条件并求解,得到OLS估计量的闭合形式:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

在满足假设1--4的条件下,β^\hat{\boldsymbol{\beta}} 是无偏的:E[β^X]=β\mathbb{E}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \boldsymbol{\beta}。其条件方差-协方差矩阵为:

Var(β^X)=σ2(XX)1\text{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}

扰动项方差 σ2\sigma^2 的无偏估计量为 s2=ε^ε^nk1s^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k - 1},其中分母使用自由度而非样本量进行校正。单个系数 β^j\hat{\beta}_j 的标准误为 s(XX)jj1s \cdot \sqrt{(\mathbf{X}'\mathbf{X})^{-1}_{jj}}

高斯-马尔可夫定理

高斯-马尔可夫定理 (Gauss-Markov Theorem)是经典线性模型中最核心的结论:在假设1--4成立的前提下,OLS估计量 β^\hat{\boldsymbol{\beta}}最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。具体而言:

  • 线性 (Linear)β^\hat{\boldsymbol{\beta}}y\mathbf{y} 的线性函数——这在所有线性估计量类中给予OLS公平的比较起点。
  • 无偏性 (Unbiased):在所有线性估计量中,OLS是无偏的——即估计量以真实参数值为中心分布,不存在系统性的高估或低估。
  • 最优/有效性 (Best/Efficiency):在所有线性无偏估计量中,OLS具有最小的方差——即其在无偏估计量中精确度最高。"最优"指的是方差-协方差矩阵意义上的最小:对于任意其他线性无偏估计量 β~\tilde{\boldsymbol{\beta}}Var(β~X)Var(β^X)\text{Var}(\tilde{\boldsymbol{\beta}} \mid \mathbf{X}) - \text{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) 是一个半正定矩阵。

高斯-马尔可夫定理的重要性在于:它告诉我们,只要经典假设成立,OLS估计量就已经是线性无偏估计量类中最好的,不需要再寻找更复杂的估计方法。反过来,定理也划定了OLS有效性的边界——一旦假设被违背,OLS将失去BLUE性质,需要使用广义最小二乘法 (GLS)加权最小二乘法 (WLS)或其他估计技术来恢复有效性。

值得强调的是,BLUE并不意味着OLS在所有可能的估计量中都是最优的——非线性或有偏估计量(如岭回归LASSO)在存在多重共线性或预测精度优先于无偏性的情境中可能表现更好。此外,如果正态性假设也成立,OLS估计量在小样本中还在所有估计量(不限于线性类)中具有最小方差,即它是最优无偏估计量 (Best Unbiased Estimator, BUE)

拟合优度与模型诊断

模型的解释力通过决定系数 R2R^2 衡量:

R2=1i=1nε^i2i=1n(yiyˉ)2=ESSTSSR^2 = 1 - \frac{\sum_{i=1}^{n} \hat{\varepsilon}_i^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} = \frac{\text{ESS}}{\text{TSS}}

R2R^2 表示被解释变量的总变异中可由解释变量线性解释的比例,取值在0到1之间。为防止通过增加无关变量来人为提高 R2R^2,引入调整 R2R^2Rˉ2\bar{R}^2),对额外的回归元施加自由度惩罚。然而,必须警惕对 R2R^2 的过度迷恋——一个高 R2R^2 既不能证明因果关系,也不能保证模型设定的正确性。

假设检验

在正态性假设下,可以进行精确的有限样本推断:

  • 单系数检验(tt 检验):检验原假设 H0:βj=cH_0: \beta_j = c,检验统计量 β^jcse(β^j)tnk1\frac{\hat{\beta}_j - c}{\text{se}(\hat{\beta}_j)} \sim t_{n-k-1}。最常见的特例是检验系数的统计显著性,即 H0:βj=0H_0: \beta_j = 0
  • 多个线性约束检验(FF 检验):检验如 H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0(整体显著性检验)或更一般的线性约束 H0:Rβ=rH_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r},其中 R\mathbf{R}q×(k+1)q \times (k+1) 约束矩阵。检验统计量服从 Fq,nk1F_{q, n-k-1} 分布。
  • 置信区间:系数 βj\beta_j100(1α)%100(1-\alpha)\% 置信区间为 β^j±tnk1,α/2se(β^j)\hat{\beta}_j \pm t_{n-k-1, \alpha/2} \cdot \text{se}(\hat{\beta}_j)

在大样本下,即使正态性不成立,tt 统计量渐近服从标准正态分布,FF 统计量的 qq 倍渐近服从 χq2\chi^2_q 分布,因此渐近推断仍可进行。

假设违背与扩展方向

经典线性模型的优雅结论建立在其严格假设之上,而实际经济数据几乎总会违背其中某几项。现代计量经济学的大量发展正是围绕对这些假设的系统性放松:

  • 异方差:违背同方差假设时,OLS仍无偏且一致,但不再有效,且标准误的常用估计公式是有偏的。解决方案包括使用异方差稳健标准误(Huber-White sandwich estimator)或加权最小二乘法
  • 自相关:在时间序列中常见,违背无自相关假设。OLS仍无偏但无效,标准误有偏。Newey-West标准误提供了异方差-自相关一致的方差估计。
  • 内生性:当 E[xiεi]0\mathbb{E}[x_i \varepsilon_i] \neq 0 时——可能来源于遗漏变量、测量误差、联立性或自选择——OLS既是有偏的也是不一致的。这是实证研究中最为严重的设定问题,通常借助工具变量法 (IV)双重差分法 (DiD)断点回归设计 (RDD)随机对照试验 (RCT)来应对。
  • 多重共线性:虽不违背任何经典假设,但高度共线性会严重膨胀系数估计的方差,使个体系数的统计显著性难以识别。诊断工具包括VIF和条件数。

在经济学研究中的地位

经典线性模型远非一个过时的入门模型。它在实证研究中依然是最常被调用的基准框架——绝大多数应用计量研究的第一张回归表都是OLS估计结果。它的价值在于:作为最透明的线性基准,它为研究者提供了一个清晰的诊断起点。每当研究者转向更复杂的方法(IV、面板固定效应、非线性模型等)时,OLS的结果通常作为参照系呈现,以揭示数据中不同维度的变异如何影响结论。深刻理解经典线性模型的假设、性质及其在违背时的行为,是一个合格的应用经济学家不可或缺的基本功。