经典线性模型 (Classical Linear Model)
经典线性模型 ,全称经典线性回归模型 (Classical Linear Regression Model, CLRM) ,是计量经济学 中最为基础和核心的理论框架。它设定了一组理想化的假设条件,在这些条件下,普通最小二乘法 (OLS) 估计量被证明具有优良的统计性质。经典线性模型不仅是计量经济学教学的起点,也是更复杂模型(如广义最小二乘法 、工具变量法 、面板数据模型 )推导的参照基准——理解在何种情况下CLRM的假设被违背,以及违背后如何修正,构成了现代计量经济学的主要内容。
模型设定
经典线性模型的基本形式为:
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x i k + ε i , i = 1 , 2 , … , n y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \varepsilon_i, \quad i = 1, 2, \ldots, n y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x ik + ε i , i = 1 , 2 , … , n
其中 y i y_i y i 为第 i i i 个观测的被解释变量(因变量),x i 1 , … , x i k x_{i1}, \ldots, x_{ik} x i 1 , … , x ik 为 k k k 个解释变量(自变量或回归元),β 0 , β 1 , … , β k \beta_0, \beta_1, \ldots, \beta_k β 0 , β 1 , … , β k 为待估计的未知参数,ε i \varepsilon_i ε i 为随机扰动项(误差项)。以矩阵形式简洁表示为:
y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε
其中 y \mathbf{y} y 为 n × 1 n \times 1 n × 1 向量,X \mathbf{X} X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 矩阵(第一列通常为常数项对应的1),β \boldsymbol{\beta} β 为 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 参数向量,ε \boldsymbol{\varepsilon} ε 为 n × 1 n \times 1 n × 1 扰动项向量。
经典假设
经典线性模型的效力来源于以下一组核心假设。这些假设共同确保了OLS估计量具有最优的统计性质:
线性性 (Linearity) :模型对参数是线性的,即 y i y_i y i 是参数 β j \beta_j β j 的线性函数。这并不意味着变量之间必须是线性关系——通过对变量进行变换(如取对数、平方项、交互项),模型仍可纳入非线性关系,关键是参数以线性形式进入模型。严格外生性 (Strict Exogeneity) :扰动项的条件期望为零,即 E [ ε ∣ X ] = 0 \mathbb{E}[\boldsymbol{\varepsilon} \mid \mathbf{X}] = \mathbf{0} E [ ε ∣ X ] = 0 。这意味着扰动项与所有观测的解释变量(包括所有时间点上的)都不相关。该假设强于仅要求同期的 E [ ε i ∣ x i 1 , … , x i k ] = 0 \mathbb{E}[\varepsilon_i \mid x_{i1}, \ldots, x_{ik}] = 0 E [ ε i ∣ x i 1 , … , x ik ] = 0 ,但在时间序列中,严格外生性排除了反馈效应 ——被解释变量的过去值影响未来解释变量的情况。无完全多重共线性 (No Perfect Multicollinearity) :解释变量之间不存在精确的线性关系,即矩阵 X \mathbf{X} X 是满列秩的(rank ( X ) = k + 1 \text{rank}(\mathbf{X}) = k+1 rank ( X ) = k + 1 )。如果存在完全多重共线性,( X ′ X ) − 1 (\mathbf{X}'\mathbf{X})^{-1} ( X ′ X ) − 1 不存在,参数无法唯一估计。实践中,高度的非完全多重共线性同样会导致估计量的方差膨胀,可通过方差膨胀因子 (VIF) 诊断。球形扰动项 (Spherical Disturbances) :该假设包含两个子条件—— \begin{itemize}同方差性 (Homoskedasticity) :Var ( ε i ∣ X ) = σ 2 \text{Var}(\varepsilon_i \mid \mathbf{X}) = \sigma^2 Var ( ε i ∣ X ) = σ 2 对所有 i i i 成立,即扰动项的方差是常数,不随解释变量或观测次序变化。无自相关 (No Autocorrelation) :Cov ( ε i , ε j ∣ X ) = 0 \text{Cov}(\varepsilon_i, \varepsilon_j \mid \mathbf{X}) = 0 Cov ( ε i , ε j ∣ X ) = 0 对所有 i ≠ j i \neq j i = j 成立。在截面数据中,这意味着不同观测之间相互独立;在时间序列中,这意味着不存在序列相关。 \end{itemize} 用矩阵形式,该假设等价于 Var ( ε ∣ X ) = σ 2 I n \text{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n Var ( ε ∣ X ) = σ 2 I n 。正态性 (Normality) (可选假设):ε ∣ X ∼ N ( 0 , σ 2 I n ) \boldsymbol{\varepsilon} \mid \mathbf{X} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n) ε ∣ X ∼ N ( 0 , σ 2 I n ) 。该假设在小样本中对于假设检验的精确 t t t 和 F F F 分布是必要的,但在大样本下,即使不满足正态性,借助中心极限定理 ,OLS估计量仍具有渐近正态性,检验统计量可使用渐近分布进行推断。
OLS估计
在经典线性模型框架下,参数向量 β \boldsymbol{\beta} β 通过最小化残差平方和获得:
min β ^ ∑ i = 1 n ε ^ i 2 = min β ^ ( y − X β ^ ) ′ ( y − X β ^ ) \min_{\hat{\boldsymbol{\beta}}} \sum_{i=1}^{n} \hat{\varepsilon}_i^2 = \min_{\hat{\boldsymbol{\beta}}} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) β ^ min i = 1 ∑ n ε ^ i 2 = β ^ min ( y − X β ^ ) ′ ( y − X β ^ )
取一阶条件并求解,得到OLS估计量的闭合形式:
β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} β ^ = ( X ′ X ) − 1 X ′ y
在满足假设1--4的条件下,β ^ \hat{\boldsymbol{\beta}} β ^ 是无偏的:E [ β ^ ∣ X ] = β \mathbb{E}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \boldsymbol{\beta} E [ β ^ ∣ X ] = β 。其条件方差-协方差矩阵为:
Var ( β ^ ∣ X ) = σ 2 ( X ′ X ) − 1 \text{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} Var ( β ^ ∣ X ) = σ 2 ( X ′ X ) − 1
扰动项方差 σ 2 \sigma^2 σ 2 的无偏估计量为 s 2 = ε ^ ′ ε ^ n − k − 1 s^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n - k - 1} s 2 = n − k − 1 ε ^ ′ ε ^ ,其中分母使用自由度而非样本量进行校正。单个系数 β ^ j \hat{\beta}_j β ^ j 的标准误为 s ⋅ ( X ′ X ) j j − 1 s \cdot \sqrt{(\mathbf{X}'\mathbf{X})^{-1}_{jj}} s ⋅ ( X ′ X ) jj − 1 。
高斯-马尔可夫定理
高斯-马尔可夫定理 (Gauss-Markov Theorem) 是经典线性模型中最核心的结论:在假设1--4成立的前提下,OLS估计量 β ^ \hat{\boldsymbol{\beta}} β ^ 是最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE) 。具体而言:
线性 (Linear) :β ^ \hat{\boldsymbol{\beta}} β ^ 是 y \mathbf{y} y 的线性函数——这在所有线性估计量类中给予OLS公平的比较起点。无偏性 (Unbiased) :在所有线性估计量中,OLS是无偏的——即估计量以真实参数值为中心分布,不存在系统性的高估或低估。最优/有效性 (Best/Efficiency) :在所有线性无偏估计量中,OLS具有最小的方差——即其在无偏估计量中精确度最高。"最优"指的是方差-协方差矩阵意义上的最小:对于任意其他线性无偏估计量 β ~ \tilde{\boldsymbol{\beta}} β ~ ,Var ( β ~ ∣ X ) − Var ( β ^ ∣ X ) \text{Var}(\tilde{\boldsymbol{\beta}} \mid \mathbf{X}) - \text{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) Var ( β ~ ∣ X ) − Var ( β ^ ∣ X ) 是一个半正定矩阵。
高斯-马尔可夫定理的重要性在于:它告诉我们,只要经典假设成立,OLS估计量就已经是线性无偏估计量类中最好的,不需要再寻找更复杂的估计方法。反过来,定理也划定了OLS有效性的边界——一旦假设被违背,OLS将失去BLUE性质,需要使用广义最小二乘法 (GLS) 、加权最小二乘法 (WLS) 或其他估计技术来恢复有效性。
值得强调的是,BLUE并不意味着OLS在所有可能的估计量中都是最优的——非线性或有偏估计量(如岭回归 、LASSO )在存在多重共线性或预测精度优先于无偏性的情境中可能表现更好。此外,如果正态性假设也成立,OLS估计量在小样本中还在所有估计量(不限于线性类)中具有最小方差,即它是最优无偏估计量 (Best Unbiased Estimator, BUE) 。
拟合优度与模型诊断
模型的解释力通过决定系数 R 2 R^2 R 2 衡量:
R 2 = 1 − ∑ i = 1 n ε ^ i 2 ∑ i = 1 n ( y i − y ˉ ) 2 = ESS TSS R^2 = 1 - \frac{\sum_{i=1}^{n} \hat{\varepsilon}_i^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} = \frac{\text{ESS}}{\text{TSS}} R 2 = 1 − ∑ i = 1 n ( y i − y ˉ ) 2 ∑ i = 1 n ε ^ i 2 = TSS ESS
R 2 R^2 R 2 表示被解释变量的总变异中可由解释变量线性解释的比例,取值在0到1之间。为防止通过增加无关变量来人为提高 R 2 R^2 R 2 ,引入调整 R 2 R^2 R 2 (R ˉ 2 \bar{R}^2 R ˉ 2 ),对额外的回归元施加自由度惩罚。然而,必须警惕对 R 2 R^2 R 2 的过度迷恋——一个高 R 2 R^2 R 2 既不能证明因果关系,也不能保证模型设定的正确性。
假设检验
在正态性假设下,可以进行精确的有限样本推断:
单系数检验(t t t 检验) :检验原假设 H 0 : β j = c H_0: \beta_j = c H 0 : β j = c ,检验统计量 β ^ j − c se ( β ^ j ) ∼ t n − k − 1 \frac{\hat{\beta}_j - c}{\text{se}(\hat{\beta}_j)} \sim t_{n-k-1} se ( β ^ j ) β ^ j − c ∼ t n − k − 1 。最常见的特例是检验系数的统计显著性,即 H 0 : β j = 0 H_0: \beta_j = 0 H 0 : β j = 0 。多个线性约束检验(F F F 检验) :检验如 H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H 0 : β 1 = β 2 = ⋯ = β k = 0 (整体显著性检验)或更一般的线性约束 H 0 : R β = r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} H 0 : R β = r ,其中 R \mathbf{R} R 为 q × ( k + 1 ) q \times (k+1) q × ( k + 1 ) 约束矩阵。检验统计量服从 F q , n − k − 1 F_{q, n-k-1} F q , n − k − 1 分布。置信区间 :系数 β j \beta_j β j 的 100 ( 1 − α ) % 100(1-\alpha)\% 100 ( 1 − α ) % 置信区间为 β ^ j ± t n − k − 1 , α / 2 ⋅ se ( β ^ j ) \hat{\beta}_j \pm t_{n-k-1, \alpha/2} \cdot \text{se}(\hat{\beta}_j) β ^ j ± t n − k − 1 , α /2 ⋅ se ( β ^ j ) 。
在大样本下,即使正态性不成立,t t t 统计量渐近服从标准正态分布,F F F 统计量的 q q q 倍渐近服从 χ q 2 \chi^2_q χ q 2 分布,因此渐近推断仍可进行。
假设违背与扩展方向
经典线性模型的优雅结论建立在其严格假设之上,而实际经济数据几乎总会违背其中某几项。现代计量经济学的大量发展正是围绕对这些假设的系统性放松:
异方差 :违背同方差假设时,OLS仍无偏且一致,但不再有效,且标准误的常用估计公式是有偏的。解决方案包括使用异方差稳健标准误 (Huber-White sandwich estimator)或加权最小二乘法 。自相关 :在时间序列中常见,违背无自相关假设。OLS仍无偏但无效,标准误有偏。Newey-West标准误 提供了异方差-自相关一致的方差估计。内生性 :当 E [ x i ε i ] ≠ 0 \mathbb{E}[x_i \varepsilon_i] \neq 0 E [ x i ε i ] = 0 时——可能来源于遗漏变量、测量误差、联立性或自选择——OLS既是有偏的也是不一致的。这是实证研究中最为严重的设定问题,通常借助工具变量法 (IV) 、双重差分法 (DiD) 、断点回归设计 (RDD) 或随机对照试验 (RCT) 来应对。多重共线性 :虽不违背任何经典假设,但高度共线性会严重膨胀系数估计的方差,使个体系数的统计显著性难以识别。诊断工具包括VIF和条件数。
在经济学研究中的地位
经典线性模型远非一个过时的入门模型。它在实证研究中依然是最常被调用的基准框架——绝大多数应用计量研究的第一张回归表都是OLS估计结果。它的价值在于:作为最透明的线性基准,它为研究者提供了一个清晰的诊断起点。每当研究者转向更复杂的方法(IV、面板固定效应、非线性模型等)时,OLS的结果通常作为参照系呈现,以揭示数据中不同维度的变异如何影响结论。深刻理解经典线性模型的假设、性质及其在违背时的行为,是一个合格的应用经济学家不可或缺的基本功。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。