ARTICLE

经典线性回归模型

经典线性回归模型 (Classical Linear Regression Model) 经典线性回归模型 (Classical Linear Regression Model, CLRM) 是计量经济学和统计学中最基础、最重要的模型之一。它旨在通过一组可观测的自变量(或解释变量)来建模并解释一个因变量(或被解释变量)的期望值。该模型的核心在于其一系列严格的

浏览 38 更新 2025-10-26

经典线性回归模型 (Classical Linear Regression Model)

经典线性回归模型 (Classical Linear Regression Model, CLRM)计量经济学统计学中最基础、最重要的模型之一。它旨在通过一组可观测的自变量(或解释变量)来建模并解释一个因变量(或被解释变量)的期望值。该模型的核心在于其一系列严格的假设,这些假设合称为 高斯-马尔可夫假设 (Gauss-Markov Assumptions)。当这些假设成立时,通过普通最小二乘法 (Ordinary Least Squares, OLS) 得到的参数估计量具有优良的统计性质。CLRM不仅是计量经济学理论体系的基石,也是社会科学、医学、金融等领域实证研究的常用工具。

模型设定

一个典型的多元经典线性回归模型可以表示为如下的总体回归函数 (Population Regression Function, PRF):

Yi=β0+β1X1i+β2X2i++βkXki+uiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + u_i

其中,Yi Y_i 是第 i i 个观测值的 因变量X1i,,Xki X_{1i}, \dots, X_{ki} k k 自变量β0 \beta_0 截距项β1,,βk \beta_1, \dots, \beta_k 斜率系数ui u_i 误差项(也称为随机扰动项)。误差项代表了所有未被模型中的自变量所解释的因素,包括测量误差、模型设定偏误以及纯粹的随机性。每个斜率系数 βj \beta_j 度量了在其他自变量保持不变的情况下,Xj X_j 每增加一个单位时 Y Y 的期望值的变化量,这被称为边际效应。在实际应用中,研究者通常使用样本数据来估计这些未知参数,得到样本回归函数。将总体回归函数与样本回归函数区分开来是理解计量经济推断的关键一步。

经典假设(高斯-马尔可夫假设)

CLRM的有效性建立在一系列严格的假设之上。前五个假设构成了高斯-马尔可夫定理的核心,保证了OLS估计量的"BLUE"性质。

假设1:参数线性 模型必须是关于参数 β0,,βk \beta_0, \dots, \beta_k 的线性函数。这意味着参数本身不能是指数或对数等形式,但变量本身可以是 X2 X^2 logX \log X 等非线性变换。例如,Y=β0+β1X2+β2logZ+u Y = \beta_0 + \beta_1 X^2 + \beta_2 \log Z + u 仍然是参数线性的,而 Y=β0+Xβ1+u Y = \beta_0 + X^{\beta_1} + u 则不是。

假设2:随机抽样 样本是从总体中随机抽取的。这保证了每个观测值的误差项 ui u_i 与其他观测值的误差项 uj u_j ij i \neq j )相互独立,从而使样本具有代表性。如果样本不是随机抽取的,则可能存在选择偏误。

假设3:不存在完全共线性 任何一个自变量都不能被其他自变量的线性组合完美表示。若存在完全共线性,则设计矩阵 X X 秩亏,导致 (XX) (X'X) 不可逆,无法求得唯一的OLS估计量。变量间的高度(但不完全)线性关系称为多重共线性,虽不违反该假设,但会增大估计量的标准误,降低估计精度。

假设4:零条件均值 给定任意自变量的值,误差项的期望值为零,即 E(uiX1i,,Xki)=0 E(u_i | X_{1i}, \dots, X_{ki}) = 0 。这是CLRM中最关键的假设。它意味着自变量与所有影响因变量但未被纳入模型的因素不相关,即自变量是外生的。若违反此假设导致内生性问题,则OLS估计量会产生偏误且不一致。内生性的常见来源包括遗漏变量偏误、测量误差和反向因果关系。

假设5:同方差性 给定任意自变量的值,误差项的方差恒定,即 Var(uiX)=σ2 \text{Var}(u_i | X) = \sigma^2 。若误差方差随自变量变化而系统性改变,则存在异方差性。例如,在消费函数中,高收入群体的消费差异可能远大于低收入群体,此时以收入解释消费的模型就可能存在异方差。异方差不会导致OLS估计量有偏,但会使其失去最小方差性,且常规标准误的计算方法有误,导致t检验和F检验失效。

假设6:无自相关 对于任意不同观测值 i i j j ,其误差项不相关,即 Cov(ui,ujXi,Xj)=0 \text{Cov}(u_i, u_j | X_i, X_j) = 0 。在处理时间序列数据时尤为关键——一个时期的冲击(如经济衰退)可能持续影响未来多个时期。存在自相关时,OLS估计量虽仍无偏,但不再具有最小方差性。

假设7:误差项正态分布 误差项服从均值为0、方差为 σ2 \sigma^2 的正态分布。此假设并非高斯-马尔可夫定理所必需,但在小样本下是进行精确统计推断(构建置信区间假设检验)的前提。大样本下,根据中心极限定理,该假设可以放宽。

OLS估计量及其性质

当假设1至假设5成立时,高斯-马尔可夫定理表明,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。"最佳"意味着在所有线性无偏估计量中,OLS估计量具有最小的方差,因而估计最为精确;"线性"指估计量是因变量的线性函数;"无偏"指估计量的期望值等于真实的总体参数,即 E(β^j)=βj E(\hat{\beta}_j) = \beta_j ,这一性质主要依赖零条件均值假设。OLS估计量的方差由误差方差 σ2 \sigma^2 和自变量的变异程度共同决定。

模型拟合优度的评价

评价回归模型拟合优度的常用统计量是决定系数 R2 R^2 ,其定义为回归平方和与总平方和之比,衡量自变量对因变量变异的解释比例。R2 R^2 的取值范围在0到1之间,值越大表明模型拟合越好。但在多元回归中,增加自变量总会提高 R2 R^2 ,因此常使用调整的 R2 R^2 (Adjusted R2 R^2 )进行修正,它对额外变量的加入施加了惩罚。此外,AICBIC 等信息准则也可用于模型选择。

统计推断

在CLRM框架下,常用的统计推断方法包括对单个系数的t检验和对模型整体显著性的F检验。t检验用于检验某个系数 βj \beta_j 是否显著不为零,其统计量服从自由度为 nk1 n-k-1 的t分布。F检验用于检验所有斜率系数是否同时为零,其统计量服从 F(k,nk1) F(k, n-k-1) 分布。在构造置信区间时,利用估计量及其标准误,可以在给定置信水平下得到参数的区间估计。当所有七个假设成立时,OLS估计量的抽样分布是精确的正态分布,使得基于t分布和F分布的推断在任何样本量下都有效。