ARTICLE
线性模型
线性模型 (Linear Model) 线性模型是统计学和计量经济学中最基本、应用最广泛的建模框架。其核心假设是因变量 (Dependent Variable) 的期望值为一个或多个自变量 (Independent Variables) 的线性组合。线性模型以简洁的数学形式、清晰的经济学解释和优良的理论性质,成为所有实证研究者必须掌握的基础工具,也是理解更复
线性模型 (Linear Model)
线性模型是统计学和计量经济学中最基本、应用最广泛的建模框架。其核心假设是因变量 (Dependent Variable) 的期望值为一个或多个自变量 (Independent Variables) 的线性组合。线性模型以简洁的数学形式、清晰的经济学解释和优良的理论性质,成为所有实证研究者必须掌握的基础工具,也是理解更复杂模型不可或缺的出发点。
关键澄清:"线性"指模型关于参数 线性,而非一定关于自变量 线性。因此 和 均属线性模型——只要参数以加法形式进入方程、系数为常数即可。这一性质极大扩展了线性模型的适用范围,因为通过对变量做对数、平方项或交互项等变换,可以在线性框架内刻画丰富的非线性关系。
数学表述
线性模型的标准矩阵形式为:
各组成部分如下: 为 因变量观测向量(亦称响应变量、被解释变量); 为 设计矩阵,首列恒为1以对应截距项 ,其余 列对应各自变量; 为待估参数向量,是推断的核心对象; 为 误差项向量,汇总所有未进入模型的遗漏因素、测量误差与纯粹的随机扰动。
对单个观测 :
当 时退化为简单线性回归——仅用一个自变量解释因变量,可通过散点图和回归直线直观呈现; 时为多元线性回归,是实证研究的标准配置,能够在"控制"其他变量不变的条件下分离出某一自变量的偏效应。
高斯-马尔可夫假定与BLUE性质
为使普通最小二乘法 (OLS) 得出的估计量具备优良统计性质,经典线性模型依赖以下高斯-马尔可夫假定:
- 参数线性:模型关于 线性,此为框架定义本身。
- 随机抽样: 从总体中独立随机抽取,保证样本代表性。
- 无完全共线性:自变量间不存在精确线性关系。若存在完全共线性,则 不可逆,无法求得唯一的 。实际研究中,虚拟变量陷阱(如同时放入男性和女性哑变量)是常见的共线性来源。
- 零条件均值:。这是识别因果效应的最关键假定——它要求误差项中所有未观测因素在给定自变量的条件下均值为零,等价于误差与自变量不相关。一旦违反(如因遗漏变量偏误或反向因果产生内生性),OLS估计量将不再一致,这是应用计量经济学面临的核心挑战。
- 同方差性: 为常数,意味着误差的离散程度不随自变量变化。若方差随 系统变化,则出现异方差性——此时OLS仍无偏且一致,但标准误有偏,导致t检验和F检验失效。实践中常使用异方差稳健标准误(Huber-White)加以应对。
在这五个假定下,高斯-马尔可夫定理断言:OLS估计量是最佳线性无偏估计量 (BLUE)——在所有关于 线性且无偏的估计量中,OLS具有最小方差。这一定理奠定了OLS在经典计量理论中的核心地位。
若进一步增列正态性假定 ,则OLS估计量本身就是最大似然估计 (MLE),且在小样本下 精确服从正态分布,为t检验和F检验提供严格依据。大样本下,中心极限定理使正态近似自动成立,此假定可放宽。
OLS估计与模型评估
OLS通过最小化残差平方和 (SSR) 求解参数:
其中残差 为观测值与拟合值之差。一阶条件给出正规方程 ,解得:
此即OLS估计量的闭式解,其计算仅依赖数据的矩 和 ,在样本量不大时极为便捷。
模型评估围绕三个维度展开:
- 拟合优度:决定系数 衡量模型解释的变异比例,取值 。 越接近1,模型拟合越好。但 随自变量增加而单调不减,因此引入调整 以惩罚不必要的变量。
- 系数解释与显著性: 的经济学含义是"在其他变量不变的条件下, 每增加一个单位, 平均变动 个单位"。这一"其他条件不变" (ceteris paribus) 的解释是回归分析区别于简单相关的关键。对每个系数进行t检验 ,若p值小于显著性水平(通常0.05),则拒绝原假设、认为该变量在统计上显著。
- 整体显著性:F检验联合检验 ,即除截距外所有系数为零。若F统计量显著,说明模型整体具有解释力,但这不保证每个自变量都显著。
扩展与应用
线性模型是经济学实证研究的工作语言,典型应用场景包括:增长回归(GDP增长率对投资率、人力资本等回归)、劳动经济学(明瑟方程估计教育回报率)、金融学(资本资产定价模型 CAPM中资产超额收益对市场超额收益回归)、以及政策评估的双重差分法 (DID) 等。
当经典假定不满足时,线性模型可向以下方向拓展:
- 广义线性模型 (GLM):通过连接函数将线性预测变量映射到非连续因变量。二分变量的逻辑回归 (Logit/Probit)、计数数据的泊松回归均为GLM特例。
- 时间序列分析:处理序列相关数据,需考虑平稳性、单位根与协整,常用自回归分布滞后模型 (ARDL)。
- 面板数据模型:融合截面与时间两个维度,通过固定效应或随机效应设定控制不可观测的个体异质性,是当代应用微观计量的标准范式。
- 工具变量法 (IV/2SLS):当零条件均值假定因内生性而失效时,利用与内生变量相关、与误差项不相关的工具变量恢复参数的一致估计。
线性模型的力量恰在于它提供了一个透明、可解释且易于诊断的基准——在面对复杂现实之前,先理解线性世界,是每一位实证研究者的必要训练。