一元线性回归模型 (Simple Linear Regression Model)
一元线性回归模型是回归分析中最基础且核心的统计模型,用于研究两个变量之间的线性依存关系。该模型通过建立单个自变量(解释变量)与因变量(被解释变量)之间的线性关系,实现对经济、金融、社会科学等领域中变量间因果关系的量化分析。作为计量经济学和统计学的入门模型,一元线性回归不仅为理解更复杂的多元回归奠定基础,其本身也构成了假设检验、区间估计和预测分析的重要实践场景。
模型的基本形式与术语
一元线性回归模型的总体回归函数(Population Regression Function, PRF)可表述为:
Yi=β0+β1Xi+ui(i=1,2,…,n)
其中,Yi为第i个观测单位的因变量(如消费支出、股票价格);Xi为自变量(如收入水平、市场指数);β0为截距项,表示当自变量取值为零时因变量的期望水平;β1为斜率系数,衡量自变量每变动一个单位时因变量的平均变动量,即边际效应;ui为误差项,代表所有未纳入模型的其他因素对Yi的综合影响;n为样本容量。
需要区分总体回归模型与样本回归模型。前者基于总体数据的理论关系,参数β0和β1是未知的固定常数;后者基于样本数据的估计关系,记为:
Y^i=β^0+β^1Xi
其中β^0和β^1分别为β0和β1的点估计,Y^i为因变量的拟合值或预测值。实际观测值Yi与拟合值Y^i的差值称为残差,记为u^i=Yi−Y^i,它是对不可观测的误差项ui的样本估计。
经典线性回归假设
为保证普通最小二乘法(OLS)估计量具有良好的统计性质,必须满足以下高斯-马尔可夫假设:
假设1:线性于参数。模型在参数上是线性的,即Yi=β0+β1Xi+ui。这意味着我们可以将模型写成参数的线性组合形式,尽管变量本身可以是非线性的。
假设2:随机抽样性。样本{(Xi,Yi)}是从总体中随机抽取的,且服从同一分布,保证样本的代表性和独立性。
假设3:解释变量的变异性。自变量的样本值Xi不是完全相同的常数,即∑i=1n(Xi−Xˉ)2>0。若Xi无变异,则无法识别其对Yi的影响。
假设4:零条件均值。误差项的条件期望为零,即E(ui∣Xi)=0。这是最关键的解释性假设,意味着误差项与解释变量不相关。若此假设失败,将导致内生性问题,使得β^1产生偏误。
假设5:同方差性。给定Xi时,误差项的方差为常数,即Var(ui∣Xi)=σ2。若方差随Xi变化,则出现异方差,虽然不影响OLS估计量的无偏性,但会影响其有效性并导致标准误失效。
假设6:无自相关。对于任意i=j,误差项之间相互独立,即Cov(ui,uj)=0。在时间序列数据中,此假设常被违背,形成自相关或序列相关,同样会影响标准误的有效性。
假设7:正态性(用于小样本推断)。对于小样本情况,通常追加假设ui∣Xi∼N(0,σ2)。在大样本下,根据中心极限定理,无需此假设即可进行近似推断。
参数估计:普通最小二乘法
普通最小二乘法是估计一元线性回归参数最经典的方法。其核心思想是选择参数估计值β^0和β^1,使得残差平方和(RSS)最小化:
RSS=i=1∑nu^i2=i=1∑n(Yi−β^0−β^1Xi)2
通过求解一阶条件,可得OLS估计量的闭式解:
β^1=∑i=1n(Xi−Xˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ),β^0=Yˉ−β^1Xˉ
其中Xˉ和Yˉ分别为自变量和因变量的样本均值。斜率估计量β^1可以解读为X与Y的样本协方差与X的样本方差之比,直观反映了两个变量的协同变异程度。
OLS估计量的统计性质
在满足高斯-马尔可夫假设的前提下,OLS估计量具有以下优良性质:
1. 无偏性。E(β^0)=β0且E(β^1)=β1。这意味着在重复抽样中,估计量的期望等于真实参数值。无偏性依赖于假设4,若存在遗漏变量偏误或测量误差,该性质将不成立。
2. 有效性(最小方差性)。在所有线性于Yi的无偏估计量中,OLS估计量具有最小的方差。这一结论即著名的高斯-马尔可夫定理,它确立了OLS估计的BLUE(Best Linear Unbiased Estimator)地位。
3. 一致性。当样本容量n→∞时,β^1依概率收敛于β1,即plim(β^1)=β1。一致性要求稍弱的假设条件,在实证研究中至关重要。
OLS估计量的方差估计公式为:
Var(β^1)=∑i=1n(Xi−Xˉ)2σ2,Var(β^0)=n∑i=1n(Xi−Xˉ)2σ2∑i=1nXi2
由于总体方差σ2未知,我们用其无偏估计量替代:
σ^2=n−2∑i=1nu^i2
其中除以n−2是因为估计了两个参数而损失了两个自由度。
模型的拟合优度
拟合优度度量样本回归线对观测数据的拟合程度,主要通过判定系数R2来衡量:
R2=TSSESS=1−TSSRSS
其中,TSS=∑i=1n(Yi−Yˉ)2为总平方和,度量Yi的总变异;ESS=∑i=1n(Y^i−Yˉ)2为解释平方和,度量由模型解释的变异;RSS=∑i=1n(Yi−Y^i)2为残差平方和,度量未被解释的变异。R2的取值范围为[0,1],越接近1表示拟合效果越好。在一元线性回归中,R2恰好等于自变量与因变量样本相关系数的平方,即R2=rXY2。
假设检验与统计推断
回归分析的核心目标不仅是估计参数,还需检验其统计显著性。
1. t检验。用于检验单个回归系数的显著性。原假设H0:β1=0表示自变量对因变量无影响。检验统计量为:
t=SE(β^1)β^1−β1∼tn−2
其中SE(β^1)=Var(β^1)是估计量的标准误。当∣t∣>tα/2,n−2时,拒绝原假设,认为自变量影响显著。
2. 置信区间。β1的100(1−α)%置信区间为:
β^1±tα/2,n−2×SE(β^1)
该区间提供了参数真实值可能的范围,比单纯报告点估计更有信息量。
3. 显著性水平与p值。p值是当原假设为真时,观察到当前或更极端检验统计量的概率。p值小于显著性水平(如0.05)时拒绝原假设,提供了判断显著性的连续尺度。
预测
回归模型的重要应用是预测。对于给定的自变量值X0,我们对因变量的预测分为两类:
1. 点预测。E(Y∣X0)的预测值为Y^0=β^0+β^1X0。
2. 区间预测。由于存在抽样误差和随机扰动,需构建预测区间。Y0的100(1−α)%预测区间为:
Y^0±tα/2,n−2×SEpred
其中SEpred包含参数估计误差和误差项方差两部分不确定性。预测区间比置信区间更宽,反映了预测未来单个值固有的更大不确定性。
模型诊断与常见问题
即使OLS估计具有理论最优性,仍需进行模型诊断:
1. 异方差检验。可通过Breusch-Pagan检验或White检验检验异方差性。若存在异方差,应使用稳健标准误进行修正。
2. 正态性检验。通过残差的直方图或Jarque-Bera检验验证误差项正态性假设。小样本下正态性假设对t检验的有效性至关重要。
3. 异常值影响。杠杆值和库克距离可用于识别对回归结果影响过大的异常观测点。
4. 函数形式误设。通过引入Xi2或交互项检验线性假设是否成立,或使用RESET检验(Regression Specification Error Test)。
应用示例与实证规范
在实证研究中,报告一元回归结果应遵循规范格式。例如研究教育回报率,估计方程为:
ln(wage)=β0+β1×education+u
结果报告应包含:系数估计值、括号内的标准误、R2、样本容量,以及显著性标记。例如:教育年限的系数为0.083∗∗∗(0.012),R2=0.185,n=1200。其中三个星号表示在1\%水平上显著。这种标准化报告使读者能快速评估结果的稳健性与经济显著性。
模型的局限与扩展
一元线性回归的简洁性既是优点也是局限:
一、单一解释变量限制。现实经济现象通常受多因素影响,忽略重要变量会导致遗漏变量偏误,违背零条件均值假设。
二、线性关系假设。强制设定线性关系可能误设真实的非线性关系,导致模型设定偏误。
三、因果识别困难。观测数据回归仅揭示相关性,要推断因果关系需借助工具变量、双重差分等因果推断方法。
因此,一元模型常作为基准模型,后续应逐步扩展至多元线性回归,引入更多控制变量、固定效应和非线性项,以提高估计的准确性和因果解释力。理解一元线性回归的每个细节,是掌握现代实证经济学方法论的必经之路。