简单线性回归 (Simple Linear Regression)
简单线性回归(SLR)是统计学和计量经济学中最基础的回归分析技术,通过直线模型研究两个连续变量的关系。
模型方程
总体回归函数(PRF):E(Y∣X)=β0+β1X(给定X时Y的期望值)。实际观测模型:Y=β0+β1X+ε。β0为截距(X=0时Y的期望);β1为斜率(X每增1单位Y期望的平均变化量,符号示关系方向,大小示强度);ε为误差项(除X外所有影响Y的因素总和)。
样本回归函数(SRF):Y^=β^0+β^1X。OLS估计量:
β^1=∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ)=Var(X)Cov(X,Y),β^0=Yˉ−β^1Xˉ
OLS回归线必经过样本均值点(Xˉ,Yˉ)。
经典线性回归假定和高斯-马尔可夫定理
假定:参数线性;随机抽样;自变量有变异;误差项零条件均值(E(ε∣X)=0,无偏性关键);同方差性;无序列相关;误差项正态性(假设检验所需)。满足前5条→高斯-马尔可夫定理:OLS为最佳线性无偏估计量(BLUE)——所有线性无偏估计量中方差最小。
拟合优度与统计推断
决定系数 R2=ESS/TSS=1−RSS/TSS∈[0,1],衡量X解释Y变异的比例。简单线性回归下R2=r2(r为相关系数)。
对斜率检验:H0:β1=0 vs H1:β1=0。t统计量:t=β^1/se(β^1)(se为标准误)。若p-value < 显著性水平 α,拒绝H0。也可构建β1的置信区间。
重要提醒
相关不等于因果(可能由遗漏变量驱动或反向因果);外推风险(模型仅在观测范围内有效);异常值可扭曲OLS回归线,需预处理。