简单线性回归模型 (Simple Linear Regression Model)
简单线性回归模型是回归分析中最基础的模型形式,用于研究一个因变量(被解释变量)Y 与一个自变量(解释变量)X 之间的线性关系。模型形式为:
Yi=β0+β1Xi+εi,i=1,…,n
其中 β0 为截距项,β1 为斜率参数,εi 为随机误差项,n 为样本容量。该模型是计量经济学和统计学的入门核心,也是更复杂的多元线性回归模型的理论基础。
参数估计:普通最小二乘法
参数 β0 和 β1 的最常用估计方法为普通最小二乘法(OLS)。OLS 最小化残差平方和:
β0,β1mini=1∑n(Yi−β0−β1Xi)2
求解一阶条件得到 OLS 估计量:
β^1=∑i=1n(Xi−Xˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ),β^0=Yˉ−β^1Xˉ
其中 Xˉ 和 Yˉ 分别为样本均值。β^1 表示 X 每变动一个单位时 Y 的平均变动量。
经典假设与高斯-马尔可夫定理
在以下经典假设下,OLS 估计量为BLUE(最佳线性无偏估计量):
- 线性性:模型关于参数是线性的。
- 随机抽样:样本 (Xi,Yi) 独立同分布地来自总体。
- 零条件均值:E(εi∣Xi)=0,即误差项与解释变量不相关。
- 同方差性:Var(εi∣Xi)=σ2 对所有 i 成立。
- 无完全共线性:X 存在样本变异,∑(Xi−Xˉ)2=0。
高斯-马尔可夫定理保证在上述条件下,OLS 估计量在所有线性无偏估计量中具有最小方差。
模型评估
模型的拟合优度由决定系数 R2 衡量:
R2=∑(Yi−Yˉ)2∑(Y^i−Yˉ)2=1−∑(Yi−Yˉ)2∑ε^i2
R2 取值在 0 到 1 之间,越接近 1 说明模型拟合越好。斜率参数的显著性通过t检验进行:H0:β1=0 对 H1:β1=0,检验统计量为 t=β^1/SE(β^1)。若 ∣t∣>tα/2,n−2,则在显著性水平 α 下拒绝原假设,认为 X 对 Y 有显著影响。
应用与局限
简单线性回归广泛用于经济学中的需求分析、金融学中的资产定价以及社会科学中的因果推断初探。其核心局限在于仅能处理单一解释变量,遗漏变量偏差是主要威胁:若真实模型包含多个相关变量而仅使用简单回归,则 β^1 可能是有偏估计量且不一致。当需要控制多个因素时,需推广至多元线性回归模型。尽管如此,简单线性回归模型以其简洁性和可解释性,是统计建模和计量分析的逻辑起点。