多元线性回归 (MLR)
多元线性回归研究一因变量与多个自变量线性关系(简单线性回归扩展)。核心目标:预测因变量、量化每个自变量独立贡献(ceteris paribus)。
模型与估计
总体模型:Y=β0+β1X1+⋯+βkXk+ϵ。样本回归函数:Y^=β^0+β^1X1+⋯+β^kXk。
OLS估计:最小化残差平方和SSR = ∑(Yi−Y^i)2。矩阵形式 Y=Xβ+ϵ(X=设计矩阵含截距列1),OLS解:β^=(X′X)−1X′Y,要求 (X′X) 可逆。
高斯-马尔可夫假设
(1) 参数线性;(2) 随机抽样;(3) 零条件均值 E(ϵ∣X)=0(自变量与误差项不相关→外生变量,违反→遗漏变量偏误); (4) 无完全多重共线性(否则(X′X)奇异不可逆→OLS无解);(5) 同方差性 Var(ϵ∣X)=σ2(违反→异方差性);(6) 无自相关(尤其时间序列数据)。1-5满足→高斯-马尔可夫定理:OLS是BLUE。⑦误差项正态性(小样本假设检验所需,大样本中心极限定理可放宽)。
评估与检验
判定系数 R2=1−SSR/TSS(0-1,解释总变异比,但增变量总↑);调整后 R2 Rˉ2=1−(SSR/(n−k−1))/(TSS/(n−1))(惩罚不显著变量→含不同变量数模型间更可靠);回归标准误SER(残差典型大小→越小越精确)。
单系数t检验:H0:βj=0,t=β^j/SE(β^j),t分布临界值/p值→决策。整体F检验:H0:β1=⋯=βk=0,F=(R2/k)/((1−R2)/(n−k−1))。
常见问题
遗漏变量偏误(遗漏与Y且与模型中X相关变量→OLS有偏不一致);多重共线性(Xs高度相关→SE↑→难评估独立影响→诊断用VIF);异方差性/自相关(OLS仍无偏但非有效、SE错误→假检失效→用稳健标准误或广义最小二乘法GLS)。