ARTICLE
多元线性回归 (MLR)
多元线性回归(MLR):核心模型与方法 多元线性回归(Multiple Linear Regression, MLR)是计量经济学和统计学中最基本、应用最广泛的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性关系,是一元线性回归的自然推广。其一般形式为: 其中 Y_i 是因变量,X_ji 是第 j 个自变量在第 i 次
多元线性回归(MLR):核心模型与方法
多元线性回归(Multiple Linear Regression, MLR)是计量经济学和统计学中最基本、应用最广泛的建模工具之一。它研究一个因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的线性关系,是一元线性回归的自然推广。其一般形式为:
其中 是因变量, 是第 个自变量在第 次观测中的取值, 是待估的回归系数, 是随机误差项, 是样本容量, 是自变量个数。截距项 表示当所有自变量为零时 的期望值,而斜率系数 衡量在其他变量不变条件下 对 的边际影响。
矩阵表示与OLS估计
多元线性回归模型可以简洁地表示为矩阵形式:
其中 为 因变量向量, 为 设计矩阵(第一列全为1对应截距项), 为 参数向量, 为 误差向量。
普通最小二乘法(OLS)通过最小化残差平方和来估计参数:
该解的存在性依赖于 满列秩,即不存在完全多重共线性。OLS 估计量 具有清晰的数值含义:在其他自变量保持不变的情况下, 每增加一单位, 平均变化 个单位。这一 "其他条件不变"(ceteris paribus)的解释正是多元回归区别于一元回归的核心优势——它允许研究者在控制混杂因素后识别单个变量的偏效应。
例如,在工资方程 中, 衡量的是在工作经验相同的情况下,多接受一年教育所带来的工资百分比变化。这种"控制其他变量"的能力使得多元回归成为因果推断的基本工具。
高斯-马尔可夫定理与经典假设
多元线性回归的理论基础是高斯-马尔可夫定理(Gauss-Markov Theorem)。该定理指出,在以下经典假设下,OLS 估计量是所有线性无偏估计量中方差最小的,即BLUE(最佳线性无偏估计量):
- 参数线性(Linearity in Parameters):模型是参数的线性函数,即 。自变量本身可以是非线性的(如 或 ),但参数必须线性进入模型。
- 随机抽样(Random Sampling):样本 来自总体随机抽样,保证样本独立同分布。
- 不存在完全多重共线性(No Perfect Collinearity): 满列秩,即 可逆。这意味着没有一个自变量是其他自变量的线性组合。
- 零条件均值(Zero Conditional Mean):,即误差项与所有自变量不相关。这是保证无偏性的最关键假设。违反该假设将导致内生性问题。
- 同方差性(Homoskedasticity):,即误差项具有常数的方差。若违反则出现异方差性。
- 无自相关(No Autocorrelation):,即不同观测的误差项互不相关。
若前四条成立,OLS 是无偏的;若前六条全部成立,OLS 是BLUE。需要注意的是,高斯-马尔可夫定理不要求误差项服从正态分布——正态性仅在小样本下进行精确推断(t检验和F检验的精确分布)时才需要。在大样本下,依靠中心极限定理即可进行渐近有效的推断。
拟合优度与模型评价
多元回归中常用的拟合优度指标包括:
- (决定系数):衡量模型对因变量总变异的解释比例,定义为 ,其中 SSR 为残差平方和,SST 为总离差平方和。 越接近1,表示模型拟合越好。然而,在多元回归中,增加自变量总会使 提高(或至少不降),这可能导致过拟合——即模型虽然在样本内拟合良好,但在样本外预测能力差。
- 调整 (Adjusted ):对自变量个数进行惩罚,计算公式为 。调整 可以随自变量的增加而下降,因此更适合用于模型选择。
- F 检验:检验模型整体显著性,原假设为 ,即所有斜率系数同时为零。F 统计量为: \[ F = \frac{(\text{SST} - \text{SSR})/k}{\text{SSR}/(n-k-1)} \sim F_{k, n-k-1} \]
- 各系数的 t 检验:检验单个系数是否显著异于零,。可构造置信区间 。
模型诊断与常见问题
多元线性回归在实际应用中面临多重挑战,需要系统的诊断方法:
- 多重共线性(Multicollinearity):当自变量之间存在高度相关关系时,估计量的方差增大,系数估计变得不稳定且对数据微小变化极为敏感。症状包括:个别变量不显著但整体 F 检验显著、标准误较大、系数符号与经济直觉不符。诊断方法包括计算方差膨胀因子(VIF),,其中 是第 个自变量对其他自变量回归的决定系数。通常认为 指示严重的共线性。处理办法包括剔除冗余变量、增加样本量或使用正则化方法。
- 异方差性(Heteroskedasticity):误差项方差不恒定,常见于横截面数据(例如收入数据的方差随收入水平增加而扩大)。异方差性下 OLS 估计量仍是无偏和一致的,但不再是 BLUE,且标准误有偏导致推断失效。常用检验包括Breusch-Pagan检验(假设异方差为线性形式)和White检验(更一般形式),修正方法包括使用Huber-White稳健标准误(也称为异方差稳健标准误)。
- 自相关(Autocorrelation / Serial Correlation):误差项跨期相关,常见于时间序列数据。Durbin-Watson检验是常用诊断工具,其统计量 , 表示无自相关。处理办法包括使用Newey-West标准误或广义最小二乘法(GLS)。
- 内生性(Endogeneity):当 时,OLS 不仅不是 BLUE,甚至不一致。内生性三大来源为:遗漏变量偏误(如遗漏能力变量导致教育系数的估计有偏)、测量误差(变量观测值与真实值存在偏差)、互为因果(如 GDP 与教育支出相互影响)。解决方法包括工具变量法(IV)、两阶段最小二乘法(2SLS)或面板数据模型。
- 模型设定错误(Specification Error):如遗漏非线性项( 或交互项 )、使用了错误的函数形式(如应使用对数形式却用了线性形式),或遗漏重要解释变量。RESET检验(Regression Specification Error Test)是常用的设定检验。
扩展与进阶方向
多元线性回归是更复杂模型的基础框架,其思想延伸至计量的各个分支:
- 在面板数据(Panel Data)中扩展为固定效应模型(FE)和随机效应模型(RE),通过个体维度控制不可观测的异质性。
- 当因变量为二元离散变量时,推广为Logit模型或Probit模型,使用最大似然估计替代 OLS。
- 应用Frisch-Waugh-Lovell定理(FWL 定理)将多元回归分解为"剔除其他变量影响后"的偏回归,为理解部分相关系数提供深刻几何直观。
- 当自变量个数 接近于甚至超过样本容量 时,传统 OLS 失效,发展出Lasso回归(L1惩罚)、岭回归(Ridge, L2惩罚)和弹性网络等正则化方法。
- 对于因变量受限的情形,发展出Tobit模型、截断回归和样本选择模型(Heckman两步法)。
- 当处理时间序列数据时,延伸为自回归分布滞后模型(ADL)、误差修正模型(ECM)等动态模型。
总之,多元线性回归不仅是实证分析的标准起点,也是理解几乎所有高级计量方法的基础框架。掌握 MLR 的含义、经典假设、诊断方法与扩展方向,是进入现代计量经济学和经验研究的必要门槛。无论是做因果识别、预测建模还是政策评估,MLR 提供的思维框架——控制变量、偏效应、假设检验——始终贯穿其中。