ARTICLE

线性回归分析

线性回归分析 (Linear Regression Analysis) 线性回归分析是计量经济学和统计学中最核心的数据分析范式,指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构,线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统

浏览 4 更新 2025-10-26

线性回归分析 (Linear Regression Analysis)

线性回归分析计量经济学统计学中最核心的数据分析范式,指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构,线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统计推断为手段的循环迭代过程,其分析质量直接决定了实证结论的可靠性与可复现性。

分析流程总览

一次完整的线性回归分析通常遵循以下六个阶段:

  1. 模型设定(Specification):依据经济理论或研究目的,确定因变量与自变量,选择函数形式(线性、对数线性、双对数等),并判断是否需要加入交互项、平方项或控制变量。设定阶段的根本挑战在于在"遗漏变量偏误"与"过度控制"之间取得平衡。
  2. 数据准备(Data Preparation):检查缺失值、识别异常值(Outlier)、处理多重共线性预警变量,并对偏态变量做必要的对数变换或标准化处理。此阶段常被低估,但数据质量问题可能导致后续所有推断失效。
  3. 参数估计(Estimation):在经典线性回归模型 (CLRM)假设下,采用普通最小二乘法(OLS)获得回归系数,计算标准误、t 值和p-值。若存在异方差性自相关,则使用异方差稳健标准误(Huber-White)或广义最小二乘法(GLS)进行修正。
  4. 模型诊断(Diagnostics):对残差进行系统检查,包括正态性检验(Q-Q 图、Jarque-Bera 检验)、异方差检验(Breusch-Pagan 检验、White 检验)、自相关检验(Durbin-Watson 统计量、Breusch-Godfrey 检验)以及模型设定错误检验(RESET检验)。诊断是区分"机械回归"与"严谨分析"的关键环节。
  5. 稳健性检验(Robustness Checks):通过更换变量度量方式、调整样本区间、增减控制变量、替换估计方法等操作,确认核心结论对不同模型设定的敏感程度。稳健的结论应在多种合理设定下方向与显著性保持一致。
  6. 结果解释(Interpretation):以回归系数估计值为基础,结合经济学含义进行定量解读——不仅是统计显著性的机械汇报,更要评估经济显著性(effect size),即回归系数所代表的效应在实际经济意义上是否足够大。

模型设定:函数形式的选择

模型设定是分析流程中最需要经济理论支撑的环节。最常见的函数形式及其适用场景如下:

  • 线性-线性(Level-Level):Y=β0+β1X+εY = \beta_0 + \beta_1 X + \varepsilonβ1\beta_1 表示 XX 每增加一个单位时 YY 的绝对变化。适用于两变量近似线性关系的场景。
  • 对数-线性(Log-Level):lnY=β0+β1X+ε\ln Y = \beta_0 + \beta_1 X + \varepsilonβ1\beta_1 近似表示 XX 每增加一个单位时 YY 的百分比变化(精确值为 100×(eβ11)100 \times (e^{\beta_1} - 1)\\%)。在增长率分析中极为常用。
  • 线性-对数(Level-Log):Y=β0+β1lnX+εY = \beta_0 + \beta_1 \ln X + \varepsilonβ1\beta_1 表示 XX 每增加 11\\%YY 的绝对变化量。
  • 双对数(Log-Log):lnY=β0+β1lnX+ε\ln Y = \beta_0 + \beta_1 \ln X + \varepsilonβ1\beta_1 直接解释为 YYXX弹性,在需求分析和生产函数估计中广泛应用。

函数形式误设的后果严重:它使 OLS 估计量丧失一致性,且判定系数 R2R^2 在不同函数形式之间不可直接比较。实践中常用 Box-Cox 变换或对残差图做视觉检查来辅助选择。

残差诊断:识别假设违背

残差分析是线性回归分析中最核心的诊断工具,其出发点是:若模型设定正确且经典假设成立,残差应表现为无系统模式的随机噪声。以下是三种关键诊断方法:

异方差性诊断。 在同方差假设下,残差的离散程度不应随拟合值 y^\hat{y} 而变化。绘制残差-拟合值散点图是最直观的方法:若散点呈扇形展开或出现系统性的宽窄交替,则暗示存在异方差。正式的 Breusch-Pagan 检验以残差平方对所有自变量做辅助回归:N×R2N \times R^2 在原假设(同方差)下渐近服从 χ2\chi^2 分布。White 检验则进一步加入自变量的平方项和交叉项,能捕捉更一般的异方差形式。

正态性诊断。 虽然在大样本下 OLS 的渐近正态性使此项诊断的紧迫性降低,但在小样本中误差非正态会扭曲 t 检验和 F 检验的精确性。Q-Q 图将残差分位数与理论正态分位数对比,偏离直线即暗示非正态。Jarque-Bera 检验联合利用残差的偏度和峰度构建统计量 JB=n6[S2+(K3)24]JB = \frac{n}{6}[S^2 + \frac{(K-3)^2}{4}],在原假设(正态)下服从 χ2(2)\chi^2(2) 分布。

影响点识别。 并非所有观测点对回归结果的影响力相等。Cook 距离衡量删除某一观测后全部拟合值的变化幅度:Di=j=1n(y^jy^j(i))2kMSED_i = \frac{\sum_{j=1}^{n}(\hat{y}_j - \hat{y}_{j(i)})^2}{k \cdot \text{MSE}},其中 y^j(i)\hat{y}_{j(i)} 为删除第 ii 个观测后的拟合值,kk 为参数个数。经验规则将 Di>4/nD_i > 4/n 视为高影响力点,需重点复核。杠杆值(Leverage)则度量观测在自变量空间中的极端程度。

稳健标准误与推断修正

当诊断发现异方差或自相关时,标准的 OLS 标准误不再有效——参数估计虽仍无偏一致,但假设检验会因标准误失真而导致错误的显著性或置信区间。此时需要修正推断而非更换估计量。

Huber-White 异方差稳健标准误(也称 sandwich estimator)是最通用的解决方案:

Var^(β^)=(XX)1(i=1ne^i2xixi)(XX)1\widehat{\operatorname{Var}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left(\sum_{i=1}^{n} \hat{e}_i^2 \mathbf{x}_i \mathbf{x}_i' \right) (\mathbf{X}'\mathbf{X})^{-1}

其中 e^i\hat{e}_i 为 OLS 残差。该估计量对任意形式的异方差均一致,代价是有限样本下可能低估方差。对于时间序列数据中的自相关,Newey-West 标准误在 White 估计量的基础上加入了滞后截断,同时修正异方差和自相关,截断参数通常取 0.75×T1/3\lfloor 0.75 \times T^{1/3} \rfloor。在使用聚类数据(如面板数据中个体内部相关)时,聚类稳健标准误允许同一簇内任意形式的相关结构,是当前微观实证研究的标准做法。

分析结果的报告规范

完整的线性回归分析报告应至少包含以下要素:系数估计值及标准误(以括号或方括号标注)、显著性星号或精确 p 值、样本容量、R2R^2 或调整后 R2R^2、以及是否使用了稳健标准误的明确说明。典型的回归结果表格如下:

因变量:ln(工资)因变量:ln(工资)教育年限0.0820.065(0.008)(0.010)工作经验0.0340.031(0.005)(0.006)性别 (女性=1)0.124(0.032)行业固定效应观测数1,2861,286R20.1740.241\begin{array}{lcc} \hline & \text{因变量:} \ln(\text{工资}) & \text{因变量:} \ln(\text{工资}) \\\\ \text{教育年限} & 0.082^{\ast\ast\ast} & 0.065^{\ast\ast\ast} \\\\ & (0.008) & (0.010) \\\\ \text{工作经验} & 0.034^{\ast\ast\ast} & 0.031^{\ast\ast\ast} \\\\ & (0.005) & (0.006) \\\\ \text{性别 (女性=1)} & & -0.124^{\ast\ast\ast} \\\\ & & (0.032) \\\\ \text{行业固定效应} & \text{否} & \text{是} \\\\ \hline \text{观测数} & 1{,}286 & 1{,}286 \\\\ R^2 & 0.174 & 0.241 \\\\ \hline \end{array}

在上述标准报告框架下,回归分析的核心产出不只在于哪一个变量的系数"显著",更在于从模型(1)到模型(2)系数的变化方向是否与理论一致、R2R^2 的增量是否意味着控制变量的确有解释力、以及核心变量的系数在多种设定下是否保持稳健。只有完成从设定到诊断、从估计到解释的完整循环,线性回归分析才能从一项计算练习升格为有说服力的实证研究。