ARTICLE
线性回归分析
线性回归分析 (Linear Regression Analysis) 线性回归分析是计量经济学和统计学中最核心的数据分析范式,指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构,线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统
线性回归分析 (Linear Regression Analysis)
线性回归分析是计量经济学和统计学中最核心的数据分析范式,指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构,线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统计推断为手段的循环迭代过程,其分析质量直接决定了实证结论的可靠性与可复现性。
分析流程总览
一次完整的线性回归分析通常遵循以下六个阶段:
- 模型设定(Specification):依据经济理论或研究目的,确定因变量与自变量,选择函数形式(线性、对数线性、双对数等),并判断是否需要加入交互项、平方项或控制变量。设定阶段的根本挑战在于在"遗漏变量偏误"与"过度控制"之间取得平衡。
- 数据准备(Data Preparation):检查缺失值、识别异常值(Outlier)、处理多重共线性预警变量,并对偏态变量做必要的对数变换或标准化处理。此阶段常被低估,但数据质量问题可能导致后续所有推断失效。
- 参数估计(Estimation):在经典线性回归模型 (CLRM)假设下,采用普通最小二乘法(OLS)获得回归系数,计算标准误、t 值和p-值。若存在异方差性或自相关,则使用异方差稳健标准误(Huber-White)或广义最小二乘法(GLS)进行修正。
- 模型诊断(Diagnostics):对残差进行系统检查,包括正态性检验(Q-Q 图、Jarque-Bera 检验)、异方差检验(Breusch-Pagan 检验、White 检验)、自相关检验(Durbin-Watson 统计量、Breusch-Godfrey 检验)以及模型设定错误检验(RESET检验)。诊断是区分"机械回归"与"严谨分析"的关键环节。
- 稳健性检验(Robustness Checks):通过更换变量度量方式、调整样本区间、增减控制变量、替换估计方法等操作,确认核心结论对不同模型设定的敏感程度。稳健的结论应在多种合理设定下方向与显著性保持一致。
- 结果解释(Interpretation):以回归系数估计值为基础,结合经济学含义进行定量解读——不仅是统计显著性的机械汇报,更要评估经济显著性(effect size),即回归系数所代表的效应在实际经济意义上是否足够大。
模型设定:函数形式的选择
模型设定是分析流程中最需要经济理论支撑的环节。最常见的函数形式及其适用场景如下:
- 线性-线性(Level-Level):, 表示 每增加一个单位时 的绝对变化。适用于两变量近似线性关系的场景。
- 对数-线性(Log-Level):, 近似表示 每增加一个单位时 的百分比变化(精确值为 )。在增长率分析中极为常用。
- 线性-对数(Level-Log):, 表示 每增加 时 的绝对变化量。
- 双对数(Log-Log):, 直接解释为 对 的弹性,在需求分析和生产函数估计中广泛应用。
函数形式误设的后果严重:它使 OLS 估计量丧失一致性,且判定系数 在不同函数形式之间不可直接比较。实践中常用 Box-Cox 变换或对残差图做视觉检查来辅助选择。
残差诊断:识别假设违背
残差分析是线性回归分析中最核心的诊断工具,其出发点是:若模型设定正确且经典假设成立,残差应表现为无系统模式的随机噪声。以下是三种关键诊断方法:
异方差性诊断。 在同方差假设下,残差的离散程度不应随拟合值 而变化。绘制残差-拟合值散点图是最直观的方法:若散点呈扇形展开或出现系统性的宽窄交替,则暗示存在异方差。正式的 Breusch-Pagan 检验以残差平方对所有自变量做辅助回归: 在原假设(同方差)下渐近服从 分布。White 检验则进一步加入自变量的平方项和交叉项,能捕捉更一般的异方差形式。
正态性诊断。 虽然在大样本下 OLS 的渐近正态性使此项诊断的紧迫性降低,但在小样本中误差非正态会扭曲 t 检验和 F 检验的精确性。Q-Q 图将残差分位数与理论正态分位数对比,偏离直线即暗示非正态。Jarque-Bera 检验联合利用残差的偏度和峰度构建统计量 ,在原假设(正态)下服从 分布。
影响点识别。 并非所有观测点对回归结果的影响力相等。Cook 距离衡量删除某一观测后全部拟合值的变化幅度:,其中 为删除第 个观测后的拟合值, 为参数个数。经验规则将 视为高影响力点,需重点复核。杠杆值(Leverage)则度量观测在自变量空间中的极端程度。
稳健标准误与推断修正
当诊断发现异方差或自相关时,标准的 OLS 标准误不再有效——参数估计虽仍无偏一致,但假设检验会因标准误失真而导致错误的显著性或置信区间。此时需要修正推断而非更换估计量。
Huber-White 异方差稳健标准误(也称 sandwich estimator)是最通用的解决方案:
其中 为 OLS 残差。该估计量对任意形式的异方差均一致,代价是有限样本下可能低估方差。对于时间序列数据中的自相关,Newey-West 标准误在 White 估计量的基础上加入了滞后截断,同时修正异方差和自相关,截断参数通常取 。在使用聚类数据(如面板数据中个体内部相关)时,聚类稳健标准误允许同一簇内任意形式的相关结构,是当前微观实证研究的标准做法。
分析结果的报告规范
完整的线性回归分析报告应至少包含以下要素:系数估计值及标准误(以括号或方括号标注)、显著性星号或精确 p 值、样本容量、 或调整后 、以及是否使用了稳健标准误的明确说明。典型的回归结果表格如下:
在上述标准报告框架下,回归分析的核心产出不只在于哪一个变量的系数"显著",更在于从模型(1)到模型(2)系数的变化方向是否与理论一致、 的增量是否意味着控制变量的确有解释力、以及核心变量的系数在多种设定下是否保持稳健。只有完成从设定到诊断、从估计到解释的完整循环,线性回归分析才能从一项计算练习升格为有说服力的实证研究。