ARTICLE

线性回归分析

线性回归分析 (Linear Regression Analysis) 线性回归分析是计量经济学和统计学中最核心的数据分析范式，指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构，线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统

浏览 4 更新 2025-10-26

线性回归分析 (Linear Regression Analysis)

线性回归分析是计量经济学和统计学中最核心的数据分析范式，指从模型设定、参数估计、假设诊断到结果解释的完整统计推断流程。不同于线性回归这一概念侧重于模型本身的数学结构，线性回归分析强调的是如何在实际研究中正确、有效地运用线性回归工具回答实证问题。它是一个以理论假设为起点、以数据为材料、以统计推断为手段的循环迭代过程，其分析质量直接决定了实证结论的可靠性与可复现性。

分析流程总览

一次完整的线性回归分析通常遵循以下六个阶段：

模型设定（Specification）：依据经济理论或研究目的，确定因变量与自变量，选择函数形式（线性、对数线性、双对数等），并判断是否需要加入交互项、平方项或控制变量。设定阶段的根本挑战在于在"遗漏变量偏误"与"过度控制"之间取得平衡。
数据准备（Data Preparation）：检查缺失值、识别异常值（Outlier）、处理多重共线性预警变量，并对偏态变量做必要的对数变换或标准化处理。此阶段常被低估，但数据质量问题可能导致后续所有推断失效。
参数估计（Estimation）：在经典线性回归模型 (CLRM)假设下，采用普通最小二乘法（OLS）获得回归系数，计算标准误、t 值和p-值。若存在异方差性或自相关，则使用异方差稳健标准误（Huber-White）或广义最小二乘法（GLS）进行修正。
模型诊断（Diagnostics）：对残差进行系统检查，包括正态性检验（Q-Q 图、Jarque-Bera 检验）、异方差检验（Breusch-Pagan 检验、White 检验）、自相关检验（Durbin-Watson 统计量、Breusch-Godfrey 检验）以及模型设定错误检验（RESET检验）。诊断是区分"机械回归"与"严谨分析"的关键环节。
稳健性检验（Robustness Checks）：通过更换变量度量方式、调整样本区间、增减控制变量、替换估计方法等操作，确认核心结论对不同模型设定的敏感程度。稳健的结论应在多种合理设定下方向与显著性保持一致。
结果解释（Interpretation）：以回归系数估计值为基础，结合经济学含义进行定量解读——不仅是统计显著性的机械汇报，更要评估经济显著性（effect size），即回归系数所代表的效应在实际经济意义上是否足够大。

模型设定：函数形式的选择

模型设定是分析流程中最需要经济理论支撑的环节。最常见的函数形式及其适用场景如下：

线性-线性（Level-Level）： $Y = \beta_0 + \beta_1 X + \varepsilon$ ， $\beta_1$ 表示 $X$ 每增加一个单位时 $Y$ 的绝对变化。适用于两变量近似线性关系的场景。
对数-线性（Log-Level）： $\ln Y = \beta_0 + \beta_1 X + \varepsilon$ ， $\beta_1$ 近似表示 $X$ 每增加一个单位时 $Y$ 的百分比变化（精确值为 $100 \times (e^{\beta_1} - 1)\\%$ ）。在增长率分析中极为常用。
线性-对数（Level-Log）： $Y = \beta_0 + \beta_1 \ln X + \varepsilon$ ， $\beta_1$ 表示 $X$ 每增加 $1\\%$ 时 $Y$ 的绝对变化量。
双对数（Log-Log）： $\ln Y = \beta_0 + \beta_1 \ln X + \varepsilon$ ， $\beta_1$ 直接解释为 $Y$ 对 $X$ 的弹性，在需求分析和生产函数估计中广泛应用。

函数形式误设的后果严重：它使 OLS 估计量丧失一致性，且判定系数 $R^2$ 在不同函数形式之间不可直接比较。实践中常用 Box-Cox 变换或对残差图做视觉检查来辅助选择。

残差诊断：识别假设违背

残差分析是线性回归分析中最核心的诊断工具，其出发点是：若模型设定正确且经典假设成立，残差应表现为无系统模式的随机噪声。以下是三种关键诊断方法：

异方差性诊断。 在同方差假设下，残差的离散程度不应随拟合值 $\hat{y}$ 而变化。绘制残差-拟合值散点图是最直观的方法：若散点呈扇形展开或出现系统性的宽窄交替，则暗示存在异方差。正式的 Breusch-Pagan 检验以残差平方对所有自变量做辅助回归： $N \times R^2$ 在原假设（同方差）下渐近服从 $\chi^2$ 分布。White 检验则进一步加入自变量的平方项和交叉项，能捕捉更一般的异方差形式。

正态性诊断。 虽然在大样本下 OLS 的渐近正态性使此项诊断的紧迫性降低，但在小样本中误差非正态会扭曲 t 检验和 F 检验的精确性。Q-Q 图将残差分位数与理论正态分位数对比，偏离直线即暗示非正态。Jarque-Bera 检验联合利用残差的偏度和峰度构建统计量 $JB = \frac{n}{6}[S^2 + \frac{(K-3)^2}{4}]$ ，在原假设（正态）下服从 $\chi^2(2)$ 分布。

影响点识别。 并非所有观测点对回归结果的影响力相等。Cook 距离衡量删除某一观测后全部拟合值的变化幅度： $D_i = \frac{\sum_{j=1}^{n}(\hat{y}_j - \hat{y}_{j(i)})^2}{k \cdot \text{MSE}}$ ，其中 $\hat{y}_{j(i)}$ 为删除第 $i$ 个观测后的拟合值， $k$ 为参数个数。经验规则将 $D_i > 4/n$ 视为高影响力点，需重点复核。杠杆值（Leverage）则度量观测在自变量空间中的极端程度。

稳健标准误与推断修正

当诊断发现异方差或自相关时，标准的 OLS 标准误不再有效——参数估计虽仍无偏一致，但假设检验会因标准误失真而导致错误的显著性或置信区间。此时需要修正推断而非更换估计量。

Huber-White 异方差稳健标准误（也称 sandwich estimator）是最通用的解决方案：

\widehat{\operatorname{Var}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1} \left(\sum_{i=1}^{n} \hat{e}_i^2 \mathbf{x}_i \mathbf{x}_i' \right) (\mathbf{X}'\mathbf{X})^{-1}

其中 $\hat{e}_i$ 为 OLS 残差。该估计量对任意形式的异方差均一致，代价是有限样本下可能低估方差。对于时间序列数据中的自相关，Newey-West 标准误在 White 估计量的基础上加入了滞后截断，同时修正异方差和自相关，截断参数通常取 $\lfloor 0.75 \times T^{1/3} \rfloor$ 。在使用聚类数据（如面板数据中个体内部相关）时，聚类稳健标准误允许同一簇内任意形式的相关结构，是当前微观实证研究的标准做法。

分析结果的报告规范

完整的线性回归分析报告应至少包含以下要素：系数估计值及标准误（以括号或方括号标注）、显著性星号或精确 p 值、样本容量、 $R^2$ 或调整后 $R^2$ 、以及是否使用了稳健标准误的明确说明。典型的回归结果表格如下：

\begin{array}{lcc} \hline & \text{因变量：} \ln(\text{工资}) & \text{因变量：} \ln(\text{工资}) \\\\ \text{教育年限} & 0.082^{\ast\ast\ast} & 0.065^{\ast\ast\ast} \\\\ & (0.008) & (0.010) \\\\ \text{工作经验} & 0.034^{\ast\ast\ast} & 0.031^{\ast\ast\ast} \\\\ & (0.005) & (0.006) \\\\ \text{性别 (女性=1)} & & -0.124^{\ast\ast\ast} \\\\ & & (0.032) \\\\ \text{行业固定效应} & \text{否} & \text{是} \\\\ \hline \text{观测数} & 1{,}286 & 1{,}286 \\\\ R^2 & 0.174 & 0.241 \\\\ \hline \end{array}

在上述标准报告框架下，回归分析的核心产出不只在于哪一个变量的系数"显著"，更在于从模型（1）到模型（2）系数的变化方向是否与理论一致、 $R^2$ 的增量是否意味着控制变量的确有解释力、以及核心变量的系数在多种设定下是否保持稳健。只有完成从设定到诊断、从估计到解释的完整循环，线性回归分析才能从一项计算练习升格为有说服力的实证研究。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。