ARTICLE

线性回归

线性回归 (Linear Regression) 线性回归是统计学和机器学习中最基础且应用最广泛的建模方法之一。其核心目标是建立一个数学模型,用以描述一个或多个自变量(预测变量)与一个因变量(响应变量)之间的线性关系,并通过对已有数据的拟合,找到一条"最佳拟合"直线(或超平面)来预测因变量的数值。作为回归分析中最为经典的范式,线性回归不仅是理解广义线性模型、

浏览 60 更新 2025-10-23

线性回归 (Linear Regression)

线性回归统计学机器学习中最基础且应用最广泛的建模方法之一。其核心目标是建立一个数学模型,用以描述一个或多个自变量(预测变量)与一个因变量(响应变量)之间的线性关系,并通过对已有数据的拟合,找到一条"最佳拟合"直线(或超平面)来预测因变量的数值。作为回归分析中最为经典的范式,线性回归不仅是理解广义线性模型岭回归LASSO等更复杂方法的理论前提,也是实证研究中建立因果推断基准模型的起点。该方法在经济学(如估计教育回报率、预测消费函数)、金融学(如资本资产定价模型的实证检验)、生物学(如剂量-反应关系)以及社会科学等众多领域有着不可替代的地位。

简单线性回归模型

最简单的形式是简单线性回归(Simple Linear Regression),只涉及一个自变量 XX 和一个因变量 YY。其总体回归模型(population model)为:

Y=β0+β1X+εY = \beta_0 + \beta_1 X + \varepsilon

该方程中的各项具有明确含义:YY 为因变量,即研究者试图预测或解释的变量;XX 为自变量,是用来预测 YY 的变量;β0\beta_0截距(Intercept),从几何上看是回归直线与纵轴的交点,从统计上看是当 X=0X=0YY 的期望值;β1\beta_1斜率(Slope),也称回归系数,度量的是 XX 每变动一个单位时 YY 的期望变化量——其符号反映作用方向,其绝对值反映作用强度;ε\varepsilon误差项(Error Term),代表所有未被模型纳入却影响 YY 的因素的总和,同时涵盖测量误差与内在随机性。误差项的存在是回归分析与确定性数学函数的本质区别。

由于总体参数 (β0,β1)(\beta_0, \beta_1) 在现实中不可直接观测,研究者基于样本数据对其进行估计,得到样本回归模型:

Y^=β^0+β^1X\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X

其中"帽子"符号(^\hat{\cdot})通篇表示估计量:Y^\hat{Y} 是在给定 XX 的条件下对 YY 的预测值,β^0\hat{\beta}_0β^1\hat{\beta}_1 分别是对总体截距和总体斜率的估计。观测值与预测值之差 yiy^iy_i - \hat{y}_i 称为残差(Residual),它是对不可观测的误差项 εi\varepsilon_i 的样本近似,也是模型诊断的核心依据。

参数估计:普通最小二乘法 (OLS)

确定回归系数 β^0\hat{\beta}_0β^1\hat{\beta}_1 的最经典方法是普通最小二乘法(Ordinary Least Squares, OLS)。其基本思想简明而深刻:在所有可能的参数取值中,选择使得残差平方和达到最小的那一组。具体而言,OLS 最小化如下目标函数——残差平方和(Residual Sum of Squares, RSS):

RSS(β^0,β^1)=i=1n(yiy^i)2=i=1n(yiβ^0β^1xi)2\operatorname{RSS}(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} \bigl(y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i\bigr)^2

其中 nn 为样本容量。采用平方而非绝对值的原因有二:一是二次函数在数学上便于求导和解析求解,二是平方对较大的偏差施加更重的惩罚,使模型倾向于避免极端偏离。对上述函数分别求关于 β^0\hat{\beta}_0β^1\hat{\beta}_1 的偏导数并令其为零,经过代数整理,得到 OLS 估计量的显式解:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=Cov(X,Y)Var(X),β^0=yˉβ^1xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\operatorname{Cov}(X,Y)}{\operatorname{Var}(X)},\qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

该结果揭示了几个重要性质。第一,斜率估计量 β^1\hat{\beta}_1 恰为 XXYY 的样本协方差除以 XX 的样本方差,直观体现了两变量间的共变关系。第二,OLS 回归线必定穿过样本均值点 (xˉ,yˉ)(\bar{x}, \bar{y})——这为回归线的几何定位提供了直观参照。第三,若 XX 的样本方差为零(即所有 xix_i 取值相同),则上述表达式无定义,在直觉上亦无法推断 XX 变化对 YY 的影响,这提示了自变量的变异性是回归分析的前提条件。

模型评估与诊断

建立回归模型后,需要从多个维度评估其质量。

拟合优度与判定系数 R2R^2

判定系数(Coefficient of Determination)R2R^2 是衡量模型拟合优度最常用的汇总统计量。它量化了因变量 YY 的总变异中可以被自变量 XX 的线性函数所解释的比例。其定义依赖于对总变异的分解:

(yiyˉ)2TSS=(y^iyˉ)2ESS+(yiy^i)2RSS\underbrace{\sum (y_i - \bar{y})^2}_{\text{TSS}} = \underbrace{\sum (\hat{y}_i - \bar{y})^2}_{\text{ESS}} + \underbrace{\sum (y_i - \hat{y}_i)^2}_{\text{RSS}}

其中 TSS(Total Sum of Squares)为总平方和,度量 YY 围绕其均值的总波动;ESS(Explained Sum of Squares)为解释平方和,度量回归模型能够解释的那部分波动;RSS(Residual Sum of Squares)为残差平方和,度量模型未能解释的剩余波动。由此定义:

R2=ESSTSS=1RSSTSSR^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

R2R^2 取值介于 0 到 1 之间:当 R2=1R^2 = 1 时,所有数据点精确落在回归直线上,模型完美拟合;当 R2=0R^2 = 0 时,模型不比用样本均值预测更好。然而,R2R^2 并非越高越好——盲目追求高 R2R^2 可能导致过拟合,且 R2R^2 无法回答模型设定是否正确、因果关系是否成立等更深层的问题。

回归系数的显著性检验

即便得到了非零的 β^1\hat{\beta}_1,仍需通过统计推断判断其是否在统计上显著异于零。这一过程采用经典的假设检验框架:

  1. 建立原假设与备择假设H0:β1=0H_0: \beta_1 = 0XXYY 之间不存在线性关系),H1:β10H_1: \beta_1 \neq 0(存在线性关系)。检验为双侧检验。
  2. 构造检验统计量:在经典假设下,OLS 估计量 β^1\hat{\beta}_1 服从正态分布,将其标准化后得到 t-统计量: \[ t = \frac{\hat{\beta}_1 - 0}{\operatorname{SE}(\hat{\beta}_1)} = \frac{\hat{\beta}_1}{\operatorname{SE}(\hat{\beta}_1)} \] 其中 SE(β^1)\operatorname{SE}(\hat{\beta}_1)β^1\hat{\beta}_1标准误,度量了由于抽样不确定性导致的估计精度。标准误越小,估计越精确。该统计量在 H0H_0 下服从自由度为 n2n-2t-分布
  3. 计算 p-值并做出决策:根据 t-统计量在 t-分布中的位置计算p-值——即在 H0H_0 为真的前提下,观察到比当前样本更极端结果的概率。若 p-值小于预设的显著性水平 α\alpha(经济学中通常取 0.05 或 0.01),则拒绝原假设,判定 XXYY 具有统计上显著的线性影响。

经典假设与高斯-马尔可夫定理

OLS 之所以成为计量经济学的基准估计方法,源于其在一组理想条件下的优良统计性质。这组条件即高斯-马尔可夫假设(Gauss-Markov Assumptions):

  1. 线性于参数(Linearity in Parameters):总体模型在参数 β0,β1\beta_0, \beta_1 上是线性的。注意变量本身可以是非线性变换(如对数、平方项),但参数必须以线性形式进入方程。
  2. 随机抽样(Random Sampling):样本观测值 (xi,yi)(x_i, y_i) 独立地从同一总体中随机抽取。
  3. 条件均值为零(Zero Conditional Mean):E(εX)=0E(\varepsilon \mid X) = 0,即对于任意给定的 XX 值,误差项的期望为零。这是最核心的识别假设——它排除了自变量与误差项之间的任何系统性关联,若该假设不成立,则会导致内生性问题,OLS 估计量将不一致。
  4. 同方差性同方差性):Var(εX)=σ2\operatorname{Var}(\varepsilon \mid X) = \sigma^2,即误差项的方差在所有 XX 取值上保持恒定。该假设的违背——异方差性——虽然不导致估计量有偏,但会使标准误估计失真,进而影响假设检验的有效性。
  5. 无自相关(No Autocorrelation):Cov(εi,εjX)=0\operatorname{Cov}(\varepsilon_i, \varepsilon_j \mid X) = 0,对任意 iji \neq j。任意两个不同观测的误差项之间不存在相关性。该假设在使用时间序列数据时尤为关键,因为经济变量往往表现出序列相关性。

当上述五个假设同时成立时,高斯-马尔可夫定理给出一个极为重要的结论:OLS 估计量是最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE)。"线性"指估计量是 YY 的线性组合;"无偏"指 E(β^j)=βjE(\hat{\beta}_j) = \beta_j,即在重复抽样中估计量的期望等于真值;"最佳"指在所有的线性无偏估计量中,OLS 估计量具有最小的方差(即最高效)。BLUE 性质奠定了 OLS 在经验研究中的主导地位,但也意味着一旦假设失效,OLS 的最优性随即丧失。

多元线性回归及其挑战

将单个自变量推广至多个自变量,便得到多元线性回归(Multiple Linear Regression):

Y=β0+β1X1+β2X2++βkXk+εY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon

在多元框架下,回归系数 βj\beta_j 的解读发生了根本性变化:它表示在控制其他所有自变量保持不变ceteris paribus)的条件下,XjX_j 每增加一个单位时 YY 的期望变化量。这一"偏效应"(partial effect)解释使得多元回归能够隔离混杂因素的影响,成为观测性研究中进行因果推断的基础工具。

然而,多元回归也带来了新挑战。其中最突出的是多重共线性(Multicollinearity):当两个或多个自变量之间高度相关时,模型难以将因变量的变动精准归因于某一个特定自变量,导致回归系数估计量的方差急剧膨胀(表现为标准误增大),估计结果对数据的微小变动极为敏感,统计显著性与经济显著性之间可能出现严重脱节。诊断多重共线性的常用指标包括方差膨胀因子(VIF)和自变量间的相关系数矩阵。

在模型选择方面,简单回归中使用的 R2R^2 存在天然缺陷:只要向模型中增加新的自变量,无论该变量是否具有真实的解释力,R2R^2 永不下降。为此,在多元回归中通常采用调整后 R2R^2(Adjusted R2R^2),它对自变量的个数 kk 施加惩罚:

Rˉ2=1RSS/(nk1)TSS/(n1)\bar{R}^2 = 1 - \frac{\text{RSS} / (n - k - 1)}{\text{TSS} / (n - 1)}

调整后 R2R^2 仅在新增变量对拟合的改进足以补偿自由度损失时才会上升,这使得不同自变量数量的模型之间可以进行更公允的比较。线性回归框架还可通过变量变换(如对数、平方项、交互项)纳入非线性关系,并可与虚拟变量结合处理分类因素,其灵活性与可解释性的平衡使其至今仍是应用计量经济学中最常用的分析工具。