ARTICLE

regression

回归 (Regression) 回归(Regression)是统计学和计量经济学中研究变量之间相关关系与因果关系的核心工具之一。其基本思想是建立一个数学模型,描述一个或多个自变量(Independent Variable / Predictor)如何影响一个因变量(Dependent Variable / Response)。回归分析不仅能够量化变量间的关系

浏览 5 更新 2025-10-26

回归 (Regression)

回归(Regression)是统计学计量经济学中研究变量之间相关关系因果关系的核心工具之一。其基本思想是建立一个数学模型,描述一个或多个自变量(Independent Variable / Predictor)如何影响一个因变量(Dependent Variable / Response)。回归分析不仅能够量化变量间的关系强度与方向,还能基于已知的自变量对因变量进行预测和推断。

回归分析的历史渊源

"回归"这一术语源于英国统计学家Francis Galton在19世纪末对遗传学的研究。Galton 在分析父子身高数据时发现,虽然高个子父亲的儿子往往也较高,但平均而言,儿子的身高会趋向于全体人口的平均身高,即"回归到平均水平"(Regression toward the Mean)。这一现象后来被广义地理解为统计学中的均值回归(Regression to the Mean)概念。例如在金融市场上,极端收益率之后往往伴随着向均值的回调。此后,Karl Pearson等人将这一思想形式化为最小二乘法,奠定了现代回归分析的基础。Pearson 系统性地发展了相关系数和回归线的数学理论,使回归从描述性概念转变为严格的数量化分析工具。

回归模型的基本形式

最基础的回归模型是简单线性回归(Simple Linear Regression),其数学表达式为:

Yi=β0+β1Xi+εiY_i = \beta_0 + \beta_1 X_i + \varepsilon_i

其中:

  • Yi Y_i :第 i i 个观测的因变量值。
  • Xi X_i :第 i i 个观测的自变量值。
  • β0 \beta_0 截距(Intercept),表示当 X=0 X=0 时的 Y Y 值。
  • β1 \beta_1 斜率(Slope),度量 X X 每变化一个单位引起 Y Y 的平均变化量。
  • εi \varepsilon_i 误差项(Error Term),捕捉 Y Y 中无法由 X X 解释的随机波动。

当存在多个自变量时,模型扩展为多元线性回归(Multiple Linear Regression):

Yi=β0+β1X1i+β2X2i++βkXki+εiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + \varepsilon_i

参数估计:最小二乘法

回归系数的估计最常采用普通最小二乘法(Ordinary Least Squares,OLS),由Carl Friedrich Gauss在19世纪初提出。其核心思想是:寻找一组系数 β^0,β^1,,β^k \hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k ,使得所有观测值的残差平方和(Sum of Squared Residuals,SSR)最小。残差是实际观测值 Yi Y_i 与模型预测值 Y^i \hat{Y}_i 之间的差值,即 ei=YiY^i e_i = Y_i - \hat{Y}_i 。直观上,OLS 通过惩罚较大的偏差来保证估计的稳健性。数学上,OLS 的目标函数为:

minβi=1n(YiY^i)2=minβi=1n(Yi(β^0+β^1X1i++β^kXki))2\min_{\beta} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \min_{\beta} \sum_{i=1}^{n} (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \cdots + \hat{\beta}_k X_{ki}))^2

在假定自变量之间不存在完全多重共线性的条件下,OLS 估计量具有闭式解:

β^=(XTX)1XTY\hat{\boldsymbol{\beta}} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1} \mathbf{X}^\mathsf{T} \mathbf{Y}

回归分析的核心假设

为确保 OLS 估计量具有良好的统计性质(特别是最佳线性无偏估计量,Best Linear Unbiased Estimator,BLUE),经典线性回归模型需满足以下由Gauss-Markov定理阐明的假设:

  1. 线性关系:因变量与自变量之间存在线性关系。
  2. 严格外生性:误差项的条件均值为零,即 E[εiX]=0 \mathbb{E}[\varepsilon_i | \mathbf{X}] = 0 。这意味着自变量与误差项不相关。
  3. 同方差性:所有误差项具有相同的方差,即 Var(εiX)=σ2 \text{Var}(\varepsilon_i | \mathbf{X}) = \sigma^2
  4. 无自相关:不同观测的误差项之间不相关,即 Cov(εi,εjX)=0,  ij \text{Cov}(\varepsilon_i, \varepsilon_j | \mathbf{X}) = 0, \; i \neq j
  5. 正态性(可选):误差项服从正态分布,这为小样本下的假设检验提供了基础。

当这些假设被违反时,会引发相应的计量问题,如异方差性(Heteroscedasticity)、自相关(Autocorrelation)和内生性(Endogeneity),需要采用稳健标准误、广义最小二乘法或工具变量法等进行修正。

模型评估与检验

拟合完回归模型后,需要评估模型的整体解释力和单个系数的显著性:

  • 决定系数 R2 R^2 :衡量自变量对因变量变异的解释比例,计算公式为 R2=1SSRSST R^2 = 1 - \frac{\text{SSR}}{\text{SST}} ,其中 SST 为总离差平方和。R2 R^2 的值在 [0,1] [0, 1] 之间,越接近 1 表示拟合越好。调整 R2 R^2 (Adjusted R2 R^2 )对额外加入的自变量施加惩罚,防止过度拟合。
  • F 检验:检验模型整体是否显著,即是否所有斜率系数同时为零。
  • t 检验:检验单个回归系数是否显著异于零,常用的原假设为 H0:βj=0 H_0: \beta_j = 0
  • 置信区间:为回归系数构建置信区间,反映估计的不确定性。例如在 95% 95\% 置信水平下,可以认为真实参数以 95% 95\% 的概率落入该区间内。

残差诊断也是模型评估的重要环节。通过绘制残差图(Residual Plot),可以直观地检查是否存在异方差性、非线性模式或异常值。Q-Q 图(Quantile-Quantile Plot)则用于检验残差的正态性假设。

回归分析的扩展

线性回归是回归分析家族的基石,但在实际应用中衍生出多种变体以适应不同数据类型:

  • 逻辑回归(Logistic Regression):当因变量为二分类变量时使用,通过 Logit 连接函数将线性预测映射到概率空间。
  • 岭回归(Ridge Regression)与Lasso 回归:通过在损失函数中加入 L2 L_2 L1 L_1 正则化项来处理多重共线性和变量选择问题。
  • 多项式回归(Polynomial Regression):在自变量的高次项上建立模型,捕捉非线性关系。
  • 分位数回归(Quantile Regression):估计因变量的条件分位数而非均值,对异常值更加稳健。
  • 面板数据回归(Panel Data Regression):结合横截面和时间序列维度,控制个体异质性带来的遗漏变量偏误

回归分析的局限与注意事项

回归分析虽然强大,但使用不当容易得出误导性结论。最关键的一点是:回归揭示的是相关性,而非因果关系。即使模型拟合完美,也无法排除遗漏变量或反向因果的可能。此外,过度依赖样本内的拟合优度而忽视样本外的预测能力,容易导致过拟合(Overfitting)。在实际应用中,研究者应结合领域知识、实验设计或准实验方法(如双重差分法断点回归等)来增强因果推断的可信度。

在当代数据科学实践中,回归分析也是机器学习的基石之一。许多复杂的算法,如神经网络中的线性层、支持向量机的线性核等,都可以追溯到回归的思想。回归的可解释性使其成为许多高风险决策场景(如医疗诊断、信用评分)的首选模型。总之,回归分析作为统计学最常用的工具之一,从简单的线性关系到复杂的因果推断,始终是数据分析人员理解世界、做出预测和制定决策的重要支柱。