ARTICLE

一元线性回归

一元线性回归 (Simple Linear Regression) 一元线性回归是统计学和计量经济学中最基础、最广泛使用的模型之一。它研究两个连续变量之间的线性关系,即用一个自变量 (Independent Variable) 来解释或预测一个因变量 (Dependent Variable) 的变化。 模型的核心假设是自变量 X 和因变量 Y 之间存在线性的

浏览 50 更新 2026-05-25

一元线性回归 (Simple Linear Regression)

一元线性回归统计学计量经济学中最基础、最广泛使用的模型之一。它研究两个连续变量之间的线性关系,即用一个自变量 (Independent Variable) 来解释或预测一个因变量 (Dependent Variable) 的变化。

模型的核心假设是自变量 X X 和因变量 Y Y 之间存在线性的、不完美的数学关系,总体回归模型 (Population Regression Model) 表示为:

Y=β0+β1X+ϵY = \beta_0 + \beta_1 X + \epsilon

模型构成要素

为深入理解一元线性回归,需详细解析其每一个组成部分:

  • 因变量 Y Y :也称被解释变量、响应变量或结果变量,是我们希望预测或解释的变量。例如,预测一个人的工资水平时,工资即为 Y Y
  • 自变量 X X :也称解释变量、预测变量或协变量,用于解释 Y Y 的变化。例如,用"受教育年限"来预测工资。
  • 截距 β0 \beta_0 :回归直线在 Y Y 轴上的截距。统计意义上,β0 \beta_0 代表当 X=0 X = 0 Y Y 的期望值 E(YX=0) E(Y|X=0) 。需注意,当 X=0 X=0 无现实意义时(如身高为 0),截距没有实际解释意义。
  • 斜率 β1 \beta_1 :衡量 X X 变化一个单位时 Y Y 期望值的平均变化量: \[ \beta_1 = \frac{\Delta E(Y|X)}{\Delta X} \] β1>0 \beta_1 > 0 表示正相关,β1<0 \beta_1 < 0 表示负相关,β1=0 \beta_1 = 0 表示无线性关系。斜率是衡量 X X Y Y 影响方向和强度的核心指标。
  • 误差项 ϵ \epsilon :也称扰动项,代表除 X X 外所有影响 Y Y 但未被模型包含的因素总和,包括测量误差、模型设定偏误和纯粹的随机性。误差项的存在承认了 X X Y Y 之间的关系并非完全确定。

参数估计:普通最小二乘法 (OLS)

总体参数 β0 \beta_0 β1 \beta_1 未知,需利用样本数据 {(Xi,Yi),i=1,,n} \{ (X_i, Y_i), i = 1, \dots, n \} 来估计。最常用的方法是普通最小二乘法 (Ordinary Least Squares, OLS)。

OLS 的核心思想是寻找估计值 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 ,使每个观测点的实际值 Yi Y_i 与预测值 Y^i \hat{Y}_i 之差(即残差 ei e_i )的平方和最小。

预测值由估计的回归方程给出:

Y^i=β^0+β^1Xi\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i

残差为:

ei=YiY^i=Yi(β^0+β^1Xi)e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i)

OLS 目标是最小化残差平方和 (SSR):

minβ^0,β^1SSR=i=1nei2=i=1n(Yiβ^0β^1Xi)2\min_{\hat{\beta}_0, \hat{\beta}_1} SSR = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2

通过微积分求导,可得 β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 的解析解:

斜率估计量 β^1 \hat{\beta}_1

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=Cov(X,Y)Var(X)\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}

其中 Xˉ \bar{X} Yˉ \bar{Y} 分别为 X X Y Y 的样本均值。

截距估计量 β^0 \hat{\beta}_0

β^0=Yˉβ^1Xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

该公式表明,OLS 回归直线必然通过样本中心点 (Xˉ,Yˉ) (\bar{X}, \bar{Y})

经典线性回归模型的假设

OLS 估计量的优良性质(无偏性、有效性)依赖一系列关于误差项和自变量的假设,合称高斯-马尔可夫假设 (Gauss-Markov Assumptions):

  1. 线性于参数:模型 Y=β0+β1X+ϵ Y = \beta_0 + \beta_1 X + \epsilon 在参数上是线性的。
  2. 随机抽样:拥有来自总体的容量为 n n 的随机样本。
  3. 自变量存在变异:样本中 Xi X_i 值不完全相同,即 X X 的样本方差不为零。
  4. 误差项的零条件均值E(ϵX)=0 E(\epsilon | X) = 0 。这是最关键的假设,意味着 X X ϵ \epsilon 不相关。若被违反(如存在遗漏变量偏误),OLS 估计量将是有偏非一致的。
  5. 同方差性 (Homoscedasticity):对所有 X X ϵ \epsilon 的方差恒为 σ2 \sigma^2 ,即 Var(ϵX)=σ2 Var(\epsilon | X) = \sigma^2 。若方差随 X X 变化,则存在异方差性 (Heteroscedasticity),此时 OLS 不再是最有效的线性无偏估计量,标准误差的估计也会有偏。
  6. 自相关 (No Autocorrelation)Cov(ϵi,ϵjX)=0 Cov(\epsilon_i, \epsilon_j | X) = 0 对所有 ij i \neq j 成立。该假设对横截面数据通常成立,但对时间序列数据需特别关注。

当假设 1--5 成立时,OLS 估计量是最佳线性无偏估计量 (BLUE)

模型拟合优度:决定系数 R2 R^2

决定系数 R2 R^2 是衡量模型拟合优度最常用的指标,表示 Y Y 的总变异中被 X X 解释的比例。先定义三个平方和:

  • 总平方和 (TSS)TSS=i=1n(YiYˉ)2 TSS = \sum_{i=1}^{n} (Y_i - \bar{Y})^2 ,衡量 Y Y 的总变异。
  • 解释平方和 (ESS)ESS=i=1n(Y^iYˉ)2 ESS = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 ,衡量模型可解释的变异。
  • 残差平方和 (SSR)SSR=i=1n(YiY^i)2 SSR = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 ,衡量模型无法解释的变异。

三者满足 TSS=ESS+SSR TSS = ESS + SSR R2 R^2 的计算公式为:

R2=ESSTSS=1SSRTSSR^2 = \frac{ESS}{TSS} = 1 - \frac{SSR}{TSS}

R2 R^2 取值范围为 [0,1] [0, 1] 。越接近 1,模型解释能力越强。需注意,增加自变量总会使 R2 R^2 不降,因此多元回归中常使用调整后的 R2 R^2 (Adjusted R2 R^2 ) 来惩罚多余变量。

显著性检验:t 检验

需检验 X X 是否对 Y Y 有统计上显著的影响,通常对 β1 \beta_1 进行假设检验。最常见的 t 检验设定如下:

  • 原假设 H0 H_0 β1=0 \beta_1 = 0 X X Y Y 无线性影响)
  • 备择假设 H1 H_1 β10 \beta_1 \neq 0 X X Y Y 有线性影响)

检验统计量为t统计量

t=β^1SE(β^1)t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}

其中 SE(β^1) SE(\hat{\beta}_1) 是斜率估计量的标准误

根据 t 值和相应的p值 (p-value),若 p 值小于预设的显著性水平 α \alpha (如 0.05 或 0.01),则拒绝 H0 H_0 ,认为 X X Y Y 的影响统计上显著。此外,还可构造 β1 \beta_1 的置信区间:β^1±tα/2,n2SE(β^1) \hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_1)

重要提醒:相关不等于因果

一元线性回归可有效揭示变量间的相关性或关联性。然而,统计上显著的回归关系并不等同于因果关系 (Causality)。X X 导致 Y Y 的因果结论需建立在严格的理论基础、实验设计或高级计量经济学方法(如工具变量法断点回归双重差分法等)之上,而非仅凭单一的回归分析结果。混淆相关与因果是实证研究中最常见的谬误之一。