一元线性回归 (Simple Linear Regression)
一元线性回归 是统计学 和计量经济学 中最基础、最广泛使用的模型之一。它研究两个连续变量 之间的线性关系,即用一个自变量 (Independent Variable) 来解释或预测一个因变量 (Dependent Variable) 的变化。
模型的核心假设是自变量 X X X 和因变量 Y Y Y 之间存在线性的、不完美的数学关系,总体回归模型 (Population Regression Model) 表示为:
Y = β 0 + β 1 X + ϵ Y = \beta_0 + \beta_1 X + \epsilon Y = β 0 + β 1 X + ϵ
模型构成要素
为深入理解一元线性回归,需详细解析其每一个组成部分:
因变量 Y Y Y :也称被解释变量、响应变量或结果变量,是我们希望预测或解释的变量。例如,预测一个人的工资 水平时,工资即为 Y Y Y 。自变量 X X X :也称解释变量、预测变量或协变量,用于解释 Y Y Y 的变化。例如,用"受教育年限"来预测工资。截距 β 0 \beta_0 β 0 :回归直线在 Y Y Y 轴上的截距。统计意义上,β 0 \beta_0 β 0 代表当 X = 0 X = 0 X = 0 时 Y Y Y 的期望值 E ( Y ∣ X = 0 ) E(Y|X=0) E ( Y ∣ X = 0 ) 。需注意,当 X = 0 X=0 X = 0 无现实意义时(如身高为 0),截距没有实际解释意义。斜率 β 1 \beta_1 β 1 :衡量 X X X 变化一个单位时 Y Y Y 期望值的平均变化量: \[ \beta_1 = \frac{\Delta E(Y|X)}{\Delta X} \] β 1 > 0 \beta_1 > 0 β 1 > 0 表示正相关,β 1 < 0 \beta_1 < 0 β 1 < 0 表示负相关,β 1 = 0 \beta_1 = 0 β 1 = 0 表示无线性关系。斜率是衡量 X X X 对 Y Y Y 影响方向和强度的核心指标。误差项 ϵ \epsilon ϵ :也称扰动项,代表除 X X X 外所有影响 Y Y Y 但未被模型包含的因素总和,包括测量误差、模型设定偏误和纯粹的随机 性。误差项的存在承认了 X X X 与 Y Y Y 之间的关系并非完全确定。
参数估计:普通最小二乘法 (OLS)
总体参数 β 0 \beta_0 β 0 和 β 1 \beta_1 β 1 未知,需利用样本数据 { ( X i , Y i ) , i = 1 , … , n } \{ (X_i, Y_i), i = 1, \dots, n \} {( X i , Y i ) , i = 1 , … , n } 来估计。最常用的方法是普通最小二乘法 (Ordinary Least Squares, OLS)。
OLS 的核心思想是寻找估计值 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 ,使每个观测点的实际值 Y i Y_i Y i 与预测值 Y ^ i \hat{Y}_i Y ^ i 之差(即残差 e i e_i e i )的平方和最小。
预测值由估计的回归方程给出:
Y ^ i = β ^ 0 + β ^ 1 X i \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i Y ^ i = β ^ 0 + β ^ 1 X i
残差为:
e i = Y i − Y ^ i = Y i − ( β ^ 0 + β ^ 1 X i ) e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i) e i = Y i − Y ^ i = Y i − ( β ^ 0 + β ^ 1 X i )
OLS 目标是最小化残差平方和 (SSR):
min β ^ 0 , β ^ 1 S S R = ∑ i = 1 n e i 2 = ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) 2 \min_{\hat{\beta}_0, \hat{\beta}_1} SSR = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 β ^ 0 , β ^ 1 min SSR = i = 1 ∑ n e i 2 = i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X i ) 2
通过微积分 求导,可得 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 的解析解:
斜率估计量 β ^ 1 \hat{\beta}_1 β ^ 1 :
β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) = Var ( X ) Cov ( X , Y )
其中 X ˉ \bar{X} X ˉ 和 Y ˉ \bar{Y} Y ˉ 分别为 X X X 和 Y Y Y 的样本均值。
截距估计量 β ^ 0 \hat{\beta}_0 β ^ 0 :
β ^ 0 = Y ˉ − β ^ 1 X ˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} β ^ 0 = Y ˉ − β ^ 1 X ˉ
该公式表明,OLS 回归直线必然通过样本中心点 ( X ˉ , Y ˉ ) (\bar{X}, \bar{Y}) ( X ˉ , Y ˉ ) 。
经典线性回归模型的假设
OLS 估计量的优良性质(无偏性、有效性)依赖一系列关于误差项和自变量的假设,合称高斯-马尔可夫假设 (Gauss-Markov Assumptions):
线性于参数 :模型 Y = β 0 + β 1 X + ϵ Y = \beta_0 + \beta_1 X + \epsilon Y = β 0 + β 1 X + ϵ 在参数上是线性的。随机抽样 :拥有来自总体的容量为 n n n 的随机样本。自变量存在变异 :样本中 X i X_i X i 值不完全相同,即 X X X 的样本方差不为零。误差项的零条件均值 :E ( ϵ ∣ X ) = 0 E(\epsilon | X) = 0 E ( ϵ ∣ X ) = 0 。这是最关键的假设,意味着 X X X 与 ϵ \epsilon ϵ 不相关。若被违反(如存在遗漏变量偏误 ),OLS 估计量将是有偏 和非一致 的。同方差性 (Homoscedasticity) :对所有 X X X ,ϵ \epsilon ϵ 的方差恒为 σ 2 \sigma^2 σ 2 ,即 V a r ( ϵ ∣ X ) = σ 2 Var(\epsilon | X) = \sigma^2 Va r ( ϵ ∣ X ) = σ 2 。若方差随 X X X 变化,则存在异方差性 (Heteroscedasticity),此时 OLS 不再是最有效的线性无偏估计量,标准误差的估计也会有偏。无自相关 (No Autocorrelation) :C o v ( ϵ i , ϵ j ∣ X ) = 0 Cov(\epsilon_i, \epsilon_j | X) = 0 C o v ( ϵ i , ϵ j ∣ X ) = 0 对所有 i ≠ j i \neq j i = j 成立。该假设对横截面数据 通常成立,但对时间序列数据 需特别关注。
当假设 1--5 成立时,OLS 估计量是最佳线性无偏估计量 (BLUE) 。
模型拟合优度:决定系数 R 2 R^2 R 2
决定系数 R 2 R^2 R 2 是衡量模型拟合优度最常用的指标,表示 Y Y Y 的总变异中被 X X X 解释的比例。先定义三个平方和:
总平方和 (TSS) :T S S = ∑ i = 1 n ( Y i − Y ˉ ) 2 TSS = \sum_{i=1}^{n} (Y_i - \bar{Y})^2 TSS = ∑ i = 1 n ( Y i − Y ˉ ) 2 ,衡量 Y Y Y 的总变异。解释平方和 (ESS) :E S S = ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 ESS = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 ESS = ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 ,衡量模型可解释的变异。残差平方和 (SSR) :S S R = ∑ i = 1 n ( Y i − Y ^ i ) 2 SSR = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 SSR = ∑ i = 1 n ( Y i − Y ^ i ) 2 ,衡量模型无法解释的变异。
三者满足 T S S = E S S + S S R TSS = ESS + SSR TSS = ESS + SSR 。R 2 R^2 R 2 的计算公式为:
R 2 = E S S T S S = 1 − S S R T S S R^2 = \frac{ESS}{TSS} = 1 - \frac{SSR}{TSS} R 2 = TSS ESS = 1 − TSS SSR
R 2 R^2 R 2 取值范围为 [ 0 , 1 ] [0, 1] [ 0 , 1 ] 。越接近 1,模型解释能力越强。需注意,增加自变量总会使 R 2 R^2 R 2 不降,因此多元回归中常使用调整后的 R 2 R^2 R 2 (Adjusted R 2 R^2 R 2 ) 来惩罚多余变量。
显著性检验:t 检验
需检验 X X X 是否对 Y Y Y 有统计上显著的影响,通常对 β 1 \beta_1 β 1 进行假设检验 。最常见的 t 检验设定如下:
原假设 H 0 H_0 H 0 :β 1 = 0 \beta_1 = 0 β 1 = 0 (X X X 对 Y Y Y 无线性影响)备择假设 H 1 H_1 H 1 :β 1 ≠ 0 \beta_1 \neq 0 β 1 = 0 (X X X 对 Y Y Y 有线性影响)
检验统计量为t统计量 :
t = β ^ 1 S E ( β ^ 1 ) t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} t = SE ( β ^ 1 ) β ^ 1
其中 S E ( β ^ 1 ) SE(\hat{\beta}_1) SE ( β ^ 1 ) 是斜率估计量的标准误 。
根据 t 值和相应的p值 (p-value),若 p 值小于预设的显著性水平 α \alpha α (如 0.05 或 0.01),则拒绝 H 0 H_0 H 0 ,认为 X X X 对 Y Y Y 的影响统计上显著。此外,还可构造 β 1 \beta_1 β 1 的置信区间:β ^ 1 ± t α / 2 , n − 2 ⋅ S E ( β ^ 1 ) \hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_1) β ^ 1 ± t α /2 , n − 2 ⋅ SE ( β ^ 1 ) 。
重要提醒:相关不等于因果
一元线性回归可有效揭示变量间的相关性 或关联性。然而,统计上显著的回归关系并不等同于因果关系 (Causality)。X X X 导致 Y Y Y 的因果结论需建立在严格的理论基础、实验设计或高级计量经济学方法(如工具变量法 、断点回归 、双重差分法 等)之上,而非仅凭单一的回归分析结果。混淆相关与因果是实证研究中最常见的谬误之一。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。