简单线性回归 (Simple Linear Regression)
简单线性回归 (Simple Linear Regression,简称 SLR)是回归分析 中最基础、最核心的方法。它研究一个因变量 (dependent variable)与一个自变量 (independent variable)之间的线性关系,是理解多元线性回归 和整个计量经济学 方法的起点。SLR 通过一条直线来描述变量之间的统计依赖关系,其简洁性和可解释性使其成为数据分析的基石工具。
模型设定与基本假设
简单线性回归模型的基本形式为:
y i = β 0 + β 1 x i + ϵ i , i = 1 , 2 , … , n y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \ldots, n y i = β 0 + β 1 x i + ϵ i , i = 1 , 2 , … , n
其中 y i y_i y i 是因变量(也称为被解释变量、响应变量),x i x_i x i 是自变量(解释变量、预测变量),β 0 \beta_0 β 0 是截距项 ,β 1 \beta_1 β 1 是斜率系数 ,ϵ i \epsilon_i ϵ i 是误差项 。误差项是模型中未被 x i x_i x i 解释的随机部分,囊括了所有影响 y y y 但未被模型纳入的因素。
SLR 的有效依赖于一组经典线性模型假设 (Gauss-Markov 假设)。第一,线性性 :模型关于参数 β 0 \beta_0 β 0 和 β 1 \beta_1 β 1 是线性的。第二,零条件均值 :E [ ϵ i ∣ x i ] = 0 \mathbb{E}[\epsilon_i | x_i] = 0 E [ ϵ i ∣ x i ] = 0 ,即给定 x i x_i x i 时误差项的期望为零,这意味着 x i x_i x i 与 ϵ i \epsilon_i ϵ i 不相关。第三,同方差性 :Var ( ϵ i ∣ x i ) = σ 2 \operatorname{Var}(\epsilon_i | x_i) = \sigma^2 Var ( ϵ i ∣ x i ) = σ 2 ,即误差项的方差在所有 x x x 取值水平上保持不变。第四,独立同分布 :样本 ( x i , y i ) (x_i, y_i) ( x i , y i ) 是随机抽取的,观测之间相互独立。第五,正态性 (用于推断):ϵ i ∼ N ( 0 , σ 2 ) \epsilon_i \sim N(0, \sigma^2) ϵ i ∼ N ( 0 , σ 2 ) ,误差项服从正态分布。当这些假设得到满足时,普通最小二乘法 (OLS)估计量具有最优线性无偏估计(BLUE)的性质。
参数估计:普通最小二乘法
SLR 的参数通常通过普通最小二乘法 (OLS)进行估计。OLS 的核心思想是选择 β 0 \beta_0 β 0 和 β 1 \beta_1 β 1 使得残差平方和(Sum of Squared Residuals, SSR)最小化:
min β 0 , β 1 ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 \min_{\beta_0, \beta_1} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 β 0 , β 1 min i = 1 ∑ n ( y i − β 0 − β 1 x i ) 2
通过微积分求解一阶条件,得到 OLS 估计量的解析表达式:
β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 , β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) , β ^ 0 = y ˉ − β ^ 1 x ˉ
其中 x ˉ \bar{x} x ˉ 和 y ˉ \bar{y} y ˉ 分别表示 x x x 和 y y y 的样本均值。斜率估计量 β ^ 1 \hat{\beta}_1 β ^ 1 的分子是 x x x 与 y y y 的协方差 (的 n − 1 n-1 n − 1 倍),分母是 x x x 的方差(的 n − 1 n-1 n − 1 倍),因此 β ^ 1 \hat{\beta}_1 β ^ 1 本质上是 x x x 与 y y y 的样本协方差与 x x x 的样本方差之比。这一直观解释说明,β ^ 1 \hat{\beta}_1 β ^ 1 衡量的是 x x x 每变动一个单位时 y y y 平均变动的量。
OLS 估计量是无偏估计 ,即 E [ β ^ 1 ] = β 1 \mathbb{E}[\hat{\beta}_1] = \beta_1 E [ β ^ 1 ] = β 1 和 E [ β ^ 0 ] = β 0 \mathbb{E}[\hat{\beta}_0] = \beta_0 E [ β ^ 0 ] = β 0 。其方差为:
Var ( β ^ 1 ) = σ 2 ∑ i = 1 n ( x i − x ˉ ) 2 , Var ( β ^ 0 ) = σ 2 ∑ i = 1 n x i 2 n ∑ i = 1 n ( x i − x ˉ ) 2 \operatorname{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \quad \operatorname{Var}(\hat{\beta}_0) = \frac{\sigma^2 \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} (x_i - \bar{x})^2} Var ( β ^ 1 ) = ∑ i = 1 n ( x i − x ˉ ) 2 σ 2 , Var ( β ^ 0 ) = n ∑ i = 1 n ( x i − x ˉ ) 2 σ 2 ∑ i = 1 n x i 2
其中 σ 2 = Var ( ϵ i ) \sigma^2 = \operatorname{Var}(\epsilon_i) σ 2 = Var ( ϵ i ) 通常由 σ ^ 2 = 1 n − 2 ∑ i = 1 n ϵ ^ i 2 \hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} \hat{\epsilon}_i^2 σ ^ 2 = n − 2 1 ∑ i = 1 n ϵ ^ i 2 估计,此处 ϵ ^ i = y i − β ^ 0 − β ^ 1 x i \hat{\epsilon}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i ϵ ^ i = y i − β ^ 0 − β ^ 1 x i 为残差。
拟合优度与模型评估
评估 SLR 模型拟合效果的常用指标是决定系数 R 2 R^2 R 2 :
R 2 = SSE SST = 1 − SSR SST R^2 = \frac{\text{SSE}}{\text{SST}} = 1 - \frac{\text{SSR}}{\text{SST}} R 2 = SST SSE = 1 − SST SSR
其中 SST = ∑ ( y i − y ˉ ) 2 \text{SST} = \sum (y_i - \bar{y})^2 SST = ∑ ( y i − y ˉ ) 2 为总平方和,SSE = ∑ ( y ^ i − y ˉ ) 2 \text{SSE} = \sum (\hat{y}_i - \bar{y})^2 SSE = ∑ ( y ^ i − y ˉ ) 2 为解释平方和,SSR = ∑ ( y i − y ^ i ) 2 \text{SSR} = \sum (y_i - \hat{y}_i)^2 SSR = ∑ ( y i − y ^ i ) 2 为残差平方和 。R 2 R^2 R 2 的取值范围为 [ 0 , 1 ] [0, 1] [ 0 , 1 ] ,衡量因变量总变异中由自变量解释的比例。在 SLR 中,R 2 R^2 R 2 也等于 x x x 与 y y y 的皮尔逊相关系数 的平方。
此外,残差分析 是检验模型假设的重要工具。通过绘制残差 ϵ ^ i \hat{\epsilon}_i ϵ ^ i 对拟合值 y ^ i \hat{y}_i y ^ i 的散点图或Q-Q 图 ,可以直观判断线性性、同方差性和正态性假设是否成立。
统计推断:假设检验与置信区间
在 SLR 中,核心推断问题是检验斜率系数 β 1 \beta_1 β 1 是否显著不为零,即 H 0 : β 1 = 0 H_0: \beta_1 = 0 H 0 : β 1 = 0 对 H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H 1 : β 1 = 0 。检验统计量为:
t = β ^ 1 se ( β ^ 1 ) ∼ t n − 2 t = \frac{\hat{\beta}_1}{\operatorname{se}(\hat{\beta}_1)} \sim t_{n-2} t = se ( β ^ 1 ) β ^ 1 ∼ t n − 2
其中 se ( β ^ 1 ) = Var ^ ( β ^ 1 ) \operatorname{se}(\hat{\beta}_1) = \sqrt{\widehat{\operatorname{Var}}(\hat{\beta}_1)} se ( β ^ 1 ) = Var ( β ^ 1 ) 为标准误。若 ∣ t ∣ |t| ∣ t ∣ 大于给定显著性水平的临界值,则拒绝原假设,认为 x x x 对 y y y 存在统计显著的线性影响。
置信区间 的构造同样基于 t 分布。β 1 \beta_1 β 1 的 100 ( 1 − α ) % 100(1-\alpha)\% 100 ( 1 − α ) % 置信区间为:
β ^ 1 ± t α / 2 , n − 2 ⋅ se ( β ^ 1 ) \hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot \operatorname{se}(\hat{\beta}_1) β ^ 1 ± t α /2 , n − 2 ⋅ se ( β ^ 1 )
此外,还可以对给定 x = x 0 x = x_0 x = x 0 时 y y y 的均值预测 和个体预测 分别构造置信区间和预测区间。均值预测的置信区间反映的是 E [ y ∣ x 0 ] E[y|x_0] E [ y ∣ x 0 ] 的估计不确定性,而个体预测区间则额外包含了回归误差项 ϵ \epsilon ϵ 的随机波动,因此更宽。
SLR 的局限与扩展
尽管 SLR 直观且易于解释,但其局限性也十分明显。首先,现实中的经济与社会现象往往受多个因素共同影响,单变量模型存在严重的遗漏变量偏误 ,即若存在与 x x x 相关且影响 y y y 的变量被遗漏,则 β ^ 1 \hat{\beta}_1 β ^ 1 将不再一致。多元线性回归 通过引入多个解释变量来缓解这一问题。其次,SLR 假设 x x x 与 y y y 的关系是线性的,当真实关系为非线性时,可通过变量变换(如取对数或平方项)来扩展模型。此外,SLR 在处理异方差性 、自相关 和内生性 问题时的能力有限,需要更复杂的广义最小二乘法 (GLS)或工具变量法 (IV)等方法来应对。
SLR 是统计学习和机器学习 中所有线性模型的根基。正则化回归 (如岭回归 和Lasso )的核心思想可视为在 OLS 的基础上加入了惩罚项,而逻辑回归 则将其推广至分类问题。深刻理解 SLR 的原理是掌握更高级建模技术的前提。
实际应用案例
SLR 在经济学、社会科学和自然科学中有着广泛的应用。在经济学 中,研究者常用 SLR 分析教育年限对工资收入的影响,其中教育年限为自变量 x x x ,工资收入为因变量 y y y 。在金融学 中,资本资产定价模型(CAPM)本质上是一个 SLR 模型,将个股收益率对市场组合收益率进行回归,斜率即为贝塔系数,衡量系统性风险。在农业经济学 中,施肥量与作物产量之间的关系也可通过 SLR 初步建模。
与多元回归的关系
SLR 是多元线性回归 (Multiple Linear Regression, MLR)的特例。当 MLR 中只有一个解释变量时,两者完全等价。理解 SLR 有助于掌握 MLR 的核心概念,包括偏回归系数、多重共线性 和调整 R 2 R^2 R 2 等。MLR 中每个解释变量的系数衡量的是在控制其他变量不变的情况下该变量的边际效应,而 SLR 中的系数则衡量的是简单总效应。两者差异的大小反映了遗漏变量偏误的严重程度。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。