ARTICLE

简单线性回归 (SLR)

简单线性回归 (Simple Linear Regression) 简单线性回归(Simple Linear Regression,简称 SLR)是回归分析中最基础、最核心的方法。它研究一个因变量(dependent variable)与一个自变量(independent variable)之间的线性关系,是理解多元线性回归和整个计量经济学方法的起点。SLR

浏览 0 更新 2025-10-26

简单线性回归 (Simple Linear Regression)

简单线性回归(Simple Linear Regression,简称 SLR)是回归分析中最基础、最核心的方法。它研究一个因变量(dependent variable)与一个自变量(independent variable)之间的线性关系,是理解多元线性回归和整个计量经济学方法的起点。SLR 通过一条直线来描述变量之间的统计依赖关系,其简洁性和可解释性使其成为数据分析的基石工具。

模型设定与基本假设

简单线性回归模型的基本形式为:

yi=β0+β1xi+ϵi,i=1,2,,ny_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \ldots, n

其中 yiy_i 是因变量(也称为被解释变量、响应变量),xix_i 是自变量(解释变量、预测变量),β0\beta_0截距项β1\beta_1斜率系数ϵi\epsilon_i误差项。误差项是模型中未被 xix_i 解释的随机部分,囊括了所有影响 yy 但未被模型纳入的因素。

SLR 的有效依赖于一组经典线性模型假设(Gauss-Markov 假设)。第一,线性性:模型关于参数 β0\beta_0β1\beta_1 是线性的。第二,零条件均值E[ϵixi]=0\mathbb{E}[\epsilon_i | x_i] = 0,即给定 xix_i 时误差项的期望为零,这意味着 xix_iϵi\epsilon_i 不相关。第三,同方差性Var(ϵixi)=σ2\operatorname{Var}(\epsilon_i | x_i) = \sigma^2,即误差项的方差在所有 xx 取值水平上保持不变。第四,独立同分布:样本 (xi,yi)(x_i, y_i) 是随机抽取的,观测之间相互独立。第五,正态性(用于推断):ϵiN(0,σ2)\epsilon_i \sim N(0, \sigma^2),误差项服从正态分布。当这些假设得到满足时,普通最小二乘法(OLS)估计量具有最优线性无偏估计(BLUE)的性质。

参数估计:普通最小二乘法

SLR 的参数通常通过普通最小二乘法(OLS)进行估计。OLS 的核心思想是选择 β0\beta_0β1\beta_1 使得残差平方和(Sum of Squared Residuals, SSR)最小化:

minβ0,β1i=1n(yiβ0β1xi)2\min_{\beta_0, \beta_1} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2

通过微积分求解一阶条件,得到 OLS 估计量的解析表达式:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2,β^0=yˉβ^1xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

其中 xˉ\bar{x}yˉ\bar{y} 分别表示 xxyy 的样本均值。斜率估计量 β^1\hat{\beta}_1 的分子是 xxyy协方差(的 n1n-1 倍),分母是 xx 的方差(的 n1n-1 倍),因此 β^1\hat{\beta}_1 本质上是 xxyy 的样本协方差与 xx 的样本方差之比。这一直观解释说明,β^1\hat{\beta}_1 衡量的是 xx 每变动一个单位时 yy 平均变动的量。

OLS 估计量是无偏估计,即 E[β^1]=β1\mathbb{E}[\hat{\beta}_1] = \beta_1E[β^0]=β0\mathbb{E}[\hat{\beta}_0] = \beta_0。其方差为:

Var(β^1)=σ2i=1n(xixˉ)2,Var(β^0)=σ2i=1nxi2ni=1n(xixˉ)2\operatorname{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}, \quad \operatorname{Var}(\hat{\beta}_0) = \frac{\sigma^2 \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} (x_i - \bar{x})^2}

其中 σ2=Var(ϵi)\sigma^2 = \operatorname{Var}(\epsilon_i) 通常由 σ^2=1n2i=1nϵ^i2\hat{\sigma}^2 = \frac{1}{n-2} \sum_{i=1}^{n} \hat{\epsilon}_i^2 估计,此处 ϵ^i=yiβ^0β^1xi\hat{\epsilon}_i = y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i 为残差。

拟合优度与模型评估

评估 SLR 模型拟合效果的常用指标是决定系数 R2R^2

R2=SSESST=1SSRSSTR^2 = \frac{\text{SSE}}{\text{SST}} = 1 - \frac{\text{SSR}}{\text{SST}}

其中 SST=(yiyˉ)2\text{SST} = \sum (y_i - \bar{y})^2 为总平方和,SSE=(y^iyˉ)2\text{SSE} = \sum (\hat{y}_i - \bar{y})^2 为解释平方和,SSR=(yiy^i)2\text{SSR} = \sum (y_i - \hat{y}_i)^2残差平方和R2R^2 的取值范围为 [0,1][0, 1],衡量因变量总变异中由自变量解释的比例。在 SLR 中,R2R^2 也等于 xxyy皮尔逊相关系数的平方。

此外,残差分析是检验模型假设的重要工具。通过绘制残差 ϵ^i\hat{\epsilon}_i 对拟合值 y^i\hat{y}_i 的散点图或Q-Q 图,可以直观判断线性性、同方差性和正态性假设是否成立。

统计推断:假设检验与置信区间

在 SLR 中,核心推断问题是检验斜率系数 β1\beta_1 是否显著不为零,即 H0:β1=0H_0: \beta_1 = 0H1:β10H_1: \beta_1 \neq 0。检验统计量为:

t=β^1se(β^1)tn2t = \frac{\hat{\beta}_1}{\operatorname{se}(\hat{\beta}_1)} \sim t_{n-2}

其中 se(β^1)=Var^(β^1)\operatorname{se}(\hat{\beta}_1) = \sqrt{\widehat{\operatorname{Var}}(\hat{\beta}_1)} 为标准误。若 t|t| 大于给定显著性水平的临界值,则拒绝原假设,认为 xxyy 存在统计显著的线性影响。

置信区间的构造同样基于 t 分布。β1\beta_1100(1α)%100(1-\alpha)\% 置信区间为:

β^1±tα/2,n2se(β^1)\hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot \operatorname{se}(\hat{\beta}_1)

此外,还可以对给定 x=x0x = x_0yy均值预测个体预测分别构造置信区间和预测区间。均值预测的置信区间反映的是 E[yx0]E[y|x_0] 的估计不确定性,而个体预测区间则额外包含了回归误差项 ϵ\epsilon 的随机波动,因此更宽。

SLR 的局限与扩展

尽管 SLR 直观且易于解释,但其局限性也十分明显。首先,现实中的经济与社会现象往往受多个因素共同影响,单变量模型存在严重的遗漏变量偏误,即若存在与 xx 相关且影响 yy 的变量被遗漏,则 β^1\hat{\beta}_1 将不再一致。多元线性回归通过引入多个解释变量来缓解这一问题。其次,SLR 假设 xxyy 的关系是线性的,当真实关系为非线性时,可通过变量变换(如取对数或平方项)来扩展模型。此外,SLR 在处理异方差性自相关内生性问题时的能力有限,需要更复杂的广义最小二乘法(GLS)或工具变量法(IV)等方法来应对。

SLR 是统计学习和机器学习中所有线性模型的根基。正则化回归(如岭回归Lasso)的核心思想可视为在 OLS 的基础上加入了惩罚项,而逻辑回归则将其推广至分类问题。深刻理解 SLR 的原理是掌握更高级建模技术的前提。

实际应用案例

SLR 在经济学、社会科学和自然科学中有着广泛的应用。在经济学中,研究者常用 SLR 分析教育年限对工资收入的影响,其中教育年限为自变量 xx,工资收入为因变量 yy。在金融学中,资本资产定价模型(CAPM)本质上是一个 SLR 模型,将个股收益率对市场组合收益率进行回归,斜率即为贝塔系数,衡量系统性风险。在农业经济学中,施肥量与作物产量之间的关系也可通过 SLR 初步建模。

与多元回归的关系

SLR 是多元线性回归(Multiple Linear Regression, MLR)的特例。当 MLR 中只有一个解释变量时,两者完全等价。理解 SLR 有助于掌握 MLR 的核心概念,包括偏回归系数、多重共线性和调整 R2R^2 等。MLR 中每个解释变量的系数衡量的是在控制其他变量不变的情况下该变量的边际效应,而 SLR 中的系数则衡量的是简单总效应。两者差异的大小反映了遗漏变量偏误的严重程度。