ARTICLE

简单线性回归模型

简单线性回归模型 (Simple Linear Regression Model) 简单线性回归模型是回归分析中最基础的模型形式,用于研究一个因变量(被解释变量)Y 与一个自变量(解释变量)X 之间的线性关系。模型形式为: 其中 _0 为截距项, _1 为斜率参数, _i 为随机误差项,n 为样本容量。该模型是计量经济学和统计学的入门核心,也是更复杂的多元线

浏览 6 更新 2025-10-26

简单线性回归模型 (Simple Linear Regression Model)

简单线性回归模型是回归分析中最基础的模型形式,用于研究一个因变量(被解释变量)YY 与一个自变量(解释变量)XX 之间的线性关系。模型形式为:

Yi=β0+β1Xi+εi,i=1,,nY_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad i = 1, \ldots, n

其中 β0\beta_0 为截距项,β1\beta_1 为斜率参数,εi\varepsilon_i 为随机误差项,nn 为样本容量。该模型是计量经济学统计学的入门核心,也是更复杂的多元线性回归模型的理论基础。

参数估计:普通最小二乘法

参数 β0\beta_0β1\beta_1 的最常用估计方法为普通最小二乘法(OLS)。OLS 最小化残差平方和:

minβ0,β1i=1n(Yiβ0β1Xi)2\min_{\beta_0, \beta_1} \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i)^2

求解一阶条件得到 OLS 估计量:

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2,β^0=Yˉβ^1Xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

其中 Xˉ\bar{X}Yˉ\bar{Y} 分别为样本均值。β^1\hat{\beta}_1 表示 XX 每变动一个单位时 YY 的平均变动量。

经典假设与高斯-马尔可夫定理

在以下经典假设下,OLS 估计量为BLUE(最佳线性无偏估计量):

  1. 线性性:模型关于参数是线性的。
  1. 随机抽样:样本 (Xi,Yi)(X_i, Y_i) 独立同分布地来自总体。
  1. 零条件均值E(εiXi)=0\mathbb{E}(\varepsilon_i \mid X_i) = 0,即误差项与解释变量不相关。
  1. 同方差性Var(εiXi)=σ2\operatorname{Var}(\varepsilon_i \mid X_i) = \sigma^2 对所有 ii 成立。
  1. 无完全共线性XX 存在样本变异,(XiXˉ)20\sum (X_i - \bar{X})^2 \neq 0

高斯-马尔可夫定理保证在上述条件下,OLS 估计量在所有线性无偏估计量中具有最小方差。

模型评估

模型的拟合优度由决定系数 R2R^2 衡量:

R2=(Y^iYˉ)2(YiYˉ)2=1ε^i2(YiYˉ)2R^2 = \frac{\sum (\hat{Y}_i - \bar{Y})^2}{\sum (Y_i - \bar{Y})^2} = 1 - \frac{\sum \hat{\varepsilon}_i^2}{\sum (Y_i - \bar{Y})^2}

R2R^2 取值在 0 到 1 之间,越接近 1 说明模型拟合越好。斜率参数的显著性通过t检验进行:H0:β1=0H_0: \beta_1 = 0H1:β10H_1: \beta_1 \neq 0,检验统计量为 t=β^1/SE(β^1)t = \hat{\beta}_1 / \operatorname{SE}(\hat{\beta}_1)。若 t>tα/2,n2|t| > t_{\alpha/2, n-2},则在显著性水平 α\alpha 下拒绝原假设,认为 XXYY 有显著影响。

应用与局限

简单线性回归广泛用于经济学中的需求分析、金融学中的资产定价以及社会科学中的因果推断初探。其核心局限在于仅能处理单一解释变量,遗漏变量偏差是主要威胁:若真实模型包含多个相关变量而仅使用简单回归,则 β^1\hat{\beta}_1 可能是有偏估计量且不一致。当需要控制多个因素时,需推广至多元线性回归模型。尽管如此,简单线性回归模型以其简洁性和可解释性,是统计建模和计量分析的逻辑起点。