ARTICLE

线性回归模型

线性回归模型 (Linear Regression Model) 线性回归模型是一种基本的、也是应用最广泛的统计学和计量经济学分析工具,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的线性关系。其核心目标是建立一个数学方程,用以描述和预测因变量如何随自变量的变化而变化。该模型在经

浏览 52 更新 2025-10-26

线性回归模型 (Linear Regression Model)

线性回归模型是一种基本的、也是应用最广泛的统计学计量经济学分析工具,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的线性关系。其核心目标是建立一个数学方程,用以描述和预测因变量如何随自变量的变化而变化。该模型在经济学、金融学、社会科学和机器学习等领域都有着至关重要的作用。

线性回归分析试图回答以下类型的问题:

  • 两个或多个变量之间是否存在显著关系?
  • 关系的强度有多大?
  • 我们能否利用一个或多个变量的值来预测另一个变量的值?

需要特别指出的是,线性回归模型本身揭示的是变量间的相关性,而非必然的因果关系。建立因果推断需要更严格的理论假设和模型设定。

模型构成与数学表达

一个线性回归模型主要由四个部分构成:因变量、自变量、参数误差项

  1. 因变量 (Dependent Variable):也称为被解释变量或响应变量,通常用 Y Y 表示。这是我们试图解释或预测的变量。
  2. 自变量 (Independent Variable(s)):也称为解释变量、预测变量或回归元,通常用 X X 表示。这些是我们用来解释或预测因变量 Y Y 的变量。
  3. 参数 (Parameters):也称为系数 (Coefficients),通常用希腊字母 β \beta 表示。这些参数是模型的未知常数,代表了自变量对因变量影响的大小和方向。我们的目标就是估计这些参数。
  4. 误差项 (Error Term):也称为扰动项,通常用 ϵ \epsilon (epsilon) 表示。它代表了除模型中包含的自变量外,所有其他未被观测到的、影响因变量 Y Y 的因素的总和,也包括测量误差和纯粹的随机性。

简单线性回归 (Simple Linear Regression)

当模型中只有一个自变量时,称为简单线性回归。其总体模型(Population Regression Function)表达式为:

Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i

其中:

  • Yi Y_i 是第 i i 个观测值的因变量。
  • Xi X_i 是第 i i 个观测值的自变量。
  • β0 \beta_0 截距 (Intercept),表示当自变量 X X 为0时,因变量 Y Y 的期望值。
  • β1 \beta_1 斜率 (Slope),表示当自变量 X X 变化一个单位时,因变量 Y Y 的期望变化量。这是衡量 X X Y Y 影响的核心参数。
  • ϵi \epsilon_i 是与第 i i 个观测值相关联的误差项。

多元线性回归 (Multiple Linear Regression)

当模型中包含两个或更多自变量时,称为多元线性回归。其总体模型表达式为:

Yi=β0+β1X1i+β2X2i++βkXki+ϵiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i

其中:

  • k k 是自变量的数量。
  • βj \beta_j (对于 j=1,,k j=1, \dots, k ) 是第 j j 个自变量的系数。它表示在保持其他所有自变量不变(ceteris paribus的情况下,该自变量 Xj X_j 变化一个单位,因变量 Y Y 的期望变化量。
  • 在更高阶的表述中,多元线性回归常使用矩阵形式表示:Y=Xβ+ϵ Y = X\beta + \epsilon

普通最小二乘法 (Ordinary Least Squares, OLS)

在获得了样本数据后,我们需要一个方法来估计模型中的未知参数 β0,β1,,βk \beta_0, \beta_1, \dots, \beta_k 。最常用的估计方法是普通最小二乘法 (Ordinary Least Squares, OLS)

OLS的核心思想是,选择一组参数估计值(用 β0^,β1^,,βk^ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_k} 表示),使得观测值 Yi Y_i 与模型预测值 Yi^ \hat{Y_i} 之间的离差平方和(Sum of Squared Residuals, SSR)最小化。

预测值 Yi^ \hat{Y_i} 由回归方程给出:

Yi^=β0^+β1^X1i++βk^Xki\hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} X_{1i} + \dots + \hat{\beta_k} X_{ki}

残差 (Residual) ei e_i 定义为观测值与预测值之差:

ei=YiYi^e_i = Y_i - \hat{Y_i}

OLS的目标就是选择 β^ \hat{\beta} 使得残差平方和最小:

minβ0^,,βk^i=1nei2=minβ0^,,βk^i=1n(YiYi^)2\min_{\hat{\beta_0}, \dots, \hat{\beta_k}} \sum_{i=1}^{n} e_i^2 = \min_{\hat{\beta_0}, \dots, \hat{\beta_k}} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2

通过求解这个最小化问题(通常使用微积分求导),我们可以得到参数的估计值。

经典线性模型的基本假设

为了保证OLS估计量具有良好的统计性质(如无偏、有效),模型需要满足一系列假设,这些假设合称为高斯-马尔可夫假设 (Gauss-Markov Assumptions)

  1. 参数线性 (Linearity in Parameters):模型在参数上是线性的。
  2. 随机抽样 (Random Sampling):样本数据是从总体中随机抽取的。
  3. 不存在完全多重共线性 (No Perfect Multicollinearity):在多元回归中,任何一个自变量都不能是其他自变量的完美线性组合。
  4. 误差项的零条件均值 (Zero Conditional Mean)E(ϵX1,,Xk)=0 E(\epsilon | X_1, \dots, X_k) = 0 。这是最关键的假设,它意味着误差项的期望值与所有自变量的值无关。满足此条件时,自变量被称为外生性 (Exogenous)。若此假设不满足,则可能存在内生性 (Endogeneity)问题,导致OLS估计量有偏。
  5. 同方差性 (Homoscedasticity):给定任意自变量的值,误差项的方差都是一个常数 σ2 \sigma^2 。即 Var(ϵX1,,Xk)=σ2 Var(\epsilon | X_1, \dots, X_k) = \sigma^2 。如果方差随自变量变化而变化,则称为异方差性 (Heteroscedasticity)

如果以上五个假设全部成立,根据高斯-马尔可夫定理,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。这意味着在所有线性的、无偏的估计量中,OLS估计量具有最小的方差。

  1. 误差项的正态性 (Normality of Error Terms):误差项独立于自变量,并且服从均值为0、方差为 σ2 \sigma^2 正态分布。这个假设对于证明BLUE不是必需的,但它对于在小样本下进行精确的假设检验(如t检验和F检验)非常重要。对于大样本,根据中心极限定理,通常可以放宽此假设。

模型评估与拟合优度

模型估计完成后,我们需要评估其解释能力和统计显著性。

  • 判定系数 (R2 R^2 , R-squared):也称拟合优度,衡量了模型中的自变量能够解释因变量总变异的百分比。R2 R^2 的取值范围在0和1之间,越接近1表示模型的解释能力越强。其计算公式为:
R2=ESSTSS=1SSRTSSR^2 = \frac{ESS}{TSS} = 1 - \frac{SSR}{TSS}

其中,TSS是总平方和,ESS是解释平方和,SSR是残差平方和。

  • 调整后R方 (Adjusted R2 R^2 ):在多元回归中,向模型中增加任何自变量(即使是无关的)都会使 R2 R^2 上升或不变。调整后R2 R^2 对模型中自变量的数量施加了“惩罚”,是一个更公允的跨模型比较指标。
  • 回归标准误 (Standard Error of the Regression, SER):衡量了样本点在回归线周围的平均离散程度,是模型预测误差大小的典型度量。

假设检验与统计推断

我们不仅关心参数的点估计值,更关心这些估计值是否在统计上显著,以及它们的精确度。

  • t检验 (t-test):用于检验单个回归系数的统计显著性。最常见的原假设是 H0:βj=0 H_0: \beta_j = 0 ,即某个自变量对因变量没有影响。通过计算t统计量并比较其与临界值或考察其对应的p值 (p-value),我们可以决定是否拒绝原假设。
  • F检验 (F-test):用于检验模型中所有自变量的联合显著性。其原假设是 H0:β1=β2==βk=0 H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0 ,即所有自变量都对因变量没有解释能力。
  • 置信区间 (Confidence Interval):提供了参数真实值的区间估计。例如,一个95\%的置信区间意味着,如果我们反复进行抽样和估计,有95\%的概率这样构造的区间会包含真实的总体参数。它反映了我们估计的不确定性程度。