ARTICLE

线性回归模型

线性回归模型 (Linear Regression Model) 线性回归模型是一种基本的、也是应用最广泛的统计学和计量经济学分析工具，用于研究一个或多个自变量（Independent Variables）与一个因变量（Dependent Variable）之间的线性关系。其核心目标是建立一个数学方程，用以描述和预测因变量如何随自变量的变化而变化。该模型在经

浏览 52 更新 2025-10-26

线性回归模型 (Linear Regression Model)

线性回归模型是一种基本的、也是应用最广泛的统计学和计量经济学分析工具，用于研究一个或多个自变量（Independent Variables）与一个因变量（Dependent Variable）之间的线性关系。其核心目标是建立一个数学方程，用以描述和预测因变量如何随自变量的变化而变化。该模型在经济学、金融学、社会科学和机器学习等领域都有着至关重要的作用。

线性回归分析试图回答以下类型的问题：

两个或多个变量之间是否存在显著关系？
关系的强度有多大？
我们能否利用一个或多个变量的值来预测另一个变量的值？

需要特别指出的是，线性回归模型本身揭示的是变量间的相关性，而非必然的因果关系。建立因果推断需要更严格的理论假设和模型设定。

模型构成与数学表达

一个线性回归模型主要由四个部分构成：因变量、自变量、参数和误差项。

因变量 (Dependent Variable)：也称为被解释变量或响应变量，通常用 $Y$ 表示。这是我们试图解释或预测的变量。
自变量 (Independent Variable(s))：也称为解释变量、预测变量或回归元，通常用 $X$ 表示。这些是我们用来解释或预测因变量 $Y$ 的变量。
参数 (Parameters)：也称为系数 (Coefficients)，通常用希腊字母 $\beta$ 表示。这些参数是模型的未知常数，代表了自变量对因变量影响的大小和方向。我们的目标就是估计这些参数。
误差项 (Error Term)：也称为扰动项，通常用 $\epsilon$ (epsilon) 表示。它代表了除模型中包含的自变量外，所有其他未被观测到的、影响因变量 $Y$ 的因素的总和，也包括测量误差和纯粹的随机性。

简单线性回归 (Simple Linear Regression)

当模型中只有一个自变量时，称为简单线性回归。其总体模型（Population Regression Function）表达式为：

Y_i = \beta_0 + \beta_1 X_i + \epsilon_i

其中：

$Y_i$ 是第 $i$ 个观测值的因变量。
$X_i$ 是第 $i$ 个观测值的自变量。
$\beta_0$ 是截距 (Intercept)，表示当自变量 $X$ 为0时，因变量 $Y$ 的期望值。
$\beta_1$ 是斜率 (Slope)，表示当自变量 $X$ 变化一个单位时，因变量 $Y$ 的期望变化量。这是衡量 $X$ 对 $Y$ 影响的核心参数。
$\epsilon_i$ 是与第 $i$ 个观测值相关联的误差项。

多元线性回归 (Multiple Linear Regression)

当模型中包含两个或更多自变量时，称为多元线性回归。其总体模型表达式为：

Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \epsilon_i

其中：

$k$ 是自变量的数量。
$\beta_j$ (对于 $j=1, \dots, k$ ) 是第 $j$ 个自变量的系数。它表示在保持其他所有自变量不变（ceteris paribus）的情况下，该自变量 $X_j$ 变化一个单位，因变量 $Y$ 的期望变化量。
在更高阶的表述中，多元线性回归常使用矩阵形式表示： $Y = X\beta + \epsilon$ 。

普通最小二乘法 (Ordinary Least Squares, OLS)

在获得了样本数据后，我们需要一个方法来估计模型中的未知参数 $\beta_0, \beta_1, \dots, \beta_k$ 。最常用的估计方法是普通最小二乘法 (Ordinary Least Squares, OLS)。

OLS的核心思想是，选择一组参数估计值（用 $\hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_k}$ 表示），使得观测值 $Y_i$ 与模型预测值 $\hat{Y_i}$ 之间的离差平方和（Sum of Squared Residuals, SSR）最小化。

预测值 $\hat{Y_i}$ 由回归方程给出：

\hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} X_{1i} + \dots + \hat{\beta_k} X_{ki}

残差 (Residual) $e_i$ 定义为观测值与预测值之差：

e_i = Y_i - \hat{Y_i}

OLS的目标就是选择 $\hat{\beta}$ 使得残差平方和最小：

\min_{\hat{\beta_0}, \dots, \hat{\beta_k}} \sum_{i=1}^{n} e_i^2 = \min_{\hat{\beta_0}, \dots, \hat{\beta_k}} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2

通过求解这个最小化问题（通常使用微积分求导），我们可以得到参数的估计值。

经典线性模型的基本假设

为了保证OLS估计量具有良好的统计性质（如无偏、有效），模型需要满足一系列假设，这些假设合称为高斯-马尔可夫假设 (Gauss-Markov Assumptions)。

参数线性 (Linearity in Parameters)：模型在参数上是线性的。
随机抽样 (Random Sampling)：样本数据是从总体中随机抽取的。
不存在完全多重共线性 (No Perfect Multicollinearity)：在多元回归中，任何一个自变量都不能是其他自变量的完美线性组合。
误差项的零条件均值 (Zero Conditional Mean)： $E(\epsilon | X_1, \dots, X_k) = 0$ 。这是最关键的假设，它意味着误差项的期望值与所有自变量的值无关。满足此条件时，自变量被称为外生性 (Exogenous)。若此假设不满足，则可能存在内生性 (Endogeneity)问题，导致OLS估计量有偏。
同方差性 (Homoscedasticity)：给定任意自变量的值，误差项的方差都是一个常数 $\sigma^2$ 。即 $Var(\epsilon | X_1, \dots, X_k) = \sigma^2$ 。如果方差随自变量变化而变化，则称为异方差性 (Heteroscedasticity)。

如果以上五个假设全部成立，根据高斯-马尔可夫定理，OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。这意味着在所有线性的、无偏的估计量中，OLS估计量具有最小的方差。

误差项的正态性 (Normality of Error Terms)：误差项独立于自变量，并且服从均值为0、方差为 $\sigma^2$ 的正态分布。这个假设对于证明BLUE不是必需的，但它对于在小样本下进行精确的假设检验（如t检验和F检验）非常重要。对于大样本，根据中心极限定理，通常可以放宽此假设。

模型评估与拟合优度

模型估计完成后，我们需要评估其解释能力和统计显著性。

判定系数 ( $R^2$ , R-squared)：也称拟合优度，衡量了模型中的自变量能够解释因变量总变异的百分比。 $R^2$ 的取值范围在0和1之间，越接近1表示模型的解释能力越强。其计算公式为：

R^2 = \frac{ESS}{TSS} = 1 - \frac{SSR}{TSS}

其中，TSS是总平方和，ESS是解释平方和，SSR是残差平方和。

调整后R方 (Adjusted $R^2$ )：在多元回归中，向模型中增加任何自变量（即使是无关的）都会使 $R^2$ 上升或不变。调整后 $R^2$ 对模型中自变量的数量施加了“惩罚”，是一个更公允的跨模型比较指标。
回归标准误 (Standard Error of the Regression, SER)：衡量了样本点在回归线周围的平均离散程度，是模型预测误差大小的典型度量。

假设检验与统计推断

我们不仅关心参数的点估计值，更关心这些估计值是否在统计上显著，以及它们的精确度。

t检验 (t-test)：用于检验单个回归系数的统计显著性。最常见的原假设是 $H_0: \beta_j = 0$ ，即某个自变量对因变量没有影响。通过计算t统计量并比较其与临界值或考察其对应的p值 (p-value)，我们可以决定是否拒绝原假设。
F检验 (F-test)：用于检验模型中所有自变量的联合显著性。其原假设是 $H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0$ ，即所有自变量都对因变量没有解释能力。
置信区间 (Confidence Interval)：提供了参数真实值的区间估计。例如，一个95\%的置信区间意味着，如果我们反复进行抽样和估计，有95\%的概率这样构造的区间会包含真实的总体参数。它反映了我们估计的不确定性程度。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。