ARTICLE

一元线性回归模型

一元线性回归模型 (Simple Linear Regression Model) 一元线性回归模型是回归分析中最基础且核心的统计模型，用于研究两个变量之间的线性依存关系。该模型通过建立单个自变量（解释变量）与因变量（被解释变量）之间的线性关系，实现对经济、金融、社会科学等领域中变量间因果关系的量化分析。作为计量经济学和统计学的入门模型，一元线性回归不仅为理

浏览 2 更新 2025-11-08

一元线性回归模型 (Simple Linear Regression Model)

一元线性回归模型是回归分析中最基础且核心的统计模型，用于研究两个变量之间的线性依存关系。该模型通过建立单个自变量（解释变量）与因变量（被解释变量）之间的线性关系，实现对经济、金融、社会科学等领域中变量间因果关系的量化分析。作为计量经济学和统计学的入门模型，一元线性回归不仅为理解更复杂的多元回归奠定基础，其本身也构成了假设检验、区间估计和预测分析的重要实践场景。

模型的基本形式与术语

一元线性回归模型的总体回归函数（Population Regression Function, PRF）可表述为：

Y_i = \beta_0 + \beta_1 X_i + u_i \quad (i = 1, 2, \ldots, n)

其中， $Y_i$ 为第 $i$ 个观测单位的因变量（如消费支出、股票价格）； $X_i$ 为自变量（如收入水平、市场指数）； $\beta_0$ 为截距项，表示当自变量取值为零时因变量的期望水平； $\beta_1$ 为斜率系数，衡量自变量每变动一个单位时因变量的平均变动量，即边际效应； $u_i$ 为误差项，代表所有未纳入模型的其他因素对 $Y_i$ 的综合影响； $n$ 为样本容量。

需要区分总体回归模型与样本回归模型。前者基于总体数据的理论关系，参数 $\beta_0$ 和 $\beta_1$ 是未知的固定常数；后者基于样本数据的估计关系，记为：

\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i

其中 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 分别为 $\beta_0$ 和 $\beta_1$ 的点估计， $\hat{Y}_i$ 为因变量的拟合值或预测值。实际观测值 $Y_i$ 与拟合值 $\hat{Y}_i$ 的差值称为残差，记为 $\hat{u}_i = Y_i - \hat{Y}_i$ ，它是对不可观测的误差项 $u_i$ 的样本估计。

经典线性回归假设

为保证普通最小二乘法（OLS）估计量具有良好的统计性质，必须满足以下高斯-马尔可夫假设：

假设1：线性于参数。模型在参数上是线性的，即 $Y_i = \beta_0 + \beta_1 X_i + u_i$ 。这意味着我们可以将模型写成参数的线性组合形式，尽管变量本身可以是非线性的。

假设2：随机抽样性。样本 $\{(X_i, Y_i)\}$ 是从总体中随机抽取的，且服从同一分布，保证样本的代表性和独立性。

假设3：解释变量的变异性。自变量的样本值 $X_i$ 不是完全相同的常数，即 $\sum_{i=1}^n (X_i - \bar{X})^2 > 0$ 。若 $X_i$ 无变异，则无法识别其对 $Y_i$ 的影响。

假设4：零条件均值。误差项的条件期望为零，即 $E(u_i | X_i) = 0$ 。这是最关键的解释性假设，意味着误差项与解释变量不相关。若此假设失败，将导致内生性问题，使得 $\hat{\beta}_1$ 产生偏误。

假设5：同方差性。给定 $X_i$ 时，误差项的方差为常数，即 $Var(u_i | X_i) = \sigma^2$ 。若方差随 $X_i$ 变化，则出现异方差，虽然不影响OLS估计量的无偏性，但会影响其有效性并导致标准误失效。

假设6：无自相关。对于任意 $i \neq j$ ，误差项之间相互独立，即 $Cov(u_i, u_j) = 0$ 。在时间序列数据中，此假设常被违背，形成自相关或序列相关，同样会影响标准误的有效性。

假设7：正态性（用于小样本推断）。对于小样本情况，通常追加假设 $u_i | X_i \sim N(0, \sigma^2)$ 。在大样本下，根据中心极限定理，无需此假设即可进行近似推断。

参数估计：普通最小二乘法

普通最小二乘法是估计一元线性回归参数最经典的方法。其核心思想是选择参数估计值 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ ，使得残差平方和（RSS）最小化：

\text{RSS} = \sum_{i=1}^n \hat{u}_i^2 = \sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2

通过求解一阶条件，可得OLS估计量的闭式解：

\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

其中 $\bar{X}$ 和 $\bar{Y}$ 分别为自变量和因变量的样本均值。斜率估计量 $\hat{\beta}_1$ 可以解读为 $X$ 与 $Y$ 的样本协方差与 $X$ 的样本方差之比，直观反映了两个变量的协同变异程度。

OLS估计量的统计性质

在满足高斯-马尔可夫假设的前提下，OLS估计量具有以下优良性质：

1. 无偏性。 $E(\hat{\beta}_0) = \beta_0$ 且 $E(\hat{\beta}_1) = \beta_1$ 。这意味着在重复抽样中，估计量的期望等于真实参数值。无偏性依赖于假设4，若存在遗漏变量偏误或测量误差，该性质将不成立。

2. 有效性（最小方差性）。在所有线性于 $Y_i$ 的无偏估计量中，OLS估计量具有最小的方差。这一结论即著名的高斯-马尔可夫定理，它确立了OLS估计的BLUE（Best Linear Unbiased Estimator）地位。

3. 一致性。当样本容量 $n \to \infty$ 时， $\hat{\beta}_1$ 依概率收敛于 $\beta_1$ ，即 $\text{plim}(\hat{\beta}_1) = \beta_1$ 。一致性要求稍弱的假设条件，在实证研究中至关重要。

OLS估计量的方差估计公式为：

Var(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^n (X_i - \bar{X})^2}, \quad Var(\hat{\beta}_0) = \frac{\sigma^2 \sum_{i=1}^n X_i^2}{n \sum_{i=1}^n (X_i - \bar{X})^2}

由于总体方差 $\sigma^2$ 未知，我们用其无偏估计量替代：

\hat{\sigma}^2 = \frac{\sum_{i=1}^n \hat{u}_i^2}{n-2}

其中除以 $n-2$ 是因为估计了两个参数而损失了两个自由度。

模型的拟合优度

拟合优度度量样本回归线对观测数据的拟合程度，主要通过判定系数 $R^2$ 来衡量：

R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}

其中， $TSS = \sum_{i=1}^n (Y_i - \bar{Y})^2$ 为总平方和，度量 $Y_i$ 的总变异； $ESS = \sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2$ 为解释平方和，度量由模型解释的变异； $RSS = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2$ 为残差平方和，度量未被解释的变异。 $R^2$ 的取值范围为 $[0, 1]$ ，越接近1表示拟合效果越好。在一元线性回归中， $R^2$ 恰好等于自变量与因变量样本相关系数的平方，即 $R^2 = r_{XY}^2$ 。

假设检验与统计推断

回归分析的核心目标不仅是估计参数，还需检验其统计显著性。

1. t检验。用于检验单个回归系数的显著性。原假设 $H_0: \beta_1 = 0$ 表示自变量对因变量无影响。检验统计量为：

t = \frac{\hat{\beta}_1 - \beta_1}{\text{SE}(\hat{\beta}_1)} \sim t_{n-2}

其中 $\text{SE}(\hat{\beta}_1) = \sqrt{Var(\hat{\beta}_1)}$ 是估计量的标准误。当 $|t| > t_{\alpha/2, n-2}$ 时，拒绝原假设，认为自变量影响显著。

2. 置信区间。 $\beta_1$ 的 $100(1-\alpha)\%$ 置信区间为：

\hat{\beta}_1 \pm t_{\alpha/2, n-2} \times \text{SE}(\hat{\beta}_1)

该区间提供了参数真实值可能的范围，比单纯报告点估计更有信息量。

3. 显著性水平与p值。p值是当原假设为真时，观察到当前或更极端检验统计量的概率。p值小于显著性水平（如0.05）时拒绝原假设，提供了判断显著性的连续尺度。

预测

回归模型的重要应用是预测。对于给定的自变量值 $X_0$ ，我们对因变量的预测分为两类：

1. 点预测。 $E(Y | X_0)$ 的预测值为 $\hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 X_0$ 。

2. 区间预测。由于存在抽样误差和随机扰动，需构建预测区间。 $Y_0$ 的 $100(1-\alpha)\%$ 预测区间为：

\hat{Y}_0 \pm t_{\alpha/2, n-2} \times \text{SE}_{\text{pred}}

其中 $\text{SE}_{\text{pred}}$ 包含参数估计误差和误差项方差两部分不确定性。预测区间比置信区间更宽，反映了预测未来单个值固有的更大不确定性。

模型诊断与常见问题

即使OLS估计具有理论最优性，仍需进行模型诊断：

1. 异方差检验。可通过Breusch-Pagan检验或White检验检验异方差性。若存在异方差，应使用稳健标准误进行修正。

2. 正态性检验。通过残差的直方图或Jarque-Bera检验验证误差项正态性假设。小样本下正态性假设对t检验的有效性至关重要。

3. 异常值影响。杠杆值和库克距离可用于识别对回归结果影响过大的异常观测点。

4. 函数形式误设。通过引入 $X_i^2$ 或交互项检验线性假设是否成立，或使用RESET检验（Regression Specification Error Test）。

应用示例与实证规范

在实证研究中，报告一元回归结果应遵循规范格式。例如研究教育回报率，估计方程为：

\ln(\text{wage}) = \beta_0 + \beta_1 \times \text{education} + u

结果报告应包含：系数估计值、括号内的标准误、 $R^2$ 、样本容量，以及显著性标记。例如：教育年限的系数为 $0.083^{\ast\ast\ast}$ （0.012）， $R^2 = 0.185$ ， $n = 1200$ 。其中三个星号表示在1\%水平上显著。这种标准化报告使读者能快速评估结果的稳健性与经济显著性。

模型的局限与扩展

一元线性回归的简洁性既是优点也是局限：

一、单一解释变量限制。现实经济现象通常受多因素影响，忽略重要变量会导致遗漏变量偏误，违背零条件均值假设。

二、线性关系假设。强制设定线性关系可能误设真实的非线性关系，导致模型设定偏误。

三、因果识别困难。观测数据回归仅揭示相关性，要推断因果关系需借助工具变量、双重差分等因果推断方法。

因此，一元模型常作为基准模型，后续应逐步扩展至多元线性回归，引入更多控制变量、固定效应和非线性项，以提高估计的准确性和因果解释力。理解一元线性回归的每个细节，是掌握现代实证经济学方法论的必经之路。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。