ARTICLE

简单回归模型

简单回归模型 简单回归模型(Simple Regression Model)是计量经济学中最基础的分析工具,用于刻画一个因变量(被解释变量)与一个自变量(解释变量)之间的线性关系。其总体回归函数可写为: 其中, y 为因变量, x 为自变量, _0 为截距参数, _1 为斜率参数, u 为误差项(或称扰动项),代表除 x 以外影响 y 的所有不可观测因素。

浏览 0 更新 2025-07-16

简单回归模型

简单回归模型(Simple Regression Model)是计量经济学中最基础的分析工具,用于刻画一个因变量(被解释变量)与一个自变量(解释变量)之间的线性关系。其总体回归函数可写为:

y=β0+β1x+uy = \beta_0 + \beta_1 x + u

其中,y y 为因变量,x x 为自变量,β0 \beta_0 为截距参数,β1 \beta_1 为斜率参数,u u 为误差项(或称扰动项),代表除 x x 以外影响 y y 的所有不可观测因素。β1 \beta_1 是研究者最关心的参数,它衡量 x x y y 的边际效应——即 x x 每变动一个单位,y y 平均变动 β1 \beta_1 个单位。例如,在考察教育年限对工资影响的经典问题中,y y 可设为工资对数,x x 为受教育年限,则 β1 \beta_1 表示多受一年教育所带来的工资百分比变化。

核心假设

为使普通最小二乘法(OLS)估计量具有良好的统计性质,简单回归模型需要满足若干关键假设:

  1. 线性于参数:模型在参数 β0 \beta_0 β1 \beta_1 上是线性的,但变量本身允许进行非线性变换(如取对数、平方或交互项形式),只要变换后的模型仍保持参数线性即可。这一假设保证了 OLS 估计量的代数可解性。
  2. 随机抽样:样本 {(xi,yi):i=1,,n} \{(x_i, y_i): i = 1, \dots, n\} 从总体中独立同分布地随机抽取,确保样本能够代表总体特征。时间序列数据通常不满足此假设,需借助其他假设进行推断。
  3. 零条件均值E(ux)=0 E(u \mid x) = 0 ,即给定 x x 时误差项的均值为零。这意味着 x x 与误差项 u u 不相关,所有影响 y y 且未被模型捕捉的因素与 x x 完全无关。这一假设是 OLS 无偏性的核心前提,一旦违反将导致估计量有偏。在实证研究中,违反零条件均值假设的最常见情形包括遗漏变量偏误、测量误差和反向因果。
  4. 样本变异x x 在样本中不能是常数,即 i=1n(xixˉ)2>0 \sum_{i=1}^{n}(x_i - \bar{x})^2 > 0 。若 x x 没有变异,则无法识别 x x y y 之间的关系,OLS 估计量不存在。
  5. 同方差性(可选):Var(ux)=σ2 Var(u \mid x) = \sigma^2 ,即误差项的条件方差为常数。若不满足此假设,OLS 虽仍无偏且一致,但不再是有效的,需使用异方差稳健标准误加以修正。这一假设对系数的点估计无影响,只影响标准误的估计。

上述假设中,零条件均值假设最为关键,也最难验证,因为误差项 u u 不可观测。实证研究中,研究者常通过控制更多变量或使用工具变量方法来尽量满足该假设。

普通最小二乘法(OLS)

OLS 通过最小化残差平方和来估计未知参数:

minβ^0,β^1i=1n(yiβ^0β^1xi)2\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2

求解一阶条件可得到闭式解:

β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=Cov^(x,y)Var^(x),β^0=yˉβ^1xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{\widehat{Cov}(x, y)}{\widehat{Var}(x)}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

其中 β^1 \hat{\beta}_1 的分子为 x x y y 的样本协方差,分母为 x x 的样本方差。OLS 估计量具有明确的代数表达式和直观的经济含义:x x y y 的正向共变越强,β^1 \hat{\beta}_1 越大;x x 自身变异越大,β^1 \hat{\beta}_1 的估计越精确。β^0 \hat{\beta}_0 则保证了回归直线通过样本均值点 (xˉ,yˉ) (\bar{x}, \bar{y}) 。从几何角度看,OLS 估计得到的回归直线是所有可能直线中与样本数据点距离之和最小的一条,因而具有最优的样本内拟合特性。

OLS 的一阶条件蕴含两个重要性质:第一,残差之和为零,即 i=1nu^i=0 \sum_{i=1}^{n} \hat{u}_i = 0 ;第二,残差与自变量 x x 的样本协方差为零,即 i=1nxiu^i=0 \sum_{i=1}^{n} x_i \hat{u}_i = 0 。这两条性质由正规方程组直接导出,是后续诊断检验和模型扩展的基础。

统计性质

在假设 1—3 成立的条件下,OLS 估计量是无偏的:E(β^0)=β0 E(\hat{\beta}_0) = \beta_0 E(β^1)=β1 E(\hat{\beta}_1) = \beta_1 。这意味着在重复抽样意义下,OLS 的平均估计值等于真实参数值,不存在系统性偏差。此外,在大样本条件下,OLS 还满足一致性:当样本量趋于无穷时,β^1 \hat{\beta}_1 依概率收敛到 β1 \beta_1 。若进一步假设同方差性,则可推导出 OLS 估计量的抽样方差:

Var(β^1x)=σ2i=1n(xixˉ)2Var(\hat{\beta}_1 \mid x) = \frac{\sigma^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}

该方差公式表明:误差方差 σ2 \sigma^2 越小、x x 的样本变异越大、样本量 n n 越大,β^1 \hat{\beta}_1 的估计就越精确。误差方差 σ2 \sigma^2 的估计量为 σ^2=SSR/(n2) \hat{\sigma}^2 = SSR / (n - 2) ,其中分母使用 n2 n-2 是自由度校正。在此基础上,高斯-马尔可夫定理指出,在全部线性无偏估计量中,OLS 的方差最小,即 OLS 是 BLUE(Best Linear Unbiased Estimator,最优线性无偏估计量)。这一定理是 OLS 在经典假设下占据核心地位的理论基础。

假设检验与推断

在正态性假设或大样本条件下,可构建 t t 统计量对 β1 \beta_1 进行假设检验:

tβ^1=β^1β10se(β^1)tn2t_{\hat{\beta}_1} = \frac{\hat{\beta}_1 - \beta_1^0}{se(\hat{\beta}_1)} \sim t_{n-2}

最常见的检验是原假设 H0:β1=0 H_0: \beta_1 = 0 ,即 x x y y 无解释能力。若 t t 统计量的绝对值超过临界值(如 5\% 显著性水平下约 1.96),则拒绝原假设,认为 x x y y 存在统计上显著的线性关系。同样可构造 β1 \beta_1 的置信区间:β^1±tα/2se(β^1) \hat{\beta}_1 \pm t_{\alpha/2} \cdot se(\hat{\beta}_1) ,该区间以 1α 1-\alpha 的概率覆盖真实参数值。实践中,多数统计软件直接输出 p p 值,研究者据此判断显著性水平。需要特别注意的是,统计显著性并不等同于经济显著性——即使 β^1 \hat{\beta}_1 在统计上高度显著,其实际影响幅度也可能极小而无实际经济意义。因此,实证研究应同时关注效应量的大小和置信区间的宽度。

除单参数检验外,还可通过 F F 检验(在多元回归中)对多个参数的联合显著性进行检验。在简单回归中,F F 统计量恰好等于 t t 统计量的平方,二者检验结果等价。回归结果的报告通常包括估计系数、标准误、t t 值或 p p 值,以及 R2 R^2 和样本量,以便读者全面评估模型的可靠性和解释力。

拟合优度

判定系数 R2 R^2 衡量回归模型对样本数据的拟合程度:

R2=SSESST=1SSRSSTR^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}

其中 SST=(yiyˉ)2 SST = \sum(y_i - \bar{y})^2 为总平方和,SSE=(y^iyˉ)2 SSE = \sum(\hat{y}_i - \bar{y})^2 为回归平方和,SSR=(yiy^i)2 SSR = \sum(y_i - \hat{y}_i)^2 为残差平方和。R2 R^2 取值在 0 到 1 之间,越接近 1 表示模型解释力越强。但需注意,R2 R^2 不能作为模型选择的唯一标准——高 R2 R^2 可能源于过拟合或虚假回归,研究者应结合经济理论和变量显著性综合判断。在简单回归中,R2 R^2 的平方根恰好是 x x y y 的样本相关系数。

简单回归的局限与扩展

简单回归模型在实践中有明显的局限性。首先,它只包含一个解释变量,而现实中 y y 通常受多个因素共同影响——若遗漏的重要变量与 x x 相关,β^1 \hat{\beta}_1 将产生遗漏变量偏误,其方向取决于遗漏变量与 x x y y 的相关方向。其次,简单回归假设 x x u u 不相关,但经济数据中常存在反向因果(如教育年限与工资之间,能力更强的人可能既受教育更多又工资更高)或测量误差,导致内生性问题。因此,简单回归更适合作为探索性分析的起点,而非因果推断的最终工具。在此基础上引入多个解释变量即得到多元回归模型,后者可以更好地控制混杂因素,是实证研究的标准方法。对简单回归模型的深入理解是学习更高级计量方法(如面板数据模型、工具变量法)的必要前提。

关键术语

| 中文 | 英文 | |------|------| | 因变量 | Dependent Variable | | 自变量 | Independent Variable | | 误差项 | Error Term | | 截距参数 | Intercept Parameter | | 斜率参数 | Slope Parameter | | 普通最小二乘法 | Ordinary Least Squares (OLS) | | 无偏性 | Unbiasedness | | 一致性 | Consistency | | 同方差性 | Homoskedasticity | | 异方差性 | Heteroskedasticity | | 高斯-马尔可夫定理 | Gauss-Markov Theorem | | 最优线性无偏估计量 | Best Linear Unbiased Estimator (BLUE) | | 判定系数 | Coefficient of Determination (R2 R^2 ) | | 拟合优度 | Goodness of Fit | | 遗漏变量偏误 | Omitted Variable Bias | | 假设检验 | Hypothesis Testing | | 置信区间 | Confidence Interval | | 标准误 | Standard Error | | 内生性 | Endogeneity | | 反向因果 | Reverse Causality |