ARTICLE

样本回归模型

样本回归模型 (Sample Regression Model) 样本回归模型(Sample Regression Model, SRM)是计量经济学中用以刻画样本数据中因变量与解释变量之间统计关系的核心分析框架。与描述总体真实关系的总体回归模型(Population Regression Model, PRM)不同,样本回归模型完全基于研究者实际观测到的有

浏览 0 更新 2025-11-08

样本回归模型 (Sample Regression Model)

样本回归模型(Sample Regression Model, SRM)是计量经济学中用以刻画样本数据因变量解释变量之间统计关系的核心分析框架。与描述总体真实关系的总体回归模型(Population Regression Model, PRM)不同,样本回归模型完全基于研究者实际观测到的有限样本进行构建,是总体回归模型的样本类比(sample analogue)。在实证分析中,总体回归函数(Population Regression Function, PRF)通常是未知且不可直接观测的,研究者只能利用手头掌握的样本数据估计出样本回归函数(Sample Regression Function, SRF),并以此为桥梁推断总体特征。这一"用样本推断总体"的思想贯穿了整个推断统计学计量经济学的方法论体系。

形式化定义

给定一个包含 nn 个观测值的随机样本 {(Yi,Xi1,Xi2,,Xik)}i=1n\{ (Y_i, X_{i1}, X_{i2}, \dots, X_{ik}) \}_{i=1}^{n},样本回归模型的一般形式为:

Yi=β^0+β^1Xi1+β^2Xi2++β^kXik+ε^iY_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \hat{\beta}_2 X_{i2} + \cdots + \hat{\beta}_k X_{ik} + \hat{\varepsilon}_i

其中 β^j\hat{\beta}_jj=0,1,,kj = 0, 1, \dots, k)是根据样本数据计算出的回归系数估计值ε^i=YiY^i\hat{\varepsilon}_i = Y_i - \hat{Y}_i 称为残差(residual),是样本回归模型对第 ii 个观测值的拟合误差。上式右侧除残差项之外的部分 Y^i=β^0+β^1Xi1++β^kXik\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \cdots + \hat{\beta}_k X_{ik} 称为样本回归函数(Sample Regression Function, SRF),它给出了给定解释变量取值条件下因变量的样本条件均值估计。换言之,SRF 是 PRF 在样本空间中的经验对应物。

在矩阵形式下,样本回归模型可简洁表示为:

Y=Xβ^+ε^\mathbf{Y} = \mathbf{X} \hat{\boldsymbol{\beta}} + \hat{\boldsymbol{\varepsilon}}

其中 Y\mathbf{Y}n×1n \times 1 因变量向量,X\mathbf{X}n×(k+1)n \times (k+1) 解释变量矩阵(含常数项),β^\hat{\boldsymbol{\beta}}(k+1)×1(k+1) \times 1 系数估计向量,ε^\hat{\boldsymbol{\varepsilon}}n×1n \times 1 残差向量。这一矩阵表示方法便于进行理论推导和计算实现,是高级计量经济学课程的标配工具。

与总体回归模型的区别

理解样本回归模型的关键在于严格区分其与总体回归模型的概念差异。总体回归模型定义为 Yi=β0+β1Xi1++βkXik+εiY_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + \varepsilon_i,其中 βj\beta_j 是固定但未知的总体参数(population parameters),εi\varepsilon_i 是不可观测的随机误差项(random error term)。而样本回归模型使用 β^j\hat{\beta}_j(估计量)取代 βj\beta_j(真值),使用可计算的 ε^i\hat{\varepsilon}_i(残差)取代不可观测的 εi\varepsilon_i(误差项)。这一替代过程是统计推断的核心机制:估计量 β^j\hat{\beta}_j 是总体参数 βj\beta_j 的随机变量函数,其抽样分布(sampling distribution)决定了推断的精度与可靠性。

两者之间的核心联系在于:在经典假设下,β^j\hat{\beta}_jβj\beta_j无偏估计量(即 E[β^j]=βj\mathbb{E}[\hat{\beta}_j] = \beta_j),样本回归函数是对总体回归函数的一致估计。然而,由于抽样误差的存在,β^j\hat{\beta}_jβj\beta_j 之间必然存在偏差,这种偏差的分布特性——即估计量的方差和一致性收敛速度——决定了统计推断的有效性。当样本量 nn 趋于无穷大时,β^j\hat{\beta}_j 依概率收敛于 βj\beta_j,样本回归模型趋近于总体回归模型。

基本假设

样本回归模型的有效性依赖于一系列基本假设,这些假设构成了经典线性回归模型(Classical Linear Regression Model, CLRM)的基础:(1) 线性性——因变量与解释变量之间呈线性关系;(2) 严格外生性——误差项的条件均值为零,即 E[εiX]=0\mathbb{E}[\varepsilon_i | \mathbf{X}] = 0;(3) 同方差性——误差项具有恒定方差,Var(εiX)=σ2\operatorname{Var}(\varepsilon_i | \mathbf{X}) = \sigma^2;(4) 无自相关——不同观测值的误差项之间不相关;(5) 解释变量的非随机性或与误差项独立;(6) 无完全多重共线性——解释变量之间不存在精确线性关系。当这些假设满足时,OLS 估计量具有 BLUE 性质,样本回归模型提供可靠的推断基础。当假设被违反时,需要采用相应的修正方法。

估计方法

样本回归模型最常用的估计方法是普通最小二乘法(Ordinary Least Squares, OLS),其核心思想是选择 β^\hat{\boldsymbol{\beta}} 使得残差平方和最小化:

β^OLS=argminβi=1nε^i2=argminβ(YXβ)(YXβ)\hat{\boldsymbol{\beta}}_{\text{OLS}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} \hat{\varepsilon}_i^2 = \arg\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})

求解一阶条件可得 OLS 估计量的闭式表达式:

β^OLS=(XX)1XY\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{Y}

高斯-马尔可夫定理(Gauss-Markov Theorem)的条件下,OLS 估计量是所有线性无偏估计量中方差最小的(即BLUE——Best Linear Unbiased Estimator)。当经典假设不成立时(如存在异方差性自相关),研究者可转向广义最小二乘法(Generalized Least Squares, GLS)或使用稳健标准误(robust standard errors)进行修正。对于存在内生性的问题,则需采用工具变量法(Instrumental Variables, IV)或两阶段最小二乘法(Two-Stage Least Squares, 2SLS)进行估计。此外,最大似然估计(MLE)和广义矩估计(GMM)也是重要的替代估计方法。

模型诊断与评价

样本回归模型构建完成后,需要进行系统的诊断与评价。拟合优度方面,判定系数 R2R^2 衡量模型对样本数据的整体解释能力:

R2=1ε^i2(YiYˉ)2R^2 = 1 - \frac{\sum \hat{\varepsilon}_i^2}{\sum (Y_i - \bar{Y})^2}

R2R^2 介于 0 和 1 之间,值越大表示模型对样本变异的解释比例越高。但 R2R^2 会随解释变量个数的增加而自动上升,因此调整后的 R2R^2(Adjusted R2R^2)对模型复杂度进行了惩罚,防止过度拟合。统计推断方面,对单个系数的显著性检验使用 t 检验,对模型整体显著性使用F检验。此外,还需检验模型假设是否满足:残差的正态性(Jarque-Bera检验)、方差齐性(Breusch-Pagan检验或White检验)、独立性(Durbin-Watson检验或Breusch-Godfrey检验)、线性函数形式(Ramsey RESET检验)、以及是否存在多重共线性(方差膨胀因子 VIF)。这些诊断工具共同构成了一个完整模型验证体系。

样本回归模型的应用意义

样本回归模型是实证经济研究的基石。从微观层面的工资方程估计、教育回报率计算、消费行为分析,到宏观层面的经济增长回归、货币政策效应评估、发展经济学中的跨国比较分析,绝大多数计量分析都以样本回归模型为起点。它提供了一种系统化、可重复的方法,从嘈杂的数据中提取信号、量化变量间的偏效应,并为统计推断和假设检验提供严谨的概率基础。

然而,研究者也必须清醒地认识到样本回归模型的局限性:其一,它只能揭示统计相关性(statistical association),不能直接证明因果关系(causal relationship),除非有严格的研究设计支撑;其二,估计结果高度依赖于模型设定的正确性,包括函数形式的选择、相关变量的纳入与遗漏、以及误差项假设的合理性;其三,样本的代表性直接影响结论的外部有效性(external validity),非随机样本或选择性偏差可能导致严重的估计偏误;其四,过度拟合(overfitting)风险随着模型复杂度的增加而上升。

在现代计量经济学中,样本回归模型已从基本的线性框架延伸至更为丰富的方法论体系,包括非线性回归模型面板数据模型(固定效应与随机效应)、离散选择模型(Logit与Probit)、工具变量回归分位数回归、以及非参数与半参数回归等。但无论方法如何演进,样本回归模型的核心逻辑——利用有限的样本信息推断总体的未知特征——始终是实证研究的灵魂所在。