ARTICLE

样本回归函数

样本回归函数 (Sample Regression Function) 样本回归函数(Sample Regression Function, SRF)是计量经济学中根据观测样本数据拟合得到的回归方程,其根本目的在于对未知的总体回归函数(Population Regression Function, PRF)进行估计。在经典线性回归模型的框架下,总体回归函数刻

浏览 5 更新 2025-10-26

样本回归函数 (Sample Regression Function)

样本回归函数(Sample Regression Function, SRF)是计量经济学中根据观测样本数据拟合得到的回归方程,其根本目的在于对未知的总体回归函数(Population Regression Function, PRF)进行估计。在经典线性回归模型的框架下,总体回归函数刻画了因变量 YY 关于解释变量 XX 的条件期望 E(YX)E(Y \mid X),而样本回归函数则是利用有限样本对这一条件期望的近似估计。SRF 与 PRF 之间的关系是整个回归分析推断逻辑的基石,也是理解统计推断中估计量与真实参数之间关系的核心线索。

形式与构造

设总体模型为 Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i,其中 β0\beta_0β1\beta_1 是未知的总体参数(即回归系数),uiu_i随机误差项,满足零条件均值假设 E(uX)=0E(u \mid X) = 0。基于一个大小为 nn 的随机样本 {(Xi,Yi)}i=1n\{(X_i, Y_i)\}_{i=1}^n,我们可以通过某种估计方法(最常用的是普通最小二乘法,OLS)获得总体参数的样本估计值 β^0\hat{\beta}_0β^1\hat{\beta}_1,进而构造样本回归函数:

Y^i=β^0+β^1Xi\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i

其中 Y^i\hat{Y}_i 表示给定 XiX_iYY 的拟合值(或称预测值)。实际观测值 YiY_i 与拟合值 Y^i\hat{Y}_i 之间的差被称为残差 u^i=YiY^i\hat{u}_i = Y_i - \hat{Y}_i。一个关键的概念区分在于:残差 u^i\hat{u}_i 是误差项 uiu_i 的样本实现,两者在概念上截然不同——误差项是总体中不可观测的随机扰动,而残差是基于样本计算得出的可观测量。这一区分对于理解诊断检验(如异方差性检验和自相关检验)至关重要。

SRF 与 PRF 的本质区别

总体回归函数 PRF 是一种理论上的、非随机的真实关系,它描述了在解释变量给定条件下因变量的平均行为。样本回归函数 SRF 则是从特定样本中计算得到的、依赖于样本的随机估计。由于样本具有抽样变异性,不同样本会得出不同的 SRF 估计结果。因此,SRF 是 PRF 的一个估计量,其估计精度由抽样误差和样本量共同决定。在高斯-马尔可夫定理的五条经典假设条件下,OLS 估计量 β^0\hat{\beta}_0β^1\hat{\beta}_1最佳线性无偏估计量(BLUE),这意味着在一切线性无偏估计量中,OLS 估计量的方差最小,从而 SRF 在估计 PRF 时具有最高的精度。然而,当这些假设(如同方差性、无自相关等)被违反时,BLUE 性质不再成立,研究者需要采用广义最小二乘法稳健标准误等方法加以修正。

拟合优度与模型评估

SRF 对真实数据点的拟合程度通常由判定系数 R2R^2 来衡量。R2R^2 度量了 SRF 所解释的因变量总变异的比例,其取值范围在 0 到 1 之间。R2R^2 越接近 1,说明 SRF 对样本数据的拟合程度越好。但 R2R^2 本身存在固有缺陷:增加更多解释变量(无论这些变量是否真正相关)必然提高 R2R^2,因此调整 R2R^2(Adjusted R2R^2)通过对解释变量个数施加惩罚来弥补这一不足。在使用 SRF 进行经济分析和预测时,需要警惕过度拟合的风险——一个在样本内拟合极好的 SRF 在样本外表现可能很差。此外,SRF 的统计显著性需要通过假设检验来评估:对单个系数的t检验用于判断各解释变量是否显著影响因变量,而对整体模型显著性的F检验则用于检验所有解释变量联合是否具有解释力。

应用与局限

应用计量经济学中,SRF 被广泛用于因果推断预测。例如,在劳动经济学中,研究者利用 SRF 估计教育年限对工资的回报率,通过控制能力、经验、行业等其他变量来尽可能接近因果效应。但必须注意的是,SRF 本身仅描述样本中的统计相关性,除非满足严格的外生性假设(如随机实验工具变量方法所保证的条件),否则不能直接将 SRF 的系数解释为因果关系。经典教材如伍德里奇的《计量经济学导论》和格林《计量经济分析》均系统阐述了从 PRF 到 SRF 的推断过程中所需的一系列假设及其在实证分析中的重要性。