ARTICLE
样本回归函数
样本回归函数 (Sample Regression Function) 样本回归函数(Sample Regression Function, SRF)是计量经济学中根据观测样本数据拟合得到的回归方程,其根本目的在于对未知的总体回归函数(Population Regression Function, PRF)进行估计。在经典线性回归模型的框架下,总体回归函数刻
样本回归函数 (Sample Regression Function)
样本回归函数(Sample Regression Function, SRF)是计量经济学中根据观测样本数据拟合得到的回归方程,其根本目的在于对未知的总体回归函数(Population Regression Function, PRF)进行估计。在经典线性回归模型的框架下,总体回归函数刻画了因变量 关于解释变量 的条件期望 ,而样本回归函数则是利用有限样本对这一条件期望的近似估计。SRF 与 PRF 之间的关系是整个回归分析推断逻辑的基石,也是理解统计推断中估计量与真实参数之间关系的核心线索。
形式与构造
设总体模型为 ,其中 和 是未知的总体参数(即回归系数), 是随机误差项,满足零条件均值假设 。基于一个大小为 的随机样本 ,我们可以通过某种估计方法(最常用的是普通最小二乘法,OLS)获得总体参数的样本估计值 和 ,进而构造样本回归函数:
其中 表示给定 时 的拟合值(或称预测值)。实际观测值 与拟合值 之间的差被称为残差 。一个关键的概念区分在于:残差 是误差项 的样本实现,两者在概念上截然不同——误差项是总体中不可观测的随机扰动,而残差是基于样本计算得出的可观测量。这一区分对于理解诊断检验(如异方差性检验和自相关检验)至关重要。
SRF 与 PRF 的本质区别
总体回归函数 PRF 是一种理论上的、非随机的真实关系,它描述了在解释变量给定条件下因变量的平均行为。样本回归函数 SRF 则是从特定样本中计算得到的、依赖于样本的随机估计。由于样本具有抽样变异性,不同样本会得出不同的 SRF 估计结果。因此,SRF 是 PRF 的一个估计量,其估计精度由抽样误差和样本量共同决定。在高斯-马尔可夫定理的五条经典假设条件下,OLS 估计量 和 是最佳线性无偏估计量(BLUE),这意味着在一切线性无偏估计量中,OLS 估计量的方差最小,从而 SRF 在估计 PRF 时具有最高的精度。然而,当这些假设(如同方差性、无自相关等)被违反时,BLUE 性质不再成立,研究者需要采用广义最小二乘法或稳健标准误等方法加以修正。
拟合优度与模型评估
SRF 对真实数据点的拟合程度通常由判定系数 来衡量。 度量了 SRF 所解释的因变量总变异的比例,其取值范围在 0 到 1 之间。 越接近 1,说明 SRF 对样本数据的拟合程度越好。但 本身存在固有缺陷:增加更多解释变量(无论这些变量是否真正相关)必然提高 ,因此调整 (Adjusted )通过对解释变量个数施加惩罚来弥补这一不足。在使用 SRF 进行经济分析和预测时,需要警惕过度拟合的风险——一个在样本内拟合极好的 SRF 在样本外表现可能很差。此外,SRF 的统计显著性需要通过假设检验来评估:对单个系数的t检验用于判断各解释变量是否显著影响因变量,而对整体模型显著性的F检验则用于检验所有解释变量联合是否具有解释力。
应用与局限
在应用计量经济学中,SRF 被广泛用于因果推断和预测。例如,在劳动经济学中,研究者利用 SRF 估计教育年限对工资的回报率,通过控制能力、经验、行业等其他变量来尽可能接近因果效应。但必须注意的是,SRF 本身仅描述样本中的统计相关性,除非满足严格的外生性假设(如随机实验或工具变量方法所保证的条件),否则不能直接将 SRF 的系数解释为因果关系。经典教材如伍德里奇的《计量经济学导论》和格林《计量经济分析》均系统阐述了从 PRF 到 SRF 的推断过程中所需的一系列假设及其在实证分析中的重要性。