ARTICLE
总体回归函数
总体回归函数 (Population Regression Function) 总体回归函数 (Population Regression Function, PRF) 是计量经济学和统计学中的一个核心概念,它描述了一个因变量 Y 的期望值(或平均值)如何随着一个或多个自变量 X 的变化而系统性地变化。本质上,PRF 代表了在整个总体中,变量之间真实但通常未
总体回归函数 (Population Regression Function)
总体回归函数 (Population Regression Function, PRF) 是计量经济学和统计学中的一个核心概念,它描述了一个因变量 的期望值(或平均值)如何随着一个或多个自变量 的变化而系统性地变化。本质上,PRF 代表了在整个总体中,变量之间真实但通常未知的函数关系。
由于我们几乎不可能收集到总体中每一个个体的数据,因此PRF是一个理论上的构念。在实践中,我们通过从总体中抽取样本,并使用样本数据来估计PRF,这个估计出的函数被称为样本回归函数 (Sample Regression Function, SRF)。因此,理解PRF是理解一切回归估计与推断的基础。
PRF的数学表述
对于一个因变量 和一个自变量 的简单线性关系,总体回归函数可以表述为:
这个方程的含义是:对于一个给定的自变量值 ,因变量 的条件期望(均值)是 的一个线性函数。
- : 给定 时, 的条件均值。这代表了 的系统性或确定性部分。
- : 第 个观测值的自变量或解释变量。
- : 总体截距项 (population intercept)。它是当 时, 的平均值,即 。
- : 总体斜率系数 (population slope coefficient)。它衡量了当 变化一个单位时, 的条件均值 的变化量。它是我们通常最感兴趣的参数,因为它代表了 对 的边际效应。
然而,对于任何一个个体观测 而言,其 的实际值很少会精确地落在由 描绘的直线上。个体行为总会受到许多未被模型包含的、随机的因素影响。为了描述这种个体值与其条件期望值之间的偏差,我们引入一个随机扰动项 (stochastic disturbance term) 或误差项 (error term),记为 。
因此,针对单个观测值的完整PRF表达式为:
- : 第 个观测值的因变量的实际观测值。
- : 模型的系统性部分 (systematic component),即 。
- : 模型的随机部分 (stochastic component)。它代表了除 之外所有影响 的因素的总和,也包括测量误差和人类行为的内在随机性。根据定义,。
随机扰动项 的核心假设
为了能够有效地从样本中估计出未知的总体参数 和 ,经典线性回归模型 (Classical Linear Regression Model, CLRM) 对随机扰动项 的性质做出了一系列关键假设:
- 零条件均值 (Zero Conditional Mean): 。
这是最核心的假设。它意味着对于任何给定的 值,影响 的所有其他未观测因素的平均影响为零。换言之,自变量 与扰动项 不相关 ()。如果这个假设不成立(例如,存在遗漏变量偏误),那么通过普通最小二乘法 (OLS) 得到的估计量将是有偏估计。
- 同方差性 (Homoscedasticity): 。
该假设指出,对于所有 的值,扰动项的方差都是一个常数 。这意味着 的观测值围绕其期望值(即PRF线)的波动程度是恒定的。如果方差随 的变化而变化,则称模型存在异方差 (Heteroscedasticity)。
- 无自相关 (No Autocorrelation): for 。
此假设意味着不同观测值的扰动项之间不相关。这在处理时间序列数据时尤其重要,违反此假设会导致序列相关 (Serial Correlation) 问题。对于截面数据,此假设通常被认为是成立的。
- 扰动项与自变量不相关: 。
这是零条件均值假设的一个直接推论,也是无偏估计的关键前提。
多元总体回归函数
上述讨论集中在双变量的简单线性回归模型上。在实际应用中,一个因变量往往会受到多个自变量的共同影响。此时,PRF扩展为多元总体回归函数:
在多元回归中,每个斜率系数 衡量的是在其他自变量保持不变的情况下, 变化一个单位对 条件均值的影响,这被称为偏效应 (partial effect)或边际效应 (marginal effect)。多元回归框架允许研究者控制多个混淆变量,从而更准确地估计每个自变量对因变量的独立影响。
PRF 与 SRF 的区别
PRF是理论的终极目标,而SRF是实现该目标的手段。两者之间的区别是理解回归分析的关键。
| 特征 | 总体回归函数 (PRF) | 样本回归函数 (SRF) | | :--- | :--- | :--- | | 定义 | | | | 性质 | 理论上的、不可观测的真实关系 | 经验上的、根据样本数据计算得出的估计关系 | | 组成 | 总体参数 , 和扰动项 | 样本估计量 , 和残差 | | 目的 | 描述变量在总体中的真实关系 | 估计PRF,并对总体参数进行统计推断 | | 唯一性 | 唯一且固定 | 随抽取的样本不同而变化 |
在这里:
- 和 分别是 和 的估计量,是通过样本数据计算出来的数值(例如,使用OLS方法)。
- 是残差 (residual),定义为 ,其中 是 的拟合值。残差是扰动项 的样本对应物,可以被看作是 的一个估计。
示例:消费与收入
假设一位经济学家想要研究可支配收入 () 对个人消费支出 () 的影响。
- PRF: 理论上,在整个国家(总体)中,消费与收入之间存在一个真实的关系:。这里的 代表了真实的边际消费倾向 (Marginal Propensity to Consume, MPC)。对于任何一个家庭 ,其实际消费为 。 包含除收入外影响该家庭消费的所有因素,如家庭规模、未来预期、个人偏好等。这个PRF是无法直接观测的。
- SRF: 经济学家随机抽取了1000个家庭作为样本,并收集了他们的收入和消费数据。利用这些数据,他可以通过OLS方法估计出一个SRF:。例如,他可能得到 。这里的 就是对总体真实MPC () 的一个估计。
计量经济学的核心任务就是判断这个估计值 在多大程度上是真实值 的一个"良好"估计,并基于此进行假设检验和构建置信区间。这个过程的全部理论基础都建立在PRF及其相关假设之上。