ARTICLE

总体回归函数

总体回归函数 (Population Regression Function) 总体回归函数 (Population Regression Function, PRF) 是计量经济学和统计学中的一个核心概念,它描述了一个因变量 Y 的期望值(或平均值)如何随着一个或多个自变量 X 的变化而系统性地变化。本质上,PRF 代表了在整个总体中,变量之间真实但通常未

浏览 53 更新 2025-10-26

总体回归函数 (Population Regression Function)

总体回归函数 (Population Regression Function, PRF)计量经济学统计学中的一个核心概念,它描述了一个因变量 Y Y 期望值(或平均值)如何随着一个或多个自变量 X X 的变化而系统性地变化。本质上,PRF 代表了在整个总体中,变量之间真实但通常未知的函数关系。

由于我们几乎不可能收集到总体中每一个个体的数据,因此PRF是一个理论上的构念。在实践中,我们通过从总体中抽取样本,并使用样本数据来估计PRF,这个估计出的函数被称为样本回归函数 (Sample Regression Function, SRF)。因此,理解PRF是理解一切回归估计与推断的基础。

PRF的数学表述

对于一个因变量 Y Y 和一个自变量 X X 的简单线性关系,总体回归函数可以表述为:

E(YiXi)=β0+β1XiE(Y_i | X_i) = \beta_0 + \beta_1 X_i

这个方程的含义是:对于一个给定的自变量值 Xi X_i ,因变量 Yi Y_i 条件期望(均值)是 Xi X_i 的一个线性函数。

  • E(YiXi) E(Y_i | X_i) : 给定 Xi X_i 时,Yi Y_i 的条件均值。这代表了 Y Y 的系统性或确定性部分。
  • Xi X_i : 第 i i 个观测值的自变量或解释变量。
  • β0 \beta_0 : 总体截距项 (population intercept)。它是当 X=0 X=0 时,Y Y 的平均值,即 E(YX=0) E(Y | X=0)
  • β1 \beta_1 : 总体斜率系数 (population slope coefficient)。它衡量了当 X X 变化一个单位时,Y Y 的条件均值 E(YX) E(Y|X) 的变化量。它是我们通常最感兴趣的参数,因为它代表了 X X Y Y 的边际效应。

然而,对于任何一个个体观测 i i 而言,其 Yi Y_i 的实际值很少会精确地落在由 E(YiXi) E(Y_i | X_i) 描绘的直线上。个体行为总会受到许多未被模型包含的、随机的因素影响。为了描述这种个体值与其条件期望值之间的偏差,我们引入一个随机扰动项 (stochastic disturbance term)误差项 (error term),记为 ui u_i

因此,针对单个观测值的完整PRF表达式为:

Yi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_i
  • Yi Y_i : 第 i i 个观测值的因变量的实际观测值。
  • β0+β1Xi \beta_0 + \beta_1 X_i : 模型的系统性部分 (systematic component),即 E(YiXi) E(Y_i | X_i)
  • ui u_i : 模型的随机部分 (stochastic component)。它代表了除 X X 之外所有影响 Y Y 的因素的总和,也包括测量误差和人类行为的内在随机性。根据定义,ui=YiE(YiXi) u_i = Y_i - E(Y_i | X_i)

随机扰动项 ui u_i 的核心假设

为了能够有效地从样本中估计出未知的总体参数 β0 \beta_0 β1 \beta_1 经典线性回归模型 (Classical Linear Regression Model, CLRM) 对随机扰动项 ui u_i 的性质做出了一系列关键假设:

  1. 零条件均值 (Zero Conditional Mean): E(uiXi)=0 E(u_i | X_i) = 0

这是最核心的假设。它意味着对于任何给定的 X X 值,影响 Y Y 的所有其他未观测因素的平均影响为零。换言之,自变量 X X 与扰动项 u u 不相关 (Cov(Xi,ui)=0 Cov(X_i, u_i) = 0 )。如果这个假设不成立(例如,存在遗漏变量偏误),那么通过普通最小二乘法 (OLS) 得到的估计量将是有偏估计

  1. 同方差性 (Homoscedasticity): Var(uiXi)=σ2 Var(u_i | X_i) = \sigma^2

该假设指出,对于所有 X X 的值,扰动项的方差都是一个常数 σ2 \sigma^2 。这意味着 Y Y 的观测值围绕其期望值(即PRF线)的波动程度是恒定的。如果方差随 X X 的变化而变化,则称模型存在异方差 (Heteroscedasticity)。

  1. 无自相关 (No Autocorrelation): Cov(ui,uj)=0 Cov(u_i, u_j) = 0 for ij i \neq j

此假设意味着不同观测值的扰动项之间不相关。这在处理时间序列数据时尤其重要,违反此假设会导致序列相关 (Serial Correlation) 问题。对于截面数据,此假设通常被认为是成立的。

  1. 扰动项与自变量不相关: Cov(Xi,ui)=0 Cov(X_i, u_i) = 0

这是零条件均值假设的一个直接推论,也是无偏估计的关键前提。

多元总体回归函数

上述讨论集中在双变量的简单线性回归模型上。在实际应用中,一个因变量往往会受到多个自变量的共同影响。此时,PRF扩展为多元总体回归函数:

E(YiX1i,X2i,,Xki)=β0+β1X1i+β2X2i++βkXkiE(Y_i | X_{1i}, X_{2i}, \ldots, X_{ki}) = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki}

在多元回归中,每个斜率系数 βj \beta_j 衡量的是在其他自变量保持不变的情况下,Xj X_j 变化一个单位对 Y Y 条件均值的影响,这被称为偏效应 (partial effect)边际效应 (marginal effect)。多元回归框架允许研究者控制多个混淆变量,从而更准确地估计每个自变量对因变量的独立影响。

PRF 与 SRF 的区别

PRF是理论的终极目标,而SRF是实现该目标的手段。两者之间的区别是理解回归分析的关键。

| 特征 | 总体回归函数 (PRF) | 样本回归函数 (SRF) | | :--- | :--- | :--- | | 定义 | Yi=β0+β1Xi+ui Y_i = \beta_0 + \beta_1 X_i + u_i | Yi=β^0+β^1Xi+ei Y_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + e_i | | 性质 | 理论上的、不可观测的真实关系 | 经验上的、根据样本数据计算得出的估计关系 | | 组成 | 总体参数 β0 \beta_0 , β1 \beta_1 和扰动项 ui u_i | 样本估计量 β^0 \hat{\beta}_0 , β^1 \hat{\beta}_1 残差 ei e_i | | 目的 | 描述变量在总体中的真实关系 | 估计PRF,并对总体参数进行统计推断 | | 唯一性 | 唯一且固定 | 随抽取的样本不同而变化 |

在这里:

  • β^0 \hat{\beta}_0 β^1 \hat{\beta}_1 分别是 β0 \beta_0 β1 \beta_1 的估计量,是通过样本数据计算出来的数值(例如,使用OLS方法)。
  • ei e_i 残差 (residual),定义为 ei=YiY^i e_i = Y_i - \hat{Y}_i ,其中 Y^i=β^0+β^1Xi \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i Yi Y_i 的拟合值。残差是扰动项 ui u_i 的样本对应物,可以被看作是 ui u_i 的一个估计。

示例:消费与收入

假设一位经济学家想要研究可支配收入 (X X ) 对个人消费支出 (Y Y ) 的影响。

  • PRF: 理论上,在整个国家(总体)中,消费与收入之间存在一个真实的关系:E(YiXi)=β0+β1Xi E(Y_i | X_i) = \beta_0 + \beta_1 X_i 。这里的 β1 \beta_1 代表了真实的边际消费倾向 (Marginal Propensity to Consume, MPC)。对于任何一个家庭 i i ,其实际消费为 Yi=β0+β1Xi+ui Y_i = \beta_0 + \beta_1 X_i + u_i ui u_i 包含除收入外影响该家庭消费的所有因素,如家庭规模、未来预期、个人偏好等。这个PRF是无法直接观测的。
  • SRF: 经济学家随机抽取了1000个家庭作为样本,并收集了他们的收入和消费数据。利用这些数据,他可以通过OLS方法估计出一个SRF:Y^i=β^0+β^1Xi \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i 。例如,他可能得到 Y^i=500+0.85Xi \hat{Y}_i = 500 + 0.85 X_i 。这里的 0.85 0.85 就是对总体真实MPC (β1 \beta_1 ) 的一个估计。

计量经济学的核心任务就是判断这个估计值 β^1=0.85 \hat{\beta}_1 = 0.85 在多大程度上是真实值 β1 \beta_1 的一个"良好"估计,并基于此进行假设检验和构建置信区间。这个过程的全部理论基础都建立在PRF及其相关假设之上。