知经 KNOWECON · 卓越的经济金融统计数学学习平台

总体回归函数

# 总体回归函数 (Population Regression Function)

总体回归函数 (Population Regression Function, PRF) 是{{{计量经济学}}}和{{{统计学}}}中的一个核心概念,它描述了一个{{{因变量}}} $Y$ 的{{{期望值}}}(或平均值)如何随着一个或多个{{{自变量}}} $X$ 的变化而系统性地变化。本质上,PRF 代表了在整个{{{总体}}}中,变量之间真实但通常未知的函数关系。

由于我们几乎不可能收集到总体中每一个个体的数据,因此PRF是一个理论上的构念。在实践中,我们通过从总体中抽取{{{样本}}},并使用样本数据来估计PRF,这个估计出的函数被称为{{{样本回归函数}}} (Sample Regression Function, SRF)。因此,理解PRF是理解一切回归估计与推断的基础。

## PRF的数学表述

对于一个因变量 $Y$ 和一个自变量 $X$ 的简单线性关系,总体回归函数可以表述为:

$$ E(Y_i | X_i) = \beta_0 + \beta_1 X_i $$

这个方程的含义是:对于一个给定的自变量值 $X_i$,因变量 $Y_i$ 的{{{条件期望}}}(均值)是 $X_i$ 的一个线性函数。

* $E(Y_i | X_i)$: 给定 $X_i$ 时,$Y_i$ 的条件均值。这代表了 $Y$ 的系统性或确定性部分。 * $X_i$: 第 $i$ 个观测值的自变量或解释变量。 * $\beta_0$: 总体截距项 (population intercept)。它是当 $X=0$ 时,$Y$ 的平均值,即 $E(Y | X=0)$。 * $\beta_1$: 总体斜率系数 (population slope coefficient)。它衡量了当 $X$ 变化一个单位时,$Y$ 的条件均值 $E(Y|X)$ 的变化量。它是我们通常最感兴趣的{{{参数}}},因为它代表了 $X$ 对 $Y$ 的边际效应。

然而,对于任何一个个体观测 $i$ 而言,其 $Y_i$ 的实际值很少会精确地落在由 $E(Y_i | X_i)$ 描绘的直线上。个体行为总会受到许多未被模型包含的、随机的因素影响。为了描述这种个体值与其条件期望值之间的偏差,我们引入一个随机扰动项 (stochastic disturbance term)误差项 (error term),记为 $u_i$。

因此,针对单个观测值的完整PRF表达式为:

$$ Y_i = \beta_0 + \beta_1 X_i + u_i $$

* $Y_i$: 第 $i$ 个观测值的因变量的实际观测值。 * $\beta_0 + \beta_1 X_i$: 模型的系统性部分 (systematic component),即 $E(Y_i | X_i)$。 * $u_i$: 模型的随机部分 (stochastic component)。它代表了除 $X$ 之外所有影响 $Y$ 的因素的总和,也包括测量误差和人类行为的内在随机性。根据定义,$u_i = Y_i - E(Y_i | X_i)$。

## 随机扰动项 $u_i$ 的核心假设

为了能够有效地从样本中估计出未知的总体参数 $\beta_0$ 和 $\beta_1$,{{{经典线性回归模型}}} (Classical Linear Regression Model, CLRM) 对随机扰动项 $u_i$ 的性质做出了一系列关键假设:

1. 零条件均值 (Zero Conditional Mean): $E(u_i | X_i) = 0$。 这是最核心的假设。它意味着对于任何给定的 $X$ 值,影响 $Y$ 的所有其他未观测因素的平均影响为零。换言之,自变量 $X$ 与扰动项 $u$ 不相关 ($Cov(X_i, u_i) = 0$)。如果这个假设不成立(例如,存在{{{遗漏变量偏误}}}),那么通过{{{普通最小二乘法}}} (OLS) 得到的估计量将是{{{有偏估计}}}。

2. 同方差性 (Homoscedasticity): $Var(u_i | X_i) = \sigma^2$。 该假设指出,对于所有 $X$ 的值,扰动项的{{{方差}}}都是一个常数 $\sigma^2$。这意味着 $Y$ 的观测值围绕其期望值(即PRF线)的波动程度是恒定的。如果方差随 $X$ 的变化而变化,则称模型存在{{{异方差}}} (Heteroscedasticity)。

3. 无自相关 (No Autocorrelation): $Cov(u_i, u_j) = 0$ for $i \neq j$。 此假设意味着不同观测值的扰动项之间不相关。这在处理{{{时间序列数据}}}时尤其重要,违反此假设会导致{{{序列相关}}} (Serial Correlation) 问题。对于{{{截面数据}}},此假设通常被认为是成立的。

4. 扰动项与自变量不相关: $Cov(X_i, u_i) = 0$。 这是零条件均值假设的一个直接推论,也是{{{无偏估计}}}的关键前提。

## PRF 与 SRF 的区别

PRF是理论的终极目标,而SRF是实现该目标的手段。两者之间的区别是理解回归分析的关键。

| 特征 | 总体回归函数 (PRF) | 样本回归函数 (SRF) | | :--- | :--- | :--- | | 定义 | $Y_i = \beta_0 + \beta_1 X_i + u_i$ | $Y_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + e_i$ | | 性质 | 理论上的、不可观测的真实关系 | 经验上的、根据样本数据计算得出的估计关系 | | 组成 | 总体参数 $\beta_0$, $\beta_1$ 和扰动项 $u_i$ | 样本{{{估计量}}} $\hat{\beta}_0$, $\hat{\beta}_1$ 和{{{残差}}} $e_i$ | | 目的 | 描述变量在总体中的真实关系 | 估计PRF,并对总体参数进行统计推断 | | 唯一性 | 唯一且固定 | 随抽取的样本不同而变化 |

在这里: * $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 分别是 $\beta_0$ 和 $\beta_1$ 的估计量,是通过样本数据计算出来的数值(例如,使用OLS方法)。 * $e_i$ 是残差 (residual),定义为 $e_i = Y_i - \hat{Y}_i$,其中 $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ 是 $Y_i$ 的拟合值。残差是扰动项 $u_i$ 的样本对应物,可以被看作是 $u_i$ 的一个估计。

## 示例:消费与收入

假设一位经济学家想要研究可支配收入 ($X$) 对个人消费支出 ($Y$) 的影响。

* PRF: 理论上,在整个国家(总体)中,消费与收入之间存在一个真实的关系:$E(Y_i | X_i) = \beta_0 + \beta_1 X_i$。这里的 $\beta_1$ 代表了真实的{{{边际消费倾向}}} (Marginal Propensity to Consume, MPC)。对于任何一个家庭 $i$,其实际消费为 $Y_i = \beta_0 + \beta_1 X_i + u_i$。$u_i$ 包含除收入外影响该家庭消费的所有因素,如家庭规模、未来预期、个人偏好等。这个PRF是无法直接观测的。

* SRF: 经济学家随机抽取了1000个家庭作为样本,并收集了他们的收入和消费数据。利用这些数据,他可以通过OLS方法估计出一个SRF:$\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$。例如,他可能得到 $\hat{Y}_i = 500 + 0.85 X_i$。这里的 $0.85$ 就是对总体真实MPC ($\beta_1$) 的一个估计。

计量经济学的核心任务就是判断这个估计值 $\hat{\beta}_1 = 0.85$ 在多大程度上是真实值 $\beta_1$ 的一个“良好”估计,并基于此进行{{{假设检验}}}和构建{{{置信区间}}}。这个过程的全部理论基础都建立在PRF及其相关假设之上。