ARTICLE

总体回归函数

总体回归函数 (Population Regression Function) 总体回归函数 (Population Regression Function, PRF) 是计量经济学和统计学中的一个核心概念，它描述了一个因变量 Y 的期望值（或平均值）如何随着一个或多个自变量 X 的变化而系统性地变化。本质上，PRF 代表了在整个总体中，变量之间真实但通常未

浏览 53 更新 2025-10-26

总体回归函数 (Population Regression Function)

总体回归函数 (Population Regression Function, PRF) 是计量经济学和统计学中的一个核心概念，它描述了一个因变量 $Y$ 的期望值（或平均值）如何随着一个或多个自变量 $X$ 的变化而系统性地变化。本质上，PRF 代表了在整个总体中，变量之间真实但通常未知的函数关系。

由于我们几乎不可能收集到总体中每一个个体的数据，因此PRF是一个理论上的构念。在实践中，我们通过从总体中抽取样本，并使用样本数据来估计PRF，这个估计出的函数被称为样本回归函数 (Sample Regression Function, SRF)。因此，理解PRF是理解一切回归估计与推断的基础。

PRF的数学表述

对于一个因变量 $Y$ 和一个自变量 $X$ 的简单线性关系，总体回归函数可以表述为：

E(Y_i | X_i) = \beta_0 + \beta_1 X_i

这个方程的含义是：对于一个给定的自变量值 $X_i$ ，因变量 $Y_i$ 的条件期望（均值）是 $X_i$ 的一个线性函数。

$E(Y_i | X_i)$ : 给定 $X_i$ 时， $Y_i$ 的条件均值。这代表了 $Y$ 的系统性或确定性部分。
$X_i$ : 第 $i$ 个观测值的自变量或解释变量。
$\beta_0$ : 总体截距项 (population intercept)。它是当 $X=0$ 时， $Y$ 的平均值，即 $E(Y | X=0)$ 。
$\beta_1$ : 总体斜率系数 (population slope coefficient)。它衡量了当 $X$ 变化一个单位时， $Y$ 的条件均值 $E(Y|X)$ 的变化量。它是我们通常最感兴趣的参数，因为它代表了 $X$ 对 $Y$ 的边际效应。

然而，对于任何一个个体观测 $i$ 而言，其 $Y_i$ 的实际值很少会精确地落在由 $E(Y_i | X_i)$ 描绘的直线上。个体行为总会受到许多未被模型包含的、随机的因素影响。为了描述这种个体值与其条件期望值之间的偏差，我们引入一个随机扰动项 (stochastic disturbance term) 或误差项 (error term)，记为 $u_i$ 。

因此，针对单个观测值的完整PRF表达式为：

Y_i = \beta_0 + \beta_1 X_i + u_i

$Y_i$ : 第 $i$ 个观测值的因变量的实际观测值。
$\beta_0 + \beta_1 X_i$ : 模型的系统性部分 (systematic component)，即 $E(Y_i | X_i)$ 。
$u_i$ : 模型的随机部分 (stochastic component)。它代表了除 $X$ 之外所有影响 $Y$ 的因素的总和，也包括测量误差和人类行为的内在随机性。根据定义， $u_i = Y_i - E(Y_i | X_i)$ 。

随机扰动项 $u_i$ 的核心假设

为了能够有效地从样本中估计出未知的总体参数 $\beta_0$ 和 $\beta_1$ ，经典线性回归模型 (Classical Linear Regression Model, CLRM) 对随机扰动项 $u_i$ 的性质做出了一系列关键假设：

零条件均值 (Zero Conditional Mean): $E(u_i | X_i) = 0$ 。

这是最核心的假设。它意味着对于任何给定的 $X$ 值，影响 $Y$ 的所有其他未观测因素的平均影响为零。换言之，自变量 $X$ 与扰动项 $u$ 不相关 ( $Cov(X_i, u_i) = 0$ )。如果这个假设不成立（例如，存在遗漏变量偏误），那么通过普通最小二乘法 (OLS) 得到的估计量将是有偏估计。

同方差性 (Homoscedasticity): $Var(u_i | X_i) = \sigma^2$ 。

该假设指出，对于所有 $X$ 的值，扰动项的方差都是一个常数 $\sigma^2$ 。这意味着 $Y$ 的观测值围绕其期望值（即PRF线）的波动程度是恒定的。如果方差随 $X$ 的变化而变化，则称模型存在异方差 (Heteroscedasticity)。

无自相关 (No Autocorrelation): $Cov(u_i, u_j) = 0$ for $i \neq j$ 。

此假设意味着不同观测值的扰动项之间不相关。这在处理时间序列数据时尤其重要，违反此假设会导致序列相关 (Serial Correlation) 问题。对于截面数据，此假设通常被认为是成立的。

扰动项与自变量不相关: $Cov(X_i, u_i) = 0$ 。

这是零条件均值假设的一个直接推论，也是无偏估计的关键前提。

多元总体回归函数

上述讨论集中在双变量的简单线性回归模型上。在实际应用中，一个因变量往往会受到多个自变量的共同影响。此时，PRF扩展为多元总体回归函数：

E(Y_i | X_{1i}, X_{2i}, \ldots, X_{ki}) = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki}

在多元回归中，每个斜率系数 $\beta_j$ 衡量的是在其他自变量保持不变的情况下， $X_j$ 变化一个单位对 $Y$ 条件均值的影响，这被称为偏效应 (partial effect)或边际效应 (marginal effect)。多元回归框架允许研究者控制多个混淆变量，从而更准确地估计每个自变量对因变量的独立影响。

PRF 与 SRF 的区别

PRF是理论的终极目标，而SRF是实现该目标的手段。两者之间的区别是理解回归分析的关键。

特征	总体回归函数 (PRF)	样本回归函数 (SRF)
定义	$Y_i = \beta_0 + \beta_1 X_i + u_i$	$Y_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + e_i$
性质	理论上的、不可观测的真实关系	经验上的、根据样本数据计算得出的估计关系
组成	总体参数 $\beta_0$ , $\beta_1$ 和扰动项 $u_i$	样本估计量 $\hat{\beta}_0$ , $\hat{\beta}_1$ 和残差 $e_i$
目的	描述变量在总体中的真实关系	估计PRF，并对总体参数进行统计推断
唯一性	唯一且固定	随抽取的样本不同而变化

在这里：

$\hat{\beta}_0$ 和 $\hat{\beta}_1$ 分别是 $\beta_0$ 和 $\beta_1$ 的估计量，是通过样本数据计算出来的数值（例如，使用OLS方法）。
$e_i$ 是残差 (residual)，定义为 $e_i = Y_i - \hat{Y}_i$ ，其中 $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ 是 $Y_i$ 的拟合值。残差是扰动项 $u_i$ 的样本对应物，可以被看作是 $u_i$ 的一个估计。

示例：消费与收入

假设一位经济学家想要研究可支配收入 ( $X$ ) 对个人消费支出 ( $Y$ ) 的影响。

PRF: 理论上，在整个国家（总体）中，消费与收入之间存在一个真实的关系： $E(Y_i | X_i) = \beta_0 + \beta_1 X_i$ 。这里的 $\beta_1$ 代表了真实的边际消费倾向 (Marginal Propensity to Consume, MPC)。对于任何一个家庭 $i$ ，其实际消费为 $Y_i = \beta_0 + \beta_1 X_i + u_i$ 。 $u_i$ 包含除收入外影响该家庭消费的所有因素，如家庭规模、未来预期、个人偏好等。这个PRF是无法直接观测的。

SRF: 经济学家随机抽取了1000个家庭作为样本，并收集了他们的收入和消费数据。利用这些数据，他可以通过OLS方法估计出一个SRF： $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i$ 。例如，他可能得到 $\hat{Y}_i = 500 + 0.85 X_i$ 。这里的 $0.85$ 就是对总体真实MPC ( $\beta_1$ ) 的一个估计。

计量经济学的核心任务就是判断这个估计值 $\hat{\beta}_1 = 0.85$ 在多大程度上是真实值 $\beta_1$ 的一个"良好"估计，并基于此进行假设检验和构建置信区间。这个过程的全部理论基础都建立在PRF及其相关假设之上。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

总体回归函数