ARTICLE

条件均值

条件均值 (Conditional Mean) 条件均值（Conditional Mean），亦称条件期望（Conditional Expectation），是概率论与计量经济学中最基础的概念之一。它描述了一个随机变量公式在给定另一个（或一组）随机变量公式的条件下的期望值，记为公式或简写为公式。从几何视角看，条件均值是公式在由公式的所

浏览 0 更新 2025-10-26

条件均值 (Conditional Mean)

条件均值（Conditional Mean），亦称条件期望（Conditional Expectation），是概率论与计量经济学中最基础的概念之一。它描述了一个随机变量 $Y$ 在给定另一个（或一组）随机变量 $X = x$ 的条件下的期望值，记为 $\mathbb{E}[Y \mid X = x]$ 或简写为 $\mathbb{E}[Y \mid X]$ 。从几何视角看，条件均值是 $Y$ 在由 $X$ 的所有可测函数构成的 Hilbert 空间上的正交投影，这一投影性质使得条件均值成为均方误差（MSE）准则下的最优预测器。现代回归分析——无论是最小二乘法、极大似然估计还是机器学习中的监督学习——其理论核心都是以不同方式对条件均值函数 $m(x) := \mathbb{E}[Y \mid X = x]$ 进行估计与推断。

严格定义与存在性

设 $(\Omega, \mathcal{F}, \mathbb{P})$ 为概率空间， $Y$ 是可积随机变量（ $\mathbb{E}[|Y|] < \infty$ ）， $X$ 为取值于 $\mathbb{R}^k$ 的随机向量。则 $Y$ 关于 $X$ 的条件期望 $\mathbb{E}[Y \mid X]$ 是满足以下两个条件的随机变量：

可测性（Measurability）： $\mathbb{E}[Y \mid X]$ 是 $\sigma(X)$ -可测的，即存在 Borel 可测函数 $g: \mathbb{R}^k \to \mathbb{R}$ 使得 $\mathbb{E}[Y \mid X] = g(X)$ 几乎处处成立。这意味着条件均值只依赖于 $X$ 所提供的信息，不依赖于 $\omega \in \Omega$ 的其他方面。
部分平均性质（Partial Averaging Property）：对任意 $A \in \sigma(X)$ ，有 \[ \int_A Y \, d\mathbb{P} = \int_A \mathbb{E}[Y \mid X] \, d\mathbb{P} \] 即在 $\sigma(X)$ 的任意可测集上，条件均值与 $Y$ 本身具有相同的积分。这确保了条件均值在平均意义上忠实地代表了 $Y$ 。

由拉东-尼科迪姆定理（Radon–Nikodym Theorem），上述条件期望总是存在且几乎处处唯一。当 $(Y, X)$ 为离散随机变量时：

\mathbb{E}[Y \mid X = x] = \sum_{y} y \cdot \mathbb{P}(Y = y \mid X = x) = \frac{\sum_{y} y \cdot \mathbb{P}(Y = y, X = x)}{\mathbb{P}(X = x)}

当 $(Y, X)$ 具有联合概率密度 $f_{Y,X}(y, x)$ 时：

\mathbb{E}[Y \mid X = x] = \int_{\mathbb{R}} y \cdot f_{Y \mid X}(y \mid x) \, dy = \frac{\int_{\mathbb{R}} y \, f_{Y,X}(y, x) \, dy}{f_X(x)}

其中 $f_{Y \mid X}$ 为条件密度， $f_X$ 为 $X$ 的边缘密度。从测度论角度看，条件密度 $f_{Y \mid X}$ 本质上是 $\mathbb{P}_Y$ 关于联合测度的拉东-尼科迪姆导数在 $X$ 切片上的正则化版本。

迭代期望律及其推论

条件均值最核心的理论性质是迭代期望律（Law of Iterated Expectations, LIE），或称全期望公式：

\mathbb{E}[Y] = \mathbb{E}_X\!\big[\mathbb{E}[Y \mid X]\big]

该恒等式的直观含义是：无条件期望可以通过先对 $X$ 每一取值层计算条件均值，再按 $X$ 的分布加权平均而得到。LIE 是计量经济学中几乎所有分解与识别论证的起点——从差分法（Difference-in-Differences）中的平行趋势条件期望分解，到工具变量（Instrumental Variables）估计中二阶段最小二乘（2SLS）的一致性推导，再到分位数回归的对偶表示，都直接依赖于该性质。

推广到一般 $\sigma$ -代数的嵌套结构：若 $\mathcal{G}_1 \subseteq \mathcal{G}_2 \subseteq \mathcal{F}$ ，则

\mathbb{E}\!\big[\mathbb{E}[Y \mid \mathcal{G}_2] \mid \mathcal{G}_1\big] = \mathbb{E}[Y \mid \mathcal{G}_1]

该式说明"较小信息集上的条件期望等于较大信息集上条件期望的条件期望"。一个直接有用的特例是：当 $\mathcal{G}_1 = \{\emptyset, \Omega\}$ （即零信息）时， $\mathbb{E}[Y \mid \mathcal{G}_1] = \mathbb{E}[Y]$ ，此时回到基本 LIE。

基于 LIE 可以导出方差分解公式：

\operatorname{Var}(Y) = \underbrace{\operatorname{Var}_X\!\big(\mathbb{E}[Y \mid X]\big)}_{\text{被 } X \text{ 解释的部分}} + \underbrace{\mathbb{E}_X\!\big[\operatorname{Var}(Y \mid X)\big]}_{\text{残差变异}}

此分解将 $Y$ 的总变差拆分为条件均值的变异（信号）与条件方差的平均（噪声），是方差分析（ANOVA）和 $R^2$ 度量的理论依据。

最优预测器与正交性

在均方误差（MSE）准则下，条件均值是无可替代的最优预测器：对任意 Borel 可测函数 $h(X)$ ，

\mathbb{E}\!\big[(Y - \mathbb{E}[Y \mid X])^2\big] \le \mathbb{E}\!\big[(Y - h(X))^2\big]

等号成立当且仅当 $h(X) = \mathbb{E}[Y \mid X]$ 几乎处处。换言之，在一切仅使用 $X$ 信息的预测器中，条件均值函数给出了 MSE 最小的预测。

证明的关键在于正交性（Orthogonality）：预测残差 $\varepsilon := Y - \mathbb{E}[Y \mid X]$ 满足

\mathbb{E}[\varepsilon \cdot g(X)] = 0, \quad \forall \text{ 可测函数 } g

即残差与 $X$ 的任意函数正交—— $X$ 的任何变换都无法再系统性解释残差中留下的信息。从几何角度看， $\mathbb{E}[Y \mid X]$ 是 $Y$ 在 $L^2(\sigma(X))$ 子空间上的正交投影，而正交投影在 Hilbert 空间中自动实现最小距离。

这一性质也是高斯-马尔可夫定理（Gauss–Markov Theorem）的推广：在高斯-马尔可夫设定下，若 $\mathbb{E}[Y \mid X] = X'\beta$ ，则 OLS 估计量是最优线性无偏估计量（BLUE）；更一般地，如果没有线性限制，条件均值本身（而非线性近似）是最优预测器。

线性回归中的条件均值

在计量经济学中，回归函数本质上就是条件均值函数。经典线性回归模型

Y = X'\beta + \varepsilon, \quad \mathbb{E}[\varepsilon \mid X] = 0

的核心识别条件是 $\mathbb{E}[\varepsilon \mid X] = 0$ ——即严格外生性（Strict Exogeneity）。在此条件下， $\mathbb{E}[Y \mid X] = X'\beta$ ，回归系数 $\beta$ 的含义是 $X$ 对 $Y$ 条件均值的边际效应：

\beta_j = \frac{\partial \, \mathbb{E}[Y \mid X]}{\partial X_j}

当严格外生性不成立而仅有正交性条件 $\mathbb{E}[X\varepsilon] = 0$ 时，OLS 估计的 $X'\beta$ 不再等于 $\mathbb{E}[Y \mid X]$ ，而是条件均值的线性投影（Linear Projection）——即所有线性函数中对 $\mathbb{E}[Y \mid X]$ 的 MSE 最优逼近。这一区别在异质性处理效应文献中至关重要：当处理效应因人而异时，OLS 估计量收敛于某种加权的条件均值效应，但不一定等于平均处理效应（ATE）。

条件均值独立与政策评估

条件均值独立（Conditional Mean Independence）是比统计独立弱、但比不相关强的假设：

\mathbb{E}[Y \mid X, Z] = \mathbb{E}[Y \mid X]

即给定 $X$ 后， $Z$ 不再为 $Y$ 的条件均值提供额外信息。这一假设是现代政策评估文献的基石：

在选择可观测性（Selection on Observables）框架下，假设潜在结果条件均值独立于处理分配变量 $D$ 给定可观测协变量 $X$ ：即 $\mathbb{E}[Y(0) \mid D = 1, X] = \mathbb{E}[Y(0) \mid D = 0, X]$ 。这使得倾向得分匹配（Propensity Score Matching）和控制函数法得以识别平均处理效应。
在面板数据模型中，严格外生性条件 $\mathbb{E}[\varepsilon_{it} \mid X_{i1}, \dots, X_{iT}, \alpha_i] = 0$ 本质上是一种条件均值独立假设——给定个体固定效应 $\alpha_i$ 和全部时期的 $X$ 后， $X$ 的未来值和过去值都不再为当期误差的条件均值提供额外信息。

条件均值独立与条件独立假设（CIA）的关键区别在于：CIA 要求整个条件分布独立（ $Y \perp\!\!\!\perp D \mid X$ ），而条件均值独立仅约束一阶矩。在只需要一致估计平均处理效应的场合，条件均值独立已经足够，这是政策评估方法论的重要简约。

非参数估计方法

放松线性函数形式约束后，条件均值函数的非参数估计成为现代计量经济学的重要领域。主要方法包括：

核回归（Kernel Regression）：诸如纳达拉亚-沃森估计量（Nadaraya–Watson Estimator），以核函数对观测值加权： \[ \hat{m}(x) = \frac{\sum_{i=1}^n Y_i \cdot K\!\left(\frac{x - X_i}{h}\right)}{\sum_{i=1}^n K\!\left(\frac{x - X_i}{h}\right)} \] 其中 $K(\cdot)$ 为核函数， $h$ 为带宽参数。该估计量在 $h \to 0$ 且 $nh \to \infty$ 时一致。
局部多项式回归（Local Polynomial Regression）：在每个估计点 $x$ 处拟合加权多项式，较之核回归具有更好的边界性质与偏差控制。
级数估计（Series Estimation）：以正交多项式、样条或小波基函数逼近 $m(x)$ ，适用于处理多元 $X$ 的维数诅咒问题。
机器学习方法：随机森林、梯度提升树和神经网络等方法在近期文献中被大量用于条件均值函数的灵活估计，特别是在异质性处理效应分析中产生了重要成果（如因果森林，Causal Forest）。

这些方法的共同目标都是在 MSE 意义上逼近 $\mathbb{E}[Y \mid X]$ ，且均在渐近意义上继承了条件均值的正交投影性质——估计残差与 $X$ 的任意函数渐近不相关。