条件概率分布 (Conditional Probability Distribution)
条件概率分布是概率论与数理统计中的核心概念,它描述在已知某个随机变量取特定值的条件下,另一个随机变量的概率分布。条件分布在贝叶斯统计、回归分析和机器学习中扮演着基础角色。
离散型条件分布
设 (X,Y) 为离散随机向量,联合概率质量函数为 pX,Y(x,y)=P(X=x,Y=y)。当 P(Y=y)>0 时,给定 Y=y 下 X 的条件概率质量函数定义为:
pX∣Y(x∣y)=pY(y)pX,Y(x,y)
其中 pY(y)=∑xpX,Y(x,y) 为 Y 的边缘分布。直觉上,这是在 Y=y 的"切片"上重新归一化得到的分布,使其总和为 1。同理可定义给定 X=x 下 Y 的条件分布。
连续型条件分布
若 (X,Y) 为连续随机向量,联合概率密度函数为 fX,Y(x,y),则给定 Y=y 下 X 的条件概率密度函数为:
fX∣Y(x∣y)=fY(y)fX,Y(x,y),fY(y)>0
其中边缘密度 fY(y)=∫−∞∞fX,Y(x,y)dx。条件密度继承了联合密度的形状特征,但被重新标度使得对于固定的 y,∫fX∣Y(x∣y)dx=1。
条件期望与条件方差
条件期望 E[X∣Y=y] 是在条件分布下 X 的期望值:
E[X∣Y=y]={∑xx⋅pX∣Y(x∣y),∫−∞∞x⋅fX∣Y(x∣y)dx,离散情形连续情形
条件期望 E[X∣Y] 本身是 Y 的函数,也是一个随机变量,在计量经济学中被称为回归函数。类似地,条件方差衡量条件分布的离散程度:
Var(X∣Y)=E[(X−E[X∣Y])2∣Y]
全期望法则与全方差法则
条件分布孕育了两个极其重要的分解定理。
全期望法则 (Law of Total Expectation):
E[X]=E[E[X∣Y]]
即无条件期望等于条件期望的期望。该公式在分层抽样和面板数据分析中广泛应用。
全方差法则 (Law of Total Variance):
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
它将总方差分解为"组内方差"的期望与"组间方差"之和,是方差分析 (ANOVA) 的理论根基。
条件独立
若对于所有 x,y,z 有:
pX∣Y,Z(x∣y,z)=pX∣Z(x∣z)
则称在给定 Z 的条件下,X 与 Y 条件独立,记作 X⊥⊥Y∣Z。条件独立是图模型和贝叶斯网络的基石,也是匹配估计量和工具变量法中条件独立假设 (CIA) 的理论基础。
应用
在贝叶斯统计中,条件分布连接了先验、似然与后验:后验分布 p(θ∣D) 本质上是给定数据 D 下参数 θ 的条件分布。在线性回归中,核心假设即为 E[Y∣X]=Xβ,直接对条件期望建模。在概率图模型中,条件独立关系用于化简高维联合分布的表达与推断,使得马尔可夫链蒙特卡洛 (MCMC) 等计算方法成为可能。