ARTICLE

条件概率分布

条件概率分布 (Conditional Probability Distribution) 条件概率分布是概率论与数理统计中的核心概念,它描述在已知某个随机变量取特定值的条件下,另一个随机变量的概率分布。条件分布在贝叶斯统计、回归分析和机器学习中扮演着基础角色。 离散型条件分布 设 (X, Y) 为离散随机向量,联合概率质量函数为 p_X,Y(x, y) =

浏览 0 更新 2025-11-24

条件概率分布 (Conditional Probability Distribution)

条件概率分布概率论数理统计中的核心概念,它描述在已知某个随机变量取特定值的条件下,另一个随机变量的概率分布。条件分布在贝叶斯统计回归分析机器学习中扮演着基础角色。

离散型条件分布

(X,Y)(X, Y) 为离散随机向量,联合概率质量函数为 pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x, y) = P(X = x, Y = y)。当 P(Y=y)>0P(Y = y) > 0 时,给定 Y=yY = yXX条件概率质量函数定义为:

pXY(xy)=pX,Y(x,y)pY(y)p_{X \mid Y}(x \mid y) = \frac{p_{X,Y}(x, y)}{p_Y(y)}

其中 pY(y)=xpX,Y(x,y)p_Y(y) = \sum_x p_{X,Y}(x, y)YY边缘分布。直觉上,这是在 Y=yY = y 的"切片"上重新归一化得到的分布,使其总和为 1。同理可定义给定 X=xX = xYY 的条件分布。

连续型条件分布

(X,Y)(X, Y) 为连续随机向量,联合概率密度函数为 fX,Y(x,y)f_{X,Y}(x, y),则给定 Y=yY = yXX条件概率密度函数为:

fXY(xy)=fX,Y(x,y)fY(y),fY(y)>0f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}, \quad f_Y(y) > 0

其中边缘密度 fY(y)=fX,Y(x,y)dxf_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dx。条件密度继承了联合密度的形状特征,但被重新标度使得对于固定的 yyfXY(xy)dx=1\int f_{X \mid Y}(x \mid y) \, dx = 1

条件期望与条件方差

条件期望 E[XY=y]E[X \mid Y = y] 是在条件分布下 XX 的期望值:

E[XY=y]={xxpXY(xy),离散情形xfXY(xy)dx,连续情形E[X \mid Y = y] = \begin{cases} \sum_x x \cdot p_{X \mid Y}(x \mid y), & \text{离散情形} \\ \int_{-\infty}^{\infty} x \cdot f_{X \mid Y}(x \mid y) \, dx, & \text{连续情形} \end{cases}

条件期望 E[XY]E[X \mid Y] 本身是 YY 的函数,也是一个随机变量,在计量经济学中被称为回归函数。类似地,条件方差衡量条件分布的离散程度:

Var(XY)=E[(XE[XY])2Y]\operatorname{Var}(X \mid Y) = E[(X - E[X \mid Y])^2 \mid Y]

全期望法则与全方差法则

条件分布孕育了两个极其重要的分解定理。

全期望法则 (Law of Total Expectation):

E[X]=E[E[XY]]E[X] = E[E[X \mid Y]]

即无条件期望等于条件期望的期望。该公式在分层抽样面板数据分析中广泛应用。

全方差法则 (Law of Total Variance):

Var(X)=E[Var(XY)]+Var(E[XY])\operatorname{Var}(X) = E[\operatorname{Var}(X \mid Y)] + \operatorname{Var}(E[X \mid Y])

它将总方差分解为"组内方差"的期望与"组间方差"之和,是方差分析 (ANOVA) 的理论根基。

条件独立

若对于所有 x,y,zx, y, z 有:

pXY,Z(xy,z)=pXZ(xz)p_{X \mid Y, Z}(x \mid y, z) = p_{X \mid Z}(x \mid z)

则称在给定 ZZ 的条件下,XXYY 条件独立,记作 X ⁣ ⁣ ⁣YZX \perp\!\!\!\perp Y \mid Z。条件独立是图模型贝叶斯网络的基石,也是匹配估计量工具变量法中条件独立假设 (CIA) 的理论基础。

应用

贝叶斯统计中,条件分布连接了先验、似然与后验:后验分布 p(θD)p(\theta \mid D) 本质上是给定数据 DD 下参数 θ\theta 的条件分布。在线性回归中,核心假设即为 E[YX]=XβE[Y \mid X] = X\beta,直接对条件期望建模。在概率图模型中,条件独立关系用于化简高维联合分布的表达与推断,使得马尔可夫链蒙特卡洛 (MCMC) 等计算方法成为可能。