ARTICLE

联合概率分布

联合概率分布 (Joint Probability Distribution) 联合概率分布 (Joint Probability Distribution) 是概率论与统计学中描述两个或多个随机变量同时取值的概率规律的核心工具。单个随机变量的概率分布刻画了该变量各自取值的可能性,而联合分布则进一步揭示了变量之间的关联结构——它们是否倾向于同时取大值、是否存

浏览 7 更新 2025-12-23

联合概率分布 (Joint Probability Distribution)

联合概率分布 (Joint Probability Distribution) 是概率论统计学中描述两个或多个随机变量同时取值的概率规律的核心工具。单个随机变量的概率分布刻画了该变量各自取值的可能性,而联合分布则进一步揭示了变量之间的关联结构——它们是否倾向于同时取大值、是否存在此消彼长的关系,以及在已知一个变量取值时另一个变量的行为如何变化。联合概率分布是多变量统计推断、回归分析计量经济学乃至机器学习中一切多变量建模的数学基础。

离散型联合分布

对于两个离散随机变量 XXYY,其联合分布由联合概率质量函数 (Joint PMF) 完全刻画:

pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x, y) = P(X = x, Y = y)

该函数满足非负性 pX,Y(x,y)0p_{X,Y}(x, y) \ge 0 与归一性 xypX,Y(x,y)=1\sum_x \sum_y p_{X,Y}(x, y) = 1。从联合PMF出发,可以通过求和得到边际分布

pX(x)=ypX,Y(x,y),pY(y)=xpX,Y(x,y)p_X(x) = \sum_y p_{X,Y}(x, y), \quad p_Y(y) = \sum_x p_{X,Y}(x, y)

边际分布将多维问题降维,回答了"仅关心 XX 而忽略 YYXX 的行为如何"这一问题。这一求和过程常被称为"积分掉"或"边际化掉"另一个变量。

给定 Y=yY = y 的条件概率由联合PMF与边际PMF之比定义:

pXY(xy)=pX,Y(x,y)pY(y),pY(y)>0p_{X \mid Y}(x \mid y) = \frac{p_{X,Y}(x, y)}{p_Y(y)}, \quad p_Y(y) > 0

这便是条件分布。条件分布是统计推断的核心——当我们掌握了部分信息(如已知 YY 的取值),便可以更新对 XX 的认知。

连续型联合分布

对于两个连续随机变量,联合分布由联合概率密度函数 (Joint PDF) fX,Y(x,y)f_{X,Y}(x, y) 描述。其核心性质为:对平面内任意可测区域 AA,有

P((X,Y)A)=AfX,Y(x,y)dxdyP((X, Y) \in A) = \iint_A f_{X,Y}(x, y) \, dx \, dy

联合PDF满足非负性 fX,Y(x,y)0f_{X,Y}(x, y) \ge 0 与归一性 R2fX,Y(x,y)dxdy=1\iint_{\mathbb{R}^2} f_{X,Y}(x, y) \, dx \, dy = 1

边际密度通过对另一变量积分得到:

fX(x)=fX,Y(x,y)dy,fY(y)=fX,Y(x,y)dxf_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dy, \quad f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dx

条件密度定义为:

fXY(xy)=fX,Y(x,y)fY(y),fY(y)>0f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)}, \quad f_Y(y) > 0

当条件密度不依赖于条件变量的取值时,两个变量便具有了统计学上最重要的结构性质——独立性

独立性

随机变量 XXYY 称为独立,当且仅当联合分布可分解为边际分布之积:

fX,Y(x,y)=fX(x)fY(y)(连续情形)f_{X,Y}(x, y) = f_X(x) \, f_Y(y) \quad \text{(连续情形)}

pX,Y(x,y)=pX(x)pY(y)(离散情形)p_{X,Y}(x, y) = p_X(x) \, p_Y(y) \quad \text{(离散情形)}

独立意味着知晓 YY 的取值不能为 XX 提供任何信息。与之相对的是相依结构,联合分布所捕获的正是这种相依——变量之间是正相关、负相关,还是存在更复杂的非线性关联。

联合矩与相关性

联合分布的数字特征中最重要的是协方差 (Covariance):

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]\operatorname{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]

协方差的正负与大小反映了线性关联的方向与强度。将其标准化即得到皮尔逊相关系数

ρX,Y=Cov(X,Y)σXσY,1ρ1\rho_{X,Y} = \frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}, \quad -1 \le \rho \le 1

值得注意的是,独立性必然推出零协方差(Cov=0\operatorname{Cov} = 0),但逆命题仅对多元正态分布等特殊分布族成立。零相关不蕴含独立,这是初学者常见的误区——变量间可能存在完美的非线性函数关系(如 Y=X2Y = X^2XX 关于原点对称),但线性相关系数却为零。

多元推广

上述二元情形的所有概念——联合分布、边际分布、条件分布、独立性——均可自然推广至 nn 个随机变量 (X1,X2,,Xn)(X_1, X_2, \ldots, X_n)。此时联合分布刻画了整个随机向量的概率行为,边际化涉及对多个变量的多重求和或积分,而独立性则要求联合分布等于各边际分布之积。在计量经济学中,样本的独立同分布假设正是联合分布的一种特殊而基础的结构:f(x1,,xn)=i=1nf(xi)f(x_1, \ldots, x_n) = \prod_{i=1}^n f(x_i)。更复杂的相依结构则通过Copula函数马尔可夫随机场图模型等工具来建模。

与条件期望的联系

联合分布不仅定义了概率,也定义了条件期望——给定 X=xX = xYY 的期望值:

E[YX=x]=yfYX(yx)dyE[Y \mid X = x] = \int_{-\infty}^{\infty} y \, f_{Y \mid X}(y \mid x) \, dy

条件期望 E[YX]E[Y \mid X] 本身是 XX 的函数,被视为回归分析的理论基础。事实上,在均方误差最小的意义下,E[YX]E[Y \mid X]YYXX 的最优预测器,这一性质构成了线性回归和非参数回归共同的概率论根基。理解联合分布是理解一切多变量统计方法的必要前提。