ARTICLE

联合概率质量函数

%% id: 1271 word: "联合概率质量函数" created\_model: "google/gemini-2.5-pro" verified: true verified\_at: "2025-10-26T00:14:03" created\_by\_id: 1 view\_counts: 5 inserted\_at: "2025-10-26

浏览 0

%%

id: 1271 word: "联合概率质量函数" created\_model: "google/gemini-2.5-pro" verified: true verified\_at: "2025-10-26T00:14:03" created\_by\_id: 1 view\_counts: 5 inserted\_at: "2025-10-26T00:04:28" updated\_at: "2025-10-26T00:14:03" \%\%

联合概率质量函数 (Joint Probability Mass Function)

联合概率质量函数(Joint Probability Mass Function, Joint PMF)是概率论中用于描述两个或多个离散随机变量(Discrete Random Variables)同时取特定值的概率分布的函数。对于一组离散随机变量 X1,X2,,Xn X_1, X_2, \ldots, X_n ,其联合概率质量函数定义为 pX1,X2,,Xn(x1,x2,,xn)=P(X1=x1,X2=x2,,Xn=xn) p_{X_1, X_2, \ldots, X_n}(x_1, x_2, \ldots, x_n) = P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) 。该函数满足两个基本性质:其一,所有可能取值组合的概率值非负,即 p(x1,,xn)0 p(x_1, \ldots, x_n) \geq 0 ;其二,对所有可能的取值组合求和等于1,即 x1x2xnp(x1,,xn)=1 \sum_{x_1}\sum_{x_2}\cdots\sum_{x_n} p(x_1, \ldots, x_n) = 1 。联合概率质量函数是理解多变量离散系统的基础工具,广泛应用于统计学机器学习信息论计量经济学等领域。

与边缘概率质量函数的关系

从联合概率质量函数出发,可以通过求和运算得到单个随机变量的边缘概率质量函数(Marginal PMF)。具体而言,对于两个离散随机变量 X X Y Y X X 的边缘概率质量函数为 pX(x)=ypX,Y(x,y) p_X(x) = \sum_{y} p_{X,Y}(x, y) Y Y 的边缘概率质量函数为 pY(y)=xpX,Y(x,y) p_Y(y) = \sum_{x} p_{X,Y}(x, y) 。这一过程实质上是将联合分布中"求和掉"不关心的变量,从而得到单个变量的边际分布。边缘概率质量函数完全描述了单个变量的概率行为,但其代价是丢失了变量之间的关联信息。

条件概率质量函数

联合概率质量函数还可以导出条件概率质量函数(Conditional PMF)。给定 Y=y Y = y 时,X X 的条件概率质量函数定义为 pXY(xy)=pX,Y(x,y)pY(y) p_{X|Y}(x|y) = \frac{p_{X,Y}(x, y)}{p_Y(y)} ,其中 pY(y)>0 p_Y(y) > 0 。条件概率质量函数量化了在已知部分信息时,对其他随机变量不确定性的更新,体现了贝叶斯思想的核心。当且仅当 pX,Y(x,y)=pX(x)pY(y) p_{X,Y}(x, y) = p_X(x) \cdot p_Y(y) 对所有 (x,y) (x, y) 成立时,X X Y Y 相互独立,此时条件分布等于无条件分布。

多维推广与实际应用

联合概率质量函数自然可以推广到 n n 维情形。在深度学习中,分类任务通常使用Softmax函数输出的类别概率构成条件联合分布;在自然语言处理中,词序列的联合概率 P(w1,w2,,wn) P(w_1, w_2, \ldots, w_n) 语言模型(Language Model)的核心建模目标,通过链式法则(Chain Rule)分解为条件概率的乘积:P(w1,,wn)=i=1nP(wiw1,,wi1) P(w_1, \ldots, w_n) = \prod_{i=1}^{n} P(w_i | w_1, \ldots, w_{i-1}) 。在信息论中,联合概率质量函数是计算联合熵(Joint Entropy)H(X,Y)=xyp(x,y)logp(x,y) H(X, Y) = -\sum_x\sum_y p(x,y) \log p(x,y) 互信息(Mutual Information)I(X;Y)=xyp(x,y)logp(x,y)p(x)p(y) I(X; Y) = \sum_x\sum_y p(x,y) \log\frac{p(x,y)}{p(x)p(y)} 的基础。在计量经济学中,对于离散选择模型(如多项Logit模型),联合概率质量函数刻画了多个决策者在不同选项上选择行为的联合可能性。

常见示例

一个典型的例子是投掷两枚公平的六面骰子,定义 X X 为第一枚骰子的点数,Y Y 为第二枚骰子的点数。由于两枚骰子独立,联合概率质量函数为 pX,Y(x,y)=136 p_{X,Y}(x, y) = \frac{1}{36} ,对 x=1,2,,6 x = 1,2,\ldots,6 y=1,2,,6 y = 1,2,\ldots,6 均成立。若定义 S=X+Y S = X + Y 为点数之和,则 S S 的概率质量函数可由联合概率质量函数求和得到:pS(s)=x=16y=161{x+y=s}136 p_S(s) = \sum_{x=1}^{6} \sum_{y=1}^{6} \mathbf{1}\{x + y = s\} \cdot \frac{1}{36} 。另一个典型例子是多项分布(Multinomial Distribution),它描述了 n n 次独立试验中 k k 个类别各自出现次数的联合概率分布,其联合概率质量函数为 P(X1=x1,,Xk=xk)=n!x1!xk!p1x1pkxk P(X_1 = x_1, \ldots, X_k = x_k) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k} ,其中 i=1kxi=n \sum_{i=1}^k x_i = n i=1kpi=1 \sum_{i=1}^k p_i = 1 。多项分布是二项分布(Binomial Distribution)的多类别推广,在文本分类、基因表达分析和民意调查等领域有广泛应用。

联合概率质量函数作为多变量离散概率系统的描述语言,贯穿于现代数据科学的各个分支,是处理多个随机变量间联合不确定性的不可或缺的数学工具。