ARTICLE

边际概率质量函数

边际概率质量函数 (Marginal Probability Mass Function) 边际概率质量函数,英文为 Marginal Probability Mass Function,常缩写为 Marginal PMF,是概率论中用于描述多个离散随机变量的联合分布中某一个(或某几个)变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出

浏览 42 更新 2026-01-20

边际概率质量函数 (Marginal Probability Mass Function)

边际概率质量函数,英文为 Marginal Probability Mass Function,常缩写为 Marginal PMF,是概率论中用于描述多个离散随机变量的联合分布中某一个(或某几个)变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出发,通过对其余变量求和 (Summation) 的方式,消除(即"边际化")这些变量的影响,从而还原出单个变量的概率分布。

这一概念之所以冠以"边际"(Marginal)之名,源于历史上手工计算联合概率时,常将各行、各列的概率分别汇总,记录在表格的"页边" (margin) 上——这些页边汇总值恰好就是边际概率。

定义与数学表述

XXYY 为两个定义在相同样本空间上的离散随机变量,其联合概率质量函数为:

pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x, y) = P(X = x, Y = y)

该函数给出了 XX 取特定值 xxYY 取特定值 yy 的联合概率。所有可能的 (x,y)(x, y) 组合的概率之和为 1:

xypX,Y(x,y)=1\sum_{x}\sum_{y} p_{X,Y}(x, y) = 1

在此基础上,分别关于 XXYY 的边际概率质量函数定义为:

pX(x)=P(X=x)=ypX,Y(x,y)\boxed{p_X(x) = P(X = x) = \sum_{y} p_{X,Y}(x, y)}
pY(y)=P(Y=y)=xpX,Y(x,y)\boxed{p_Y(y) = P(Y = y) = \sum_{x} p_{X,Y}(x, y)}

这里,pX(x)p_X(x)XX 的边际 PMF:要得到 X=xX = x 的概率,只需固定 X=xX = x,然后将 YY 所有可能取值对应的联合概率全部累加。同理,pY(y)p_Y(y)YY 的边际 PMF。

上述定义可以自然地推广到 nn 个离散随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 的情形。若联合 PMF 为 pX1,,Xn(x1,,xn)p_{X_1, \dots, X_n}(x_1, \dots, x_n),则 X1X_1 的边际 PMF 为对其余 n1n-1 个变量的所有取值求和:

pX1(x1)=x2xnpX1,,Xn(x1,,xn)p_{X_1}(x_1) = \sum_{x_2} \cdots \sum_{x_n} p_{X_1, \dots, X_n}(x_1, \dots, x_n)

这一操作在数学上称为边际化 (Marginalization)。它本质上是全概率公式的一个直接应用:固定 X=xX = x,事件 {X=x}\{X = x\} 可以按 YY 的取值划分为互斥的子事件族 {X=x,Y=y1},{X=x,Y=y2},\{X = x, Y = y_1\}, \{X = x, Y = y_2\}, \dots,将这些子事件的概率相加即得 P(X=x)P(X = x)

直观示例:双骰子

考虑同时投掷两枚公平的六面骰子。设 XX 为第一枚骰子的点数,YY 为第二枚骰子的点数。每个 (x,y)(x, y) 组合(x,y{1,,6}x, y \in \{1, \dots, 6\})的概率均等:

pX,Y(x,y)=136,x,yp_{X,Y}(x, y) = \frac{1}{36}, \quad \forall x, y

现在求 XX 的边际 PMF pX(x)p_X(x)——即仅关注第一枚骰子点数、完全不考虑第二枚骰子点数时的概率分布:

pX(x)=y=16pX,Y(x,y)=y=16136=636=16,x=1,2,,6p_X(x) = \sum_{y=1}^{6} p_{X,Y}(x, y) = \sum_{y=1}^{6} \frac{1}{36} = \frac{6}{36} = \frac{1}{6}, \quad x = 1, 2, \dots, 6

这自然地恢复了一个直观的结果:XX 服从均匀分布,每个点数出现的概率为 1/61/6。同理,pY(y)=1/6p_Y(y) = 1/6

这个例子虽简单,但清晰地展示了边际化的逻辑:联合分布包含了"完整的信息",而边际分布是通过"积分掉"(离散情况下是"求和掉")不关心的变量后得到的"投影"。

更具启发性的例子:非均匀联合分布

考虑一个更复杂的例子。设 X{0,1}X \in \{0, 1\} 表示某学生是否参加了补习班(1 表示参加),Y{0,1,2}Y \in \{0, 1, 2\} 表示该学生期末考试的成绩等级(0 = 不及格,1 = 及格,2 = 优秀)。其联合 PMF 如下表所示:

pX,Y(x,y)Y=0Y=1Y=2pX(x)X=00.200.250.100.55X=10.050.150.250.45pY(y)0.250.400.351.00\begin{array}{c|ccc|c} p_{X,Y}(x, y) & Y=0 & Y=1 & Y=2 & p_X(x) \\ \hline X=0 & 0.20 & 0.25 & 0.10 & 0.55 \\ X=1 & 0.05 & 0.15 & 0.25 & 0.45 \\ \hline p_Y(y) & 0.25 & 0.40 & 0.35 & 1.00 \end{array}

表格的边缘(最右列和最底行)即为边际 PMF。例如:

  • pX(0)=0.20+0.25+0.10=0.55p_X(0) = 0.20 + 0.25 + 0.10 = 0.55:未参加补习班的概率是 55\%。
  • pX(1)=0.05+0.15+0.25=0.45p_X(1) = 0.05 + 0.15 + 0.25 = 0.45:参加补习班的概率是 45\%。
  • pY(0)=0.20+0.05=0.25p_Y(0) = 0.20 + 0.05 = 0.25:成绩不及格的概率为 25\%。
  • pY(2)=0.10+0.25=0.35p_Y(2) = 0.10 + 0.25 = 0.35:成绩优秀的概率为 35\%。

边际 PMF 回答了"若不考虑另一个变量,某个变量单独的概率分布是什么?"这一问题。值得强调的是,仅从边际 PMF 无法还原联合 PMF——边际化是一个"有损"的操作,丢失了变量之间的关联结构信息。例如,仅知道 pX(0)=0.55p_X(0) = 0.55pY(2)=0.35p_Y(2) = 0.35,无法推知联合概率 pX,Y(0,2)=0.10p_{X,Y}(0, 2) = 0.10,因为这个值还取决于 XXYY 之间的相关性

与条件分布和独立性的关系

边际 PMF 与条件概率质量函数 (Conditional PMF) 通过贝叶斯公式紧密相连。给定 Y=yY = y 的条件下 XX 的条件 PMF 定义为:

pXY(xy)=pX,Y(x,y)pY(y),前提是 pY(y)>0p_{X|Y}(x \mid y) = \frac{p_{X,Y}(x, y)}{p_Y(y)}, \quad \text{前提是 } p_Y(y) > 0

由此,联合 PMF 可被因式分解为边际 PMF 与条件 PMF 的乘积:

pX,Y(x,y)=pXY(xy)pY(y)=pYX(yx)pX(x)p_{X,Y}(x, y) = p_{X|Y}(x \mid y) \cdot p_Y(y) = p_{Y|X}(y \mid x) \cdot p_X(x)

这一分解在贝叶斯统计中具有根本性的重要意义:它将联合模型拆分为"先验"(边际分布)和"似然"(条件分布)两个模块,使得分层建模成为可能。

当且仅当 XXYY 独立时,联合 PMF 可以简单地分解为边际 PMF 的乘积:

pX,Y(x,y)=pX(x)pY(y),x,yp_{X,Y}(x, y) = p_X(x) \cdot p_Y(y), \quad \forall x, y

这是独立性的等价定义,也是检验两个离散随机变量是否独立的可操作方法:验证联合分布表中每个单元格的概率是否等于对应边际概率的乘积。

边际 PMF 与边际 PDF 的对比

在连续随机变量的情形中,边际 PMF 的对应物是边际概率密度函数 (Marginal PDF)。若 XXYY 为连续型,联合密度为 fX,Y(x,y)f_{X,Y}(x, y),则边际密度为:

fX(x)=fX,Y(x,y)dyf_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dy

这与离散情形在逻辑上完全平行——唯一的区别在于将求和 \sum 替换为积分 \int。两者都体现了"边际化即消除不关心的变量"这一核心思想。

无论是离散还是连续,边际分布都是概率论中最基础也最常用的运算之一。在计量经济学的应用中,研究者常常只关心某个变量的分布特征(如收入的分布、教育年限的分布),而无论其他控制变量如何,这种"只看一个变量"的分析本质上就是在使用边际分布。

计量经济学中的应用

边际 PMF 的概念在计量经济学中广泛渗透于各类分析和估计方法之中。

1. 样本分布的描述性统计。 在任何一项实证研究的起始阶段,研究者通常会报告各变量的描述性统计:均值、标准差、分位数以及频数分布表。频数分布表本质上就是样本中该变量的经验边际 PMF——它将其他所有变量"边际化"掉,仅呈现该变量的单变量分布全貌。

2. 离散选择模型中的边际效应。Logit模型Probit模型等二元选择模型中,研究者关心的核心问题是:解释变量 XjX_j 的变化如何影响结果 Y=1Y=1 的概率 P(Y=1X)P(Y=1 \mid X)。这一概率本身就是 YY 的条件 PMF 在 Y=1Y=1 处的值。而若要考察 XjX_j 的"边际效应" (Marginal Effect),即将其他变量固定在均值或其他代表性水平上,计算 P(Y=1)P(Y=1) 关于 XjX_j 的偏导数。这里的"边际"一词虽与本文的边际分布含义不同,但在精神上一脉相承:都是在多维系统中,聚焦于单一维度的变化。

3. 潜变量模型与缺失数据。 在包含潜变量或缺失数据的模型中,联合 PMF 通常可以显式写出,但观测数据仅提供了部分变量的信息。此时,通过边际化消除不可观测的潜变量,得到可观测变量的边际分布,进而构造似然函数进行参数估计,是处理这类模型的标准技术。例如,在有限混合模型中,每个观测值来自哪个子总体(类别标签)是无法观测的潜变量;通过对类别标签的边际化,就能得到观测数据的边际似然函数:

p(yθ)=k=1Kπkp(yθk)p(\mathbf{y} \mid \theta) = \sum_{k=1}^{K} \pi_k \cdot p(\mathbf{y} \mid \theta_k)

其中 πk\pi_k 为第 kk 个子总体的混合权重,正是类别标签的边际 PMF。

4. 列联表分析与独立性检验。 列联表是分析两个(或多个)分类变量之间关系的标准工具。列联表的每个单元格记录了联合频数,而行合计和列合计即为经验边际频数。基于边际 PMF 与联合 PMF 之间的独立性条件(pX,Y=pXpYp_{X,Y} = p_X \cdot p_Y),卡方独立性检验 (Chi-Squared Test of Independence) 比较观测频数与在独立性零假设下的期望频数(由边际频数乘积推算),判断两个分类变量是否存在显著关联。

重要性质小结

  1. 非负性:对任意 xxpX(x)0p_X(x) \geq 0。因为联合 PMF 非负,求和保持非负。
  2. 归一性xpX(x)=1\sum_x p_X(x) = 1。这由联合 PMF 的归一性和求和的可交换性保证: \[ \sum_x p_X(x) = \sum_x \sum_y p_{X,Y}(x, y) = 1 \]
  3. 信息损失:边际 PMF 不能唯一确定联合 PMF。无数个不同的联合分布可能产生完全相同的边际分布——这是关联结构(如通过Copula建模)之所以重要的根本原因。
  4. 对称性:若联合 PMF 关于 XXYY 对称,即 pX,Y(a,b)=pX,Y(b,a)p_{X,Y}(a, b) = p_{X,Y}(b, a) 对所有 a,ba, b 成立,则 XXYY 具有相同的边际 PMF。
  5. 线性性质:边际化操作与期望的线性性质兼容。若 g(X)g(X) 是仅依赖于 XX 的函数,则: \[ E[g(X)] = \sum_x g(x) \, p_X(x) = \sum_x \sum_y g(x) \, p_{X,Y}(x, y) \] 这说明了为什么在计算仅涉及单个变量的期望时,可以直接使用边际 PMF,而不需要回到联合分布。

边际概率质量函数虽然是一个基础性概念,但它是理解多元分布、条件分布、独立性以及更高级的概率模型不可或缺的起点。从简单的双变量频数表到包含潜变量的复杂分层模型,边际化的思想贯穿了整个统计学和计量经济学的理论体系。