ARTICLE

边际概率质量函数

边际概率质量函数 (Marginal Probability Mass Function) 边际概率质量函数，英文为 Marginal Probability Mass Function，常缩写为 Marginal PMF，是概率论中用于描述多个离散随机变量的联合分布中某一个（或某几个）变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出

浏览 42 更新 2026-01-20

边际概率质量函数 (Marginal Probability Mass Function)

边际概率质量函数，英文为 Marginal Probability Mass Function，常缩写为 Marginal PMF，是概率论中用于描述多个离散随机变量的联合分布中某一个（或某几个）变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出发，通过对其余变量求和 (Summation) 的方式，消除（即"边际化"）这些变量的影响，从而还原出单个变量的概率分布。

这一概念之所以冠以"边际"（Marginal）之名，源于历史上手工计算联合概率时，常将各行、各列的概率分别汇总，记录在表格的"页边" (margin) 上——这些页边汇总值恰好就是边际概率。

定义与数学表述

设 $X$ 与 $Y$ 为两个定义在相同样本空间上的离散随机变量，其联合概率质量函数为：

p_{X,Y}(x, y) = P(X = x, Y = y)

该函数给出了 $X$ 取特定值 $x$ 且 $Y$ 取特定值 $y$ 的联合概率。所有可能的 $(x, y)$ 组合的概率之和为 1：

\sum_{x}\sum_{y} p_{X,Y}(x, y) = 1

在此基础上，分别关于 $X$ 和 $Y$ 的边际概率质量函数定义为：

\boxed{p_X(x) = P(X = x) = \sum_{y} p_{X,Y}(x, y)}

\boxed{p_Y(y) = P(Y = y) = \sum_{x} p_{X,Y}(x, y)}

这里， $p_X(x)$ 是 $X$ 的边际 PMF：要得到 $X = x$ 的概率，只需固定 $X = x$ ，然后将 $Y$ 所有可能取值对应的联合概率全部累加。同理， $p_Y(y)$ 是 $Y$ 的边际 PMF。

上述定义可以自然地推广到 $n$ 个离散随机变量 $X_1, X_2, \dots, X_n$ 的情形。若联合 PMF 为 $p_{X_1, \dots, X_n}(x_1, \dots, x_n)$ ，则 $X_1$ 的边际 PMF 为对其余 $n-1$ 个变量的所有取值求和：

p_{X_1}(x_1) = \sum_{x_2} \cdots \sum_{x_n} p_{X_1, \dots, X_n}(x_1, \dots, x_n)

这一操作在数学上称为边际化 (Marginalization)。它本质上是全概率公式的一个直接应用：固定 $X = x$ ，事件 $\{X = x\}$ 可以按 $Y$ 的取值划分为互斥的子事件族 $\{X = x, Y = y_1\}, \{X = x, Y = y_2\}, \dots$ ，将这些子事件的概率相加即得 $P(X = x)$ 。

直观示例：双骰子

考虑同时投掷两枚公平的六面骰子。设 $X$ 为第一枚骰子的点数， $Y$ 为第二枚骰子的点数。每个 $(x, y)$ 组合（ $x, y \in \{1, \dots, 6\}$ ）的概率均等：

p_{X,Y}(x, y) = \frac{1}{36}, \quad \forall x, y

现在求 $X$ 的边际 PMF $p_X(x)$ ——即仅关注第一枚骰子点数、完全不考虑第二枚骰子点数时的概率分布：

p_X(x) = \sum_{y=1}^{6} p_{X,Y}(x, y) = \sum_{y=1}^{6} \frac{1}{36} = \frac{6}{36} = \frac{1}{6}, \quad x = 1, 2, \dots, 6

这自然地恢复了一个直观的结果： $X$ 服从均匀分布，每个点数出现的概率为 $1/6$ 。同理， $p_Y(y) = 1/6$ 。

这个例子虽简单，但清晰地展示了边际化的逻辑：联合分布包含了"完整的信息"，而边际分布是通过"积分掉"（离散情况下是"求和掉"）不关心的变量后得到的"投影"。

更具启发性的例子：非均匀联合分布

考虑一个更复杂的例子。设 $X \in \{0, 1\}$ 表示某学生是否参加了补习班（1 表示参加）， $Y \in \{0, 1, 2\}$ 表示该学生期末考试的成绩等级（0 = 不及格，1 = 及格，2 = 优秀）。其联合 PMF 如下表所示：

\begin{array}{c|ccc|c} p_{X,Y}(x, y) & Y=0 & Y=1 & Y=2 & p_X(x) \\ \hline X=0 & 0.20 & 0.25 & 0.10 & 0.55 \\ X=1 & 0.05 & 0.15 & 0.25 & 0.45 \\ \hline p_Y(y) & 0.25 & 0.40 & 0.35 & 1.00 \end{array}

表格的边缘（最右列和最底行）即为边际 PMF。例如：

$p_X(0) = 0.20 + 0.25 + 0.10 = 0.55$ ：未参加补习班的概率是 55\%。
$p_X(1) = 0.05 + 0.15 + 0.25 = 0.45$ ：参加补习班的概率是 45\%。
$p_Y(0) = 0.20 + 0.05 = 0.25$ ：成绩不及格的概率为 25\%。
$p_Y(2) = 0.10 + 0.25 = 0.35$ ：成绩优秀的概率为 35\%。

边际 PMF 回答了"若不考虑另一个变量，某个变量单独的概率分布是什么？"这一问题。值得强调的是，仅从边际 PMF 无法还原联合 PMF——边际化是一个"有损"的操作，丢失了变量之间的关联结构信息。例如，仅知道 $p_X(0) = 0.55$ 和 $p_Y(2) = 0.35$ ，无法推知联合概率 $p_{X,Y}(0, 2) = 0.10$ ，因为这个值还取决于 $X$ 与 $Y$ 之间的相关性。

与条件分布和独立性的关系

边际 PMF 与条件概率质量函数 (Conditional PMF) 通过贝叶斯公式紧密相连。给定 $Y = y$ 的条件下 $X$ 的条件 PMF 定义为：

p_{X|Y}(x \mid y) = \frac{p_{X,Y}(x, y)}{p_Y(y)}, \quad \text{前提是 } p_Y(y) > 0

由此，联合 PMF 可被因式分解为边际 PMF 与条件 PMF 的乘积：

p_{X,Y}(x, y) = p_{X|Y}(x \mid y) \cdot p_Y(y) = p_{Y|X}(y \mid x) \cdot p_X(x)

这一分解在贝叶斯统计中具有根本性的重要意义：它将联合模型拆分为"先验"（边际分布）和"似然"（条件分布）两个模块，使得分层建模成为可能。

当且仅当 $X$ 与 $Y$ 独立时，联合 PMF 可以简单地分解为边际 PMF 的乘积：

p_{X,Y}(x, y) = p_X(x) \cdot p_Y(y), \quad \forall x, y

这是独立性的等价定义，也是检验两个离散随机变量是否独立的可操作方法：验证联合分布表中每个单元格的概率是否等于对应边际概率的乘积。

边际 PMF 与边际 PDF 的对比

在连续随机变量的情形中，边际 PMF 的对应物是边际概率密度函数 (Marginal PDF)。若 $X$ 与 $Y$ 为连续型，联合密度为 $f_{X,Y}(x, y)$ ，则边际密度为：

f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) \, dy

这与离散情形在逻辑上完全平行——唯一的区别在于将求和 $\sum$ 替换为积分 $\int$ 。两者都体现了"边际化即消除不关心的变量"这一核心思想。

无论是离散还是连续，边际分布都是概率论中最基础也最常用的运算之一。在计量经济学的应用中，研究者常常只关心某个变量的分布特征（如收入的分布、教育年限的分布），而无论其他控制变量如何，这种"只看一个变量"的分析本质上就是在使用边际分布。

计量经济学中的应用

边际 PMF 的概念在计量经济学中广泛渗透于各类分析和估计方法之中。

1. 样本分布的描述性统计。 在任何一项实证研究的起始阶段，研究者通常会报告各变量的描述性统计：均值、标准差、分位数以及频数分布表。频数分布表本质上就是样本中该变量的经验边际 PMF——它将其他所有变量"边际化"掉，仅呈现该变量的单变量分布全貌。

2. 离散选择模型中的边际效应。 在Logit模型和Probit模型等二元选择模型中，研究者关心的核心问题是：解释变量 $X_j$ 的变化如何影响结果 $Y=1$ 的概率 $P(Y=1 \mid X)$ 。这一概率本身就是 $Y$ 的条件 PMF 在 $Y=1$ 处的值。而若要考察 $X_j$ 的"边际效应" (Marginal Effect)，即将其他变量固定在均值或其他代表性水平上，计算 $P(Y=1)$ 关于 $X_j$ 的偏导数。这里的"边际"一词虽与本文的边际分布含义不同，但在精神上一脉相承：都是在多维系统中，聚焦于单一维度的变化。

3. 潜变量模型与缺失数据。 在包含潜变量或缺失数据的模型中，联合 PMF 通常可以显式写出，但观测数据仅提供了部分变量的信息。此时，通过边际化消除不可观测的潜变量，得到可观测变量的边际分布，进而构造似然函数进行参数估计，是处理这类模型的标准技术。例如，在有限混合模型中，每个观测值来自哪个子总体（类别标签）是无法观测的潜变量；通过对类别标签的边际化，就能得到观测数据的边际似然函数：

p(\mathbf{y} \mid \theta) = \sum_{k=1}^{K} \pi_k \cdot p(\mathbf{y} \mid \theta_k)

其中 $\pi_k$ 为第 $k$ 个子总体的混合权重，正是类别标签的边际 PMF。

4. 列联表分析与独立性检验。 列联表是分析两个（或多个）分类变量之间关系的标准工具。列联表的每个单元格记录了联合频数，而行合计和列合计即为经验边际频数。基于边际 PMF 与联合 PMF 之间的独立性条件（ $p_{X,Y} = p_X \cdot p_Y$ ），卡方独立性检验 (Chi-Squared Test of Independence) 比较观测频数与在独立性零假设下的期望频数（由边际频数乘积推算），判断两个分类变量是否存在显著关联。

重要性质小结

非负性：对任意 $x$ ， $p_X(x) \geq 0$ 。因为联合 PMF 非负，求和保持非负。
归一性： $\sum_x p_X(x) = 1$ 。这由联合 PMF 的归一性和求和的可交换性保证： \[ \sum_x p_X(x) = \sum_x \sum_y p_{X,Y}(x, y) = 1 \]
信息损失：边际 PMF 不能唯一确定联合 PMF。无数个不同的联合分布可能产生完全相同的边际分布——这是关联结构（如通过Copula建模）之所以重要的根本原因。
对称性：若联合 PMF 关于 $X$ 和 $Y$ 对称，即 $p_{X,Y}(a, b) = p_{X,Y}(b, a)$ 对所有 $a, b$ 成立，则 $X$ 和 $Y$ 具有相同的边际 PMF。
线性性质：边际化操作与期望的线性性质兼容。若 $g(X)$ 是仅依赖于 $X$ 的函数，则： \[ E[g(X)] = \sum_x g(x) \, p_X(x) = \sum_x \sum_y g(x) \, p_{X,Y}(x, y) \] 这说明了为什么在计算仅涉及单个变量的期望时，可以直接使用边际 PMF，而不需要回到联合分布。

边际概率质量函数虽然是一个基础性概念，但它是理解多元分布、条件分布、独立性以及更高级的概率模型不可或缺的起点。从简单的双变量频数表到包含潜变量的复杂分层模型，边际化的思想贯穿了整个统计学和计量经济学的理论体系。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。