ARTICLE
边际概率质量函数
边际概率质量函数 (Marginal Probability Mass Function) 边际概率质量函数,英文为 Marginal Probability Mass Function,常缩写为 Marginal PMF,是概率论中用于描述多个离散随机变量的联合分布中某一个(或某几个)变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出
边际概率质量函数 (Marginal Probability Mass Function)
边际概率质量函数,英文为 Marginal Probability Mass Function,常缩写为 Marginal PMF,是概率论中用于描述多个离散随机变量的联合分布中某一个(或某几个)变量单独分布的核心工具。它从联合概率质量函数 (Joint PMF) 出发,通过对其余变量求和 (Summation) 的方式,消除(即"边际化")这些变量的影响,从而还原出单个变量的概率分布。
这一概念之所以冠以"边际"(Marginal)之名,源于历史上手工计算联合概率时,常将各行、各列的概率分别汇总,记录在表格的"页边" (margin) 上——这些页边汇总值恰好就是边际概率。
定义与数学表述
设 与 为两个定义在相同样本空间上的离散随机变量,其联合概率质量函数为:
该函数给出了 取特定值 且 取特定值 的联合概率。所有可能的 组合的概率之和为 1:
在此基础上,分别关于 和 的边际概率质量函数定义为:
这里, 是 的边际 PMF:要得到 的概率,只需固定 ,然后将 所有可能取值对应的联合概率全部累加。同理, 是 的边际 PMF。
上述定义可以自然地推广到 个离散随机变量 的情形。若联合 PMF 为 ,则 的边际 PMF 为对其余 个变量的所有取值求和:
这一操作在数学上称为边际化 (Marginalization)。它本质上是全概率公式的一个直接应用:固定 ,事件 可以按 的取值划分为互斥的子事件族 ,将这些子事件的概率相加即得 。
直观示例:双骰子
考虑同时投掷两枚公平的六面骰子。设 为第一枚骰子的点数, 为第二枚骰子的点数。每个 组合()的概率均等:
现在求 的边际 PMF ——即仅关注第一枚骰子点数、完全不考虑第二枚骰子点数时的概率分布:
这自然地恢复了一个直观的结果: 服从均匀分布,每个点数出现的概率为 。同理,。
这个例子虽简单,但清晰地展示了边际化的逻辑:联合分布包含了"完整的信息",而边际分布是通过"积分掉"(离散情况下是"求和掉")不关心的变量后得到的"投影"。
更具启发性的例子:非均匀联合分布
考虑一个更复杂的例子。设 表示某学生是否参加了补习班(1 表示参加), 表示该学生期末考试的成绩等级(0 = 不及格,1 = 及格,2 = 优秀)。其联合 PMF 如下表所示:
表格的边缘(最右列和最底行)即为边际 PMF。例如:
- :未参加补习班的概率是 55\%。
- :参加补习班的概率是 45\%。
- :成绩不及格的概率为 25\%。
- :成绩优秀的概率为 35\%。
边际 PMF 回答了"若不考虑另一个变量,某个变量单独的概率分布是什么?"这一问题。值得强调的是,仅从边际 PMF 无法还原联合 PMF——边际化是一个"有损"的操作,丢失了变量之间的关联结构信息。例如,仅知道 和 ,无法推知联合概率 ,因为这个值还取决于 与 之间的相关性。
与条件分布和独立性的关系
边际 PMF 与条件概率质量函数 (Conditional PMF) 通过贝叶斯公式紧密相连。给定 的条件下 的条件 PMF 定义为:
由此,联合 PMF 可被因式分解为边际 PMF 与条件 PMF 的乘积:
这一分解在贝叶斯统计中具有根本性的重要意义:它将联合模型拆分为"先验"(边际分布)和"似然"(条件分布)两个模块,使得分层建模成为可能。
当且仅当 与 独立时,联合 PMF 可以简单地分解为边际 PMF 的乘积:
这是独立性的等价定义,也是检验两个离散随机变量是否独立的可操作方法:验证联合分布表中每个单元格的概率是否等于对应边际概率的乘积。
边际 PMF 与边际 PDF 的对比
在连续随机变量的情形中,边际 PMF 的对应物是边际概率密度函数 (Marginal PDF)。若 与 为连续型,联合密度为 ,则边际密度为:
这与离散情形在逻辑上完全平行——唯一的区别在于将求和 替换为积分 。两者都体现了"边际化即消除不关心的变量"这一核心思想。
无论是离散还是连续,边际分布都是概率论中最基础也最常用的运算之一。在计量经济学的应用中,研究者常常只关心某个变量的分布特征(如收入的分布、教育年限的分布),而无论其他控制变量如何,这种"只看一个变量"的分析本质上就是在使用边际分布。
计量经济学中的应用
边际 PMF 的概念在计量经济学中广泛渗透于各类分析和估计方法之中。
1. 样本分布的描述性统计。 在任何一项实证研究的起始阶段,研究者通常会报告各变量的描述性统计:均值、标准差、分位数以及频数分布表。频数分布表本质上就是样本中该变量的经验边际 PMF——它将其他所有变量"边际化"掉,仅呈现该变量的单变量分布全貌。
2. 离散选择模型中的边际效应。 在Logit模型和Probit模型等二元选择模型中,研究者关心的核心问题是:解释变量 的变化如何影响结果 的概率 。这一概率本身就是 的条件 PMF 在 处的值。而若要考察 的"边际效应" (Marginal Effect),即将其他变量固定在均值或其他代表性水平上,计算 关于 的偏导数。这里的"边际"一词虽与本文的边际分布含义不同,但在精神上一脉相承:都是在多维系统中,聚焦于单一维度的变化。
3. 潜变量模型与缺失数据。 在包含潜变量或缺失数据的模型中,联合 PMF 通常可以显式写出,但观测数据仅提供了部分变量的信息。此时,通过边际化消除不可观测的潜变量,得到可观测变量的边际分布,进而构造似然函数进行参数估计,是处理这类模型的标准技术。例如,在有限混合模型中,每个观测值来自哪个子总体(类别标签)是无法观测的潜变量;通过对类别标签的边际化,就能得到观测数据的边际似然函数:
其中 为第 个子总体的混合权重,正是类别标签的边际 PMF。
4. 列联表分析与独立性检验。 列联表是分析两个(或多个)分类变量之间关系的标准工具。列联表的每个单元格记录了联合频数,而行合计和列合计即为经验边际频数。基于边际 PMF 与联合 PMF 之间的独立性条件(),卡方独立性检验 (Chi-Squared Test of Independence) 比较观测频数与在独立性零假设下的期望频数(由边际频数乘积推算),判断两个分类变量是否存在显著关联。
重要性质小结
- 非负性:对任意 ,。因为联合 PMF 非负,求和保持非负。
- 归一性:。这由联合 PMF 的归一性和求和的可交换性保证: \[ \sum_x p_X(x) = \sum_x \sum_y p_{X,Y}(x, y) = 1 \]
- 信息损失:边际 PMF 不能唯一确定联合 PMF。无数个不同的联合分布可能产生完全相同的边际分布——这是关联结构(如通过Copula建模)之所以重要的根本原因。
- 对称性:若联合 PMF 关于 和 对称,即 对所有 成立,则 和 具有相同的边际 PMF。
- 线性性质:边际化操作与期望的线性性质兼容。若 是仅依赖于 的函数,则: \[ E[g(X)] = \sum_x g(x) \, p_X(x) = \sum_x \sum_y g(x) \, p_{X,Y}(x, y) \] 这说明了为什么在计算仅涉及单个变量的期望时,可以直接使用边际 PMF,而不需要回到联合分布。
边际概率质量函数虽然是一个基础性概念,但它是理解多元分布、条件分布、独立性以及更高级的概率模型不可或缺的起点。从简单的双变量频数表到包含潜变量的复杂分层模型,边际化的思想贯穿了整个统计学和计量经济学的理论体系。