ARTICLE

概率质量函数 (probability mass function)

概率质量函数 (Probability Mass Function) 概率质量函数 (Probability Mass Function，简称 PMF) 是概率论与统计学中描述离散随机变量概率分布的核心工具。对于任何一个离散随机变量，PMF 将变量的每一个可能取值映射到该取值出现的精确概率。与连续随机变量所使用的概率密度函数 (Probability Den

浏览 0 更新 2026-01-20

概率质量函数 (Probability Mass Function)

概率质量函数 (Probability Mass Function，简称 PMF) 是概率论与统计学中描述离散随机变量概率分布的核心工具。对于任何一个离散随机变量，PMF 将变量的每一个可能取值映射到该取值出现的精确概率。与连续随机变量所使用的概率密度函数 (Probability Density Function, PDF) 不同，PMF 给出的函数值本身就是概率——即随机变量恰好等于某个特定值的可能性大小。

形式化定义

设 $X$ 为定义在样本空间 $\Omega$ 上的离散随机变量，其所有可能取值的集合（称为支撑集，Support）为可数集 $S_X = \{x_1, x_2, x_3, \dots\}$ 。则 $X$ 的概率质量函数是一个映射 $p_X: \mathbb{R} \to [0, 1]$ ，定义为：

p_X(x) = P(X = x), \quad x \in \mathbb{R}

此式表明：对于任意实数 $x$ ，函数值 $p_X(x)$ 等于事件 $\{X = x\}$ 的概率。若 $x \in S_X$ （即 $x$ 是 $X$ 的可能取值），则 $p_X(x) > 0$ ；若 $x \notin S_X$ ，则 $p_X(x) = 0$ 。

习惯上，当随机变量在上下文中无歧义时，常省略下标，简记为 $p(x)$ 。

基本性质：两条公理

一个实值函数能够充当合法的概率质量函数，必须同时满足以下两条基本性质。这两条性质直接来源于概率的公理化定义（Kolmogorov公理），是所有离散分布的充要条件。

非负性 (Non-negativity)。对一切 $x \in \mathbb{R}$ ，有 $p_X(x) \geq 0$ 。概率不可能为负数，这是概率作为测度的基本要求。
归一性 (Normalization)。遍历支撑集中所有可能的取值，概率之和必须等于 1： \[ \sum_{x \in S_X} p_X(x) = 1 \] 该条件保证了"所有可能结果中必有一个发生"这一必然事件的概率为 1。由于 $p_X(x)$ 仅在支撑集上取正值，此求和等价于对全体实数求和： $\sum_{x \in \mathbb{R}} p_X(x) = 1$ 。

任意一个同时满足非负性和归一性的函数，都对应着某个离散随机变量的概率分布——这是数学上构造新分布的基本方法之一。

与累积分布函数的关系

概率质量函数与累积分布函数 (Cumulative Distribution Function, CDF) 构成离散分布的两种等价刻画，二者可相互转换。

CDF 定义为 $F_X(x) = P(X \leq x)$ ，即随机变量取值不超过 $x$ 的累积概率。由 PMF 计算 CDF，只需将不超过 $x$ 的所有可能取值对应的概率质量累加：

F_X(x) = P(X \leq x) = \sum_{k \leq x,\, k \in S_X} p_X(k)

离散随机变量的 CDF 呈现为右连续的阶梯函数：在每一个可能取值 $x_k$ 处发生跳跃，跳跃高度恰好等于该点的概率质量 $p_X(x_k)$ 。在各可能取值之间的区间上，CDF 保持常数。

反之，从 CDF 恢复 PMF 只需提取跳跃量：

p_X(x) = F_X(x) - \lim_{y \to x^-} F_X(y)

这种等价性意味着学者可以依据分析便利性，在 PMF 和 CDF 之间自由切换——PMF 适合讨论单点概率，CDF 适合计算区间概率和分位数。

经典示例

示例一：公平骰子。投掷一枚标准的六面公平骰子，令 $X$ 为朝上的点数。支撑集 $S_X = \{1, 2, 3, 4, 5, 6\}$ ，PMF 为：

p_X(k) = \begin{cases} 1/6, & k = 1, 2, \dots, 6 \\ 0, & \text{otherwise} \end{cases}

易验证 $\sum_{k=1}^6 p_X(k) = 6 \times \frac{1}{6} = 1$ 。

示例二：伯努利分布。伯努利分布是仅含"成功"（编码为 1）与"失败"（编码为 0）两种结果的单次试验模型。设成功概率为 $p \in [0, 1]$ ，则 PMF 可紧凑地写为：

p_X(k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\}

代入 $k=1$ 得 $P(X=1)=p$ ，代入 $k=0$ 得 $P(X=0)=1-p$ 。

示例三：二项分布。二项分布是 $n$ 次独立伯努利试验中成功总次数的分布。PMF 为：

p_X(k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n

其中二项系数 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 计数了在 $n$ 次试验中恰好出现 $k$ 次成功的不同排列方式。概率质量被分配在有限支撑集 $\{0, 1, \dots, n\}$ 上。

示例四：泊松分布。泊松分布描述单位时间（或空间、面积）内稀有事件发生次数的概率规律，支撑集为可数无限集 $\{0, 1, 2, \dots\}$ 。若平均发生率（强度参数）为 $\lambda > 0$ ，PMF 为：

p_X(k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots

归一性由指数函数的 Taylor 展开保证： $\sum_{k=0}^\infty \frac{\lambda^k}{k!} = e^{\lambda}$ ，乘以 $e^{-\lambda}$ 后和为 1。

PMF 的应用：期望与方差的计算

概率质量函数一旦确定，随机变量的所有数值特征均可由其导出。两个最重要的矩为期望（Expectation）和方差（Variance）。

期望值（一阶原点矩）定义为取值以概率为权的加权平均：

E[X] = \sum_{x \in S_X} x \cdot p_X(x)

方差（二阶中心矩）度量取值围绕期望的离散程度：

\operatorname{Var}(X) = E\left[(X - E[X])^2\right] = \sum_{x \in S_X} (x - E[X])^2 \cdot p_X(x)

更一般地，对于任意函数 $g(X)$ ，其期望为 $E[g(X)] = \sum_{x \in S_X} g(x) \, p_X(x)$ 。这一框架使得 PMF 成为计算一切概率特征的出发点。

此外，PMF 可直接用于计算任意事件的概率。设 $A \subseteq \mathbb{R}$ 为任一（可测）集合，则：

P(X \in A) = \sum_{x \in A \cap S_X} p_X(x)

简而言之，将事件涉及的取值对应的概率质量逐一相加即可。

PMF 与 PDF 的关键对比

初学者极易混淆概率质量函数 (PMF) 与概率密度函数 (PDF)。以下从四个维度加以区分。

适用变量类型：PMF 仅适用于离散随机变量——取值可逐一列举；PDF 适用于连续随机变量——取值充满某个区间，不可逐个计数。
函数值含义：PMF 的值 $p_X(x)$ 就是概率，始终介于 0 与 1 之间。PDF 的值 $f_X(x)$ 是概率密度而非概率本身，其数值可以超过 1（只要积分面积不超过 1）。
单点概率：对离散变量， $P(X = x) = p_X(x) > 0$ 是可能的。对连续变量，任何单点的概率恒为零（ $P(X = x) = 0$ ），只有区间才具有非零概率。
概率计算方式：离散情形使用求和 $\sum$ 累加概率质量；连续情形使用积分 $\int$ 计算密度曲线下的面积。

这一区别的根源在于测度论：PMF 是关于计数测度 (Counting Measure) 的 Radon-Nikodym 导数，而 PDF 是关于 Lebesgue 测度的导数。两者统一于概率分布的一般理论框架之中。

在统计学与计量经济学中的地位

概率质量函数是连接概率理论与统计推断的桥梁。

1. 似然函数的构造。在参数估计中，极大似然估计 (MLE) 以 PMF（或 PDF）为基础构造似然函数。对于独立同分布样本 $x_1, \dots, x_n$ ，似然函数为各观测点 PMF 的乘积： $L(\theta) = \prod_{i=1}^n p_X(x_i; \theta)$ ，最大化该函数即得参数的 MLE。

2. 充分统计量与指数族。许多常用离散分布（伯努利、二项、泊松、几何）均属于指数族分布，其 PMF 可写为统一形式 $p(x \mid \theta) = h(x) \exp\{\eta(\theta)^\top T(x) - A(\theta)\}$ 。此结构直接揭示了充分统计量 $T(x)$ 和费雪-奈曼分解定理的代数本质。

3. 拟合优度与列联表。在应用计量中，卡方拟合优度检验将被观测类别频数与由 PMF 导出的理论期望频数进行对比，从而判断数据是否符合某个假定的离散分布。列联表分析中，单元格概率的乘积结构（独立性假设）与边际 PMF 的关系则是卡方独立性检验的理论基础。

4. 离散选择模型。Logit、Probit 等二元选择模型的核心输出——选择概率 $P(Y=1 \mid X)$ ——本质上就是给定协变量条件下响应变量的条件 PMF。整个离散选择分析的预测、边际效应和政策模拟，均植根于 PMF 的概念框架。

常见误区与注意事项

混淆 PMF 与 PDF。最常见的错误是将离散变量的 PMF 类比为连续变量的 PDF，并误以为 PDF 在某点的值等于概率。须牢记：连续情形下概率由积分面积给出，密度值可以大于 1。
忽视支撑集。PMF 的定义域是全体实数，而不仅仅是其正值区域。在数学推导中（例如卷积公式、变量变换），必须明确区分"可能取值"与"其他值"，否则容易遗漏零概率项或错误扩展求和范围。
将 PMF 等同于频率。虽然频率学派的概率解释以大量重复试验中的相对频率为直觉基础，但 PMF 是一个数学函数，描述的是理论上的概率模型，而非有限次实验的经验频率——后者只是前者的近似估计。
忽视独立性假设。二项分布、泊松分布的推导依赖于独立性假设。在现实应用中，若事件之间不独立而仍强行套用标准 PMF，将导致严重的推断偏误。

概率质量函数是理解离散随机现象的起点，也是构造更复杂概率模型（如联合概率质量函数、条件概率分布、混合分布）的基本构件。掌握 PMF 的定义、性质及其与 CDF、PDF 的关系，是深入学习数理统计、计量经济学和机器学习中概率建模的必备基础。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。