ARTICLE

概率质量函数 (probability mass function)

概率质量函数 (Probability Mass Function) 概率质量函数 (Probability Mass Function,简称 PMF) 是概率论与统计学中描述离散随机变量概率分布的核心工具。对于任何一个离散随机变量,PMF 将变量的每一个可能取值映射到该取值出现的精确概率。与连续随机变量所使用的概率密度函数 (Probability Den

浏览 0 更新 2026-01-20

概率质量函数 (Probability Mass Function)

概率质量函数 (Probability Mass Function,简称 PMF) 是概率论统计学中描述离散随机变量概率分布的核心工具。对于任何一个离散随机变量,PMF 将变量的每一个可能取值映射到该取值出现的精确概率。与连续随机变量所使用的概率密度函数 (Probability Density Function, PDF) 不同,PMF 给出的函数值本身就是概率——即随机变量恰好等于某个特定值的可能性大小。

形式化定义

XX 为定义在样本空间 Ω\Omega 上的离散随机变量,其所有可能取值的集合(称为支撑集,Support)为可数集 SX={x1,x2,x3,}S_X = \{x_1, x_2, x_3, \dots\}。则 XX 的概率质量函数是一个映射 pX:R[0,1]p_X: \mathbb{R} \to [0, 1],定义为:

pX(x)=P(X=x),xRp_X(x) = P(X = x), \quad x \in \mathbb{R}

此式表明:对于任意实数 xx,函数值 pX(x)p_X(x) 等于事件 {X=x}\{X = x\} 的概率。若 xSXx \in S_X(即 xxXX 的可能取值),则 pX(x)>0p_X(x) > 0;若 xSXx \notin S_X,则 pX(x)=0p_X(x) = 0

习惯上,当随机变量在上下文中无歧义时,常省略下标,简记为 p(x)p(x)

基本性质:两条公理

一个实值函数能够充当合法的概率质量函数,必须同时满足以下两条基本性质。这两条性质直接来源于概率的公理化定义(Kolmogorov公理),是所有离散分布的充要条件。

  1. 非负性 (Non-negativity)。对一切 xRx \in \mathbb{R},有 pX(x)0p_X(x) \geq 0。概率不可能为负数,这是概率作为测度的基本要求。
  2. 归一性 (Normalization)。遍历支撑集中所有可能的取值,概率之和必须等于 1: \[ \sum_{x \in S_X} p_X(x) = 1 \] 该条件保证了"所有可能结果中必有一个发生"这一必然事件的概率为 1。由于 pX(x)p_X(x) 仅在支撑集上取正值,此求和等价于对全体实数求和:xRpX(x)=1\sum_{x \in \mathbb{R}} p_X(x) = 1

任意一个同时满足非负性和归一性的函数,都对应着某个离散随机变量的概率分布——这是数学上构造新分布的基本方法之一。

与累积分布函数的关系

概率质量函数与累积分布函数 (Cumulative Distribution Function, CDF) 构成离散分布的两种等价刻画,二者可相互转换。

CDF 定义为 FX(x)=P(Xx)F_X(x) = P(X \leq x),即随机变量取值不超过 xx 的累积概率。由 PMF 计算 CDF,只需将不超过 xx 的所有可能取值对应的概率质量累加:

FX(x)=P(Xx)=kx,kSXpX(k)F_X(x) = P(X \leq x) = \sum_{k \leq x,\, k \in S_X} p_X(k)

离散随机变量的 CDF 呈现为右连续的阶梯函数:在每一个可能取值 xkx_k 处发生跳跃,跳跃高度恰好等于该点的概率质量 pX(xk)p_X(x_k)。在各可能取值之间的区间上,CDF 保持常数。

反之,从 CDF 恢复 PMF 只需提取跳跃量:

pX(x)=FX(x)limyxFX(y)p_X(x) = F_X(x) - \lim_{y \to x^-} F_X(y)

这种等价性意味着学者可以依据分析便利性,在 PMF 和 CDF 之间自由切换——PMF 适合讨论单点概率,CDF 适合计算区间概率和分位数。

经典示例

示例一:公平骰子。投掷一枚标准的六面公平骰子,令 XX 为朝上的点数。支撑集 SX={1,2,3,4,5,6}S_X = \{1, 2, 3, 4, 5, 6\},PMF 为:

pX(k)={1/6,k=1,2,,60,otherwisep_X(k) = \begin{cases} 1/6, & k = 1, 2, \dots, 6 \\ 0, & \text{otherwise} \end{cases}

易验证 k=16pX(k)=6×16=1\sum_{k=1}^6 p_X(k) = 6 \times \frac{1}{6} = 1

示例二:伯努利分布。伯努利分布是仅含"成功"(编码为 1)与"失败"(编码为 0)两种结果的单次试验模型。设成功概率为 p[0,1]p \in [0, 1],则 PMF 可紧凑地写为:

pX(k)=pk(1p)1k,k{0,1}p_X(k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\}

代入 k=1k=1P(X=1)=pP(X=1)=p,代入 k=0k=0P(X=0)=1pP(X=0)=1-p

示例三:二项分布。二项分布nn 次独立伯努利试验中成功总次数的分布。PMF 为:

pX(k)=(nk)pk(1p)nk,k=0,1,,np_X(k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n

其中二项系数 (nk)=n!k!(nk)!\binom{n}{k} = \frac{n!}{k!(n-k)!} 计数了在 nn 次试验中恰好出现 kk 次成功的不同排列方式。概率质量被分配在有限支撑集 {0,1,,n}\{0, 1, \dots, n\} 上。

示例四:泊松分布。泊松分布描述单位时间(或空间、面积)内稀有事件发生次数的概率规律,支撑集为可数无限集 {0,1,2,}\{0, 1, 2, \dots\}。若平均发生率(强度参数)为 λ>0\lambda > 0,PMF 为:

pX(k)=λkeλk!,k=0,1,2,p_X(k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots

归一性由指数函数的 Taylor 展开保证:k=0λkk!=eλ\sum_{k=0}^\infty \frac{\lambda^k}{k!} = e^{\lambda},乘以 eλe^{-\lambda} 后和为 1。

PMF 的应用:期望与方差的计算

概率质量函数一旦确定,随机变量的所有数值特征均可由其导出。两个最重要的矩为期望(Expectation)和方差(Variance)。

期望值(一阶原点矩)定义为取值以概率为权的加权平均:

E[X]=xSXxpX(x)E[X] = \sum_{x \in S_X} x \cdot p_X(x)

方差(二阶中心矩)度量取值围绕期望的离散程度:

Var(X)=E[(XE[X])2]=xSX(xE[X])2pX(x)\operatorname{Var}(X) = E\left[(X - E[X])^2\right] = \sum_{x \in S_X} (x - E[X])^2 \cdot p_X(x)

更一般地,对于任意函数 g(X)g(X),其期望为 E[g(X)]=xSXg(x)pX(x)E[g(X)] = \sum_{x \in S_X} g(x) \, p_X(x)。这一框架使得 PMF 成为计算一切概率特征的出发点。

此外,PMF 可直接用于计算任意事件的概率。设 ARA \subseteq \mathbb{R} 为任一(可测)集合,则:

P(XA)=xASXpX(x)P(X \in A) = \sum_{x \in A \cap S_X} p_X(x)

简而言之,将事件涉及的取值对应的概率质量逐一相加即可。

PMF 与 PDF 的关键对比

初学者极易混淆概率质量函数 (PMF) 与概率密度函数 (PDF)。以下从四个维度加以区分。

  • 适用变量类型:PMF 仅适用于离散随机变量——取值可逐一列举;PDF 适用于连续随机变量——取值充满某个区间,不可逐个计数。
  • 函数值含义:PMF 的值 pX(x)p_X(x) 就是概率,始终介于 0 与 1 之间。PDF 的值 fX(x)f_X(x) 是概率密度而非概率本身,其数值可以超过 1(只要积分面积不超过 1)。
  • 单点概率:对离散变量,P(X=x)=pX(x)>0P(X = x) = p_X(x) > 0 是可能的。对连续变量,任何单点的概率恒为零(P(X=x)=0P(X = x) = 0),只有区间才具有非零概率。
  • 概率计算方式:离散情形使用求和 \sum 累加概率质量;连续情形使用积分 \int 计算密度曲线下的面积。

这一区别的根源在于测度论:PMF 是关于计数测度 (Counting Measure) 的 Radon-Nikodym 导数,而 PDF 是关于 Lebesgue 测度的导数。两者统一于概率分布的一般理论框架之中。

在统计学与计量经济学中的地位

概率质量函数是连接概率理论与统计推断的桥梁。

1. 似然函数的构造。参数估计中,极大似然估计 (MLE) 以 PMF(或 PDF)为基础构造似然函数。对于独立同分布样本 x1,,xnx_1, \dots, x_n,似然函数为各观测点 PMF 的乘积:L(θ)=i=1npX(xi;θ)L(\theta) = \prod_{i=1}^n p_X(x_i; \theta),最大化该函数即得参数的 MLE。

2. 充分统计量与指数族。许多常用离散分布(伯努利、二项、泊松、几何)均属于指数族分布,其 PMF 可写为统一形式 p(xθ)=h(x)exp{η(θ)T(x)A(θ)}p(x \mid \theta) = h(x) \exp\{\eta(\theta)^\top T(x) - A(\theta)\}。此结构直接揭示了充分统计量 T(x)T(x)费雪-奈曼分解定理的代数本质。

3. 拟合优度与列联表。在应用计量中,卡方拟合优度检验将被观测类别频数与由 PMF 导出的理论期望频数进行对比,从而判断数据是否符合某个假定的离散分布。列联表分析中,单元格概率的乘积结构(独立性假设)与边际 PMF 的关系则是卡方独立性检验的理论基础。

4. 离散选择模型。LogitProbit 等二元选择模型的核心输出——选择概率 P(Y=1X)P(Y=1 \mid X)——本质上就是给定协变量条件下响应变量的条件 PMF。整个离散选择分析的预测、边际效应和政策模拟,均植根于 PMF 的概念框架。

常见误区与注意事项

  1. 混淆 PMF 与 PDF。最常见的错误是将离散变量的 PMF 类比为连续变量的 PDF,并误以为 PDF 在某点的值等于概率。须牢记:连续情形下概率由积分面积给出,密度值可以大于 1。
  2. 忽视支撑集。PMF 的定义域是全体实数,而不仅仅是其正值区域。在数学推导中(例如卷积公式、变量变换),必须明确区分"可能取值"与"其他值",否则容易遗漏零概率项或错误扩展求和范围。
  3. 将 PMF 等同于频率。虽然频率学派的概率解释以大量重复试验中的相对频率为直觉基础,但 PMF 是一个数学函数,描述的是理论上的概率模型,而非有限次实验的经验频率——后者只是前者的近似估计。
  4. 忽视独立性假设。二项分布、泊松分布的推导依赖于独立性假设。在现实应用中,若事件之间不独立而仍强行套用标准 PMF,将导致严重的推断偏误。

概率质量函数是理解离散随机现象的起点,也是构造更复杂概率模型(如联合概率质量函数条件概率分布混合分布)的基本构件。掌握 PMF 的定义、性质及其与 CDF、PDF 的关系,是深入学习数理统计、计量经济学和机器学习中概率建模的必备基础。