ARTICLE

概率质量函数

概率质量函数 (Probability Mass Function) 概率质量函数 (Probability Mass Function, 简称 PMF) 是概率论与统计学中的一个核心概念,用于描述一个离散随机变量在每个可能取值上的概率。简而言之,PMF告诉我们一个离散随机变量取特定值的精确概率是多少。 这个函数是理解离散概率分布的基础,并与用于连续随机变量

浏览 64 更新 2025-10-26

概率质量函数 (Probability Mass Function)

概率质量函数 (Probability Mass Function, 简称 PMF) 是概率论统计学中的一个核心概念,用于描述一个离散随机变量在每个可能取值上的概率。简而言之,PMF告诉我们一个离散随机变量取特定值的精确概率是多少。

这个函数是理解离散概率分布的基础,并与用于连续随机变量概率密度函数 (Probability Density Function, PDF) 形成对比。

形式化定义

假设 X X 是一个定义在某个样本空间 Ω \Omega 上的离散随机变量X X 的所有可能取值的集合(也称为其“支撑集”或“样本空间”)是可数集,记为 SX={x1,x2,x3,} S_X = \{x_1, x_2, x_3, \dots\}

X X 概率质量函数是一个函数 pX:R[0,1] p_X: \mathbb{R} \to [0, 1] ,其定义为:

pX(x)=P(X=x)p_X(x) = P(X = x)

这个公式表示,对于任意一个实数 x x ,函数 pX(x) p_X(x) 的值等于随机变量 X X 取值为 x x 的概率。

  • 如果 x x 是随机变量 X X 的一个可能取值(即 xSX x \in S_X ),那么 pX(x)>0 p_X(x) > 0
  • 如果 x x 不是随机变量 X X 的一个可能取值(即 xSX x \notin S_X ),那么 pX(x)=0 p_X(x) = 0

PMF的基本性质

一个函数若要成为一个合法的概率质量函数,必须满足以下两个基本性质:

  1. 非负性 (Non-negativity)

对于所有可能的取值 x x ,其概率必须大于或等于零。

pX(x)0p_X(x) \ge 0

概率不可能为负数。

  1. 总和为一 (Sum to One)

将随机变量所有可能取值的概率相加,总和必须等于 1。这代表了所有可能结果的概率总和为百分之百。

xSXpX(x)=1\sum_{x \in S_X} p_X(x) = 1

其中 SX S_X 是随机变量 X X 的所有可能取值的集合。这个求和遍历了所有能使 pX(x) p_X(x) 大于零的值。

如果一个函数同时满足这两个条件,那么它就是一个有效的概率质量函数。

与累积分布函数(CDF)的关系

概率质量函数 (PMF) 与累积分布函数 (Cumulative Distribution Function, CDF) 密切相关。对于一个离散随机变量 X X ,其CDF(通常表示为 FX(x) F_X(x) )定义为随机变量 X X 的值小于或等于 x x 的概率。

  • 从 PMF 计算 CDF

CDF 是通过将所有小于或等于 x x 的可能值的 PMF 值累加得到的。

FX(x)=P(Xx)=kx,kSXpX(k)F_X(x) = P(X \le x) = \sum_{k \le x, k \in S_X} p_X(k)

因此,离散随机变量的CDF是一个阶梯函数,其“跳跃”点发生在 X X 的每个可能取值处,跳跃的高度恰好等于该点的 PMF 值。

  • 从 CDF 计算 PMF

反过来,我们也可以从CDF中得到PMF。特定值 x x 的概率等于CDF在该点的“跳跃”大小。

pX(x)=FX(x)limyxFX(y)p_X(x) = F_X(x) - \lim_{y \to x^-} F_X(y)

其中 limyxFX(y) \lim_{y \to x^-} F_X(y) 表示 y y 从左侧趋近于 x x FX(y) F_X(y) 的极限。

典型示例

理解 PMF 最好的方式是通过具体的例子。

示例 1:公平骰子

考虑投掷一个标准的六面公平骰子。令随机变量 X X 代表骰子朝上的点数。 X X 的可能取值集合是 SX={1,2,3,4,5,6} S_X = \{1, 2, 3, 4, 5, 6\} 。 因为骰子是公平的,每个点数出现的概率都是 1/6 1/6 。因此,其 PMF 为:

pX(k)={1/6for k{1,2,3,4,5,6}0otherwisep_X(k) = \begin{cases} 1/6 & \text{for } k \in \{1, 2, 3, 4, 5, 6\} \\ 0 & \text{otherwise} \end{cases}

我们可以验证它满足性质:pX(k)0 p_X(k) \ge 0 k=16pX(k)=6×(1/6)=1 \sum_{k=1}^6 p_X(k) = 6 \times (1/6) = 1

示例 2:伯努利分布 (Bernoulli Distribution)

伯努利分布是描述只有两种结果(例如“成功”与“失败”)的单次试验的分布。令随机变量 X X 在试验成功时取值为1,失败时取值为0。假设成功的概率为 p p 。 其 PMF 为:

pX(k)=pk(1p)1kfor k{0,1}p_X(k) = p^k (1-p)^{1-k} \quad \text{for } k \in \{0, 1\}

这可以分解为:

  • P(X=1)=p1(1p)11=p P(X=1) = p^1 (1-p)^{1-1} = p (成功的概率)
  • P(X=0)=p0(1p)10=1p P(X=0) = p^0 (1-p)^{1-0} = 1-p (失败的概率)

示例 3:二项分布 (Binomial Distribution)

二项分布描述了在 n n 次独立的伯努利试验中,“成功”发生 k k 次的概率。假设每次试验成功的概率为 p p 。 令随机变量 X X 代表成功的次数,其 PMF 为:

pX(k)=P(X=k)=(nk)pk(1p)nkfor k{0,1,,n}p_X(k) = P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad \text{for } k \in \{0, 1, \dots, n\}

这里,(nk)=n!k!(nk)! \binom{n}{k} = \frac{n!}{k!(n-k)!} 是组合数,代表从 n n 次试验中选出 k k 次成功的所有方式。

示例 4:泊松分布 (Poisson Distribution)

泊松分布常用于模拟在固定的时间或空间内,某事件发生的次数。例如,一小时内到达银行的客户数量。假设事件发生的平均次数为 λ \lambda 。 令随机变量 X X 代表事件发生的次数,其 PMF 为:

pX(k)=P(X=k)=λkeλk!for k{0,1,2,}p_X(k) = P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad \text{for } k \in \{0, 1, 2, \dots\}

这是一个支撑集为无限可数集的例子。

应用与重要性

概率质量函数是描述离散随机变量行为的基石。

  • 计算期望与方差:一旦知道了 PMF,就可以计算该随机变量的所有重要数值特征,如期望值(均值)和方差
  • 期望值E[X]=xSXxpX(x) E[X] = \sum_{x \in S_X} x \cdot p_X(x)
  • 方差Var(X)=E[(XE[X])2]=xSX(xE[X])2pX(x) Var(X) = E[(X-E[X])^2] = \sum_{x \in S_X} (x - E[X])^2 \cdot p_X(x)
  • 概率计算:PMF 允许我们直接计算各种事件的概率。例如,随机变量 X X 落在一个集合 A A 中的概率是:
P(XA)=xASXpX(x)P(X \in A) = \sum_{x \in A \cap S_X} p_X(x)

与概率密度函数 (PDF) 的区别

初学者常常混淆 PMF 和 PDF。以下是关键区别:

| 特征 | 概率质量函数 (PMF) | 概率密度函数 (PDF) | | :--- | :--- | :--- | | 适用变量类型 | 离散随机变量 | 连续随机变量 | | 函数值含义 | pX(x) p_X(x) X=x X=x 实际概率。它的值在 [0,1] [0, 1] 区间内。 | fX(x) f_X(x) 本身不是概率,而是 概率密度。它的值可以大于1。 | | 点概率 | P(X=x)=pX(x) P(X=x) = p_X(x) ,可以为正数。 | P(X=x)=0 P(X=x) = 0 。对于连续变量,任何单点的概率都为零。 | | 求和/积分 | 使用 求和 (Summation, \sum ) 来计算一个范围内的概率。 | 使用 积分 (Integration, \int ) 来计算一个区间内的概率。 |

总而言之,概率质量函数为我们提供了一个清晰、直观的方式来量化和分析离散随机事件的可能性。