概率生成函数
概率生成函数 (Probability Generating Function, PGF) 是研究取非负整数值的离散随机变量的核心工具。它将一个随机变量的全部概率质量编码进一个单一的幂级数中,使得分布的性质——特别是各阶矩和独立随机变量之和的分布——可以通过函数的解析性质优雅地推导出来。通常记作 GX(t) 或 ΠX(t)。
定义
设 X 是一个取非负整数值的随机变量,其概率质量函数为 pk=P(X=k),k=0,1,2,…。则 X 的概率生成函数定义为:
GX(t)=E[tX]=k=0∑∞pk⋅tk
其中 t 是一个实变量。该幂级数至少在 ∣t∣≤1 上绝对收敛,因为 ∑k=0∞pk=1。当 ∣t∣≤1 时,∣GX(t)∣≤∑pk∣t∣k≤∑pk=1。
从另一个角度看,GX(t) 中 tk 的系数就是 pk=P(X=k),因此 PGF 本质上是对概率分布的一种编码——给定 PGF,分布就被唯一确定。
收敛半径与解析性质
概率生成函数 GX(t)=∑k=0∞pktk 是一个以 t=0 为中心的幂级数。因为系数 pk 非负且 ∑pk=1,该幂级数的收敛半径至少为 1。事实上,由Cauchy-Hadamard 定理,收敛半径 R=1/limsupkpk。由于 pk≤1,必有 R≥1。
当 R>1 时,GX(t) 在包含 [−1,1] 的更宽区间上解析,所有阶导数均存在,意味着 X 的所有阶乘矩均为有限。典型的例子是 Poisson 分布,其 PGF eλ(t−1) 在整个复平面上解析。当 R=1 时,GX(t) 在 (−1,1) 内解析,但在 t=1 处仅左连续且可求各阶左导数(作为 t↑1 的极限),这使得即使某些高阶矩不存在,低阶矩仍可通过上述极限提取。
这一收敛保证是 PGF 相比 MGF 的一大优势:PGF 总是在 ∣t∣<1 内良好定义,而 MGF 在某些参数值下可能对任何 s>0 都发散。
基本性质
边界值与概率提取: GX(1)=∑k=0∞pk=1,这是全概率公理的直接体现。GX(0)=p0,即随机变量取零值的概率。更一般地,单个概率 pk 可以通过反复求导并取 t=0 提取:
pk=k!GX(k)(0)
这与泰勒级数的系数公式一致,意味着 PGF 完全编码了分布。
阶乘矩的提取: PGF 的核心优势在于可以通过求导提取阶乘矩。对 GX(t) 逐项求导并令 t↑1:
GX′(1)=t↑1limk=1∑∞kpktk−1=k=1∑∞kpk=E[X]
GX′′(1)=k=2∑∞k(k−1)pk=E[X(X−1)]
一般地,r 阶阶乘矩 E[X(X−1)⋯(X−r+1)]=GX(r)(1)。由此可以恢复任意阶的原始矩:E[X]=GX′(1),E[X2]=GX′′(1)+GX′(1),进而 Var(X)=GX′′(1)+GX′(1)−[GX′(1)]2。
唯一性定理: 若两个取非负整数值的随机变量具有相同的 PGF(在某个包含 0 的开区间上),则它们具有相同的分布。这一结论的证明思路简洁而有力:幂级数的系数由其各阶导数在 t=0 处的值唯一确定,因此 GX(t) 决定了所有 pk。这意味着 PGF 为分布提供了完全表征——在理论推导中,我们只需要讨论 PGF 而无需直接处理概率质量函数。
独立随机变量之和
PGF 最优雅的应用体现在处理独立随机变量之和上。设 X 和 Y 相互独立,则:
GX+Y(t)=E[tX+Y]=E[tX⋅tY]=E[tX]⋅E[tY]=GX(t)⋅GY(t)
两个独立随机变量之和的 PGF 是各自 PGF 的乘积。这一性质可以推广到 n 个独立随机变量:若 X1,…,Xn 独立,则 GX1+⋯+Xn(t)=∏i=1nGXi(t)。这与卷积运算形成对照——PGF 将卷积转化为普通乘法,极大简化了分析。
常见分布的 PGF
分布\wiki伯努利分布 Bern(p)\wiki二项分布 Bin(n,p)\wiki泊松分布 Pois(λ)\wiki几何分布 Geo(p)\wiki负二项分布 NB(r,p)概率质量函数p1=p,p0=q(kn)pkqn−ke−λλk/k!pqk−1(r−1k−1)prqk−rPGF GX(t)q+pt(q+pt)neλ(t−1)1−qtpt(1−qtpt)r定义域RRR∣t∣<1/q∣t∣<1/q
注意负二项分布 NB(r,p) 的 PGF 是 r 个独立几何分布 PGF 的乘积,呼应了负二项随机变量是 r 次独立几何试验总次数的直观理解。同样,二项分布 Bin(n,p) 的 PGF 恰好是 n 个独立 Bernoulli(p) PGF 的乘积 (q+pt)n,这与"二项随机变量是 n 个独立 Bernoulli 之和"的结构完全吻合。类似地,若 X∼Pois(λ) 和 Y∼Pois(μ) 独立,则 GX+Y(t)=eλ(t−1)⋅eμ(t−1)=e(λ+μ)(t−1),直接得出 X+Y∼Pois(λ+μ)——这一结论通过卷积计算将繁琐得多。
与矩生成函数的关系
概率生成函数与矩生成函数 (Moment Generating Function, MGF) 有密切联系:GX(es)=E[esX]=MX(s),即令 t=es 即可得到 MGF。PGF 专为离散非负整数值设计,其提取的是阶乘矩而非原始矩,但在处理独立和与分支过程等问题中更为自然。与 MGF 相比,PGF 的幂级数结构使它在小范围内始终存在(∣t∣≤1),不受 MGF 可能在某些点发散的限制。
复合分布与随机和
PGF 的另一大威力体现在处理随机和上。设 N 是非负整数值随机变量,X1,X2,… 是一列独立同分布的非负整数值随机变量,且与 N 独立。考虑随机和:
SN=X1+X2+⋯+XN
(当 N=0 时 SN=0)。SN 的 PGF 可通过全期望公式求得:
GSN(t)=E[tSN]=E[E[tX1+⋯+XN∣N]]=E[(GX(t))N]=GN(GX(t))
其中 GX(t) 是 Xi 的公共 PGF,GN(t) 是计数变量 N 的 PGF。结果极为简洁——随机和的 PGF 是 GN 与 GX 的函数复合。这一公式是Wald 等式在 PGF 层面的对应物,在保险精算(理赔总额)、排队论(批量到达)和生态学(种群增长)中有大量应用。
核心应用
1. Galton-Watson 分支过程: Galton-Watson 分支过程是 PGF 的经典应用场景,也是复合分布公式的直接产物。设第 n 代个体数为 Zn(Z0=1),每个个体独立产生后代数服从 PGF G(t),第 n+1 代个体数即为 Zn 个独立同分布后代数之和。由复合分布公式:
GZn+1(t)=GZn(G(t))
迭代得出 GZn(t)=G(n)(t),即 G 的 n 次函数复合。灭绝概率 π=limn→∞P(Zn=0) 满足不动点方程 π=G(π),且是 [0,1] 上的最小非负根。当平均后代数 μ=G′(1)≤1 时 π=1(必然灭绝),当 μ>1 时 π<1(正概率永存)。这一优雅的结论完全依赖于 PGF 的解析性质。
2. 分布识别与再生性: 利用唯一性定理,若一个随机变量的 PGF 具有特定函数形式,可直接判定其分布。例如,若 GX(t)=eλ(t−1),则 X∼Pois(λ)。多个分布的再生性(即独立同分布之和仍属同一分布族)通过 PGF 乘积一目了然:Poisson、二项(固定 p)、负二项(固定 p)均具有再生性。
3. 概率极限定理: PGF 为离散场景下的极限定理提供了最自然的证明工具。泊松极限定理的经典证明即利用二项 PGF 的极限:若 n→∞ 且 np→λ,则 (q+pt)n=[1+p(t−1)]n→eλ(t−1)。更一般地,PGF 的逐点收敛等价于分布的依分布收敛,这一事实构成了离散分布极限理论的连续映射基础。
总结
概率生成函数是处理非负整数值离散随机变量的瑞士军刀:它将概率分布编码为幂级数,将加法转化为乘法,将矩的计算转化为求导,将分布的迭代转化为函数复合。它与矩生成函数、特征函数、累积量生成函数共同构成了分析随机变量性质的函数论工具箱,各有适用场景,而 PGF 在离散结构中的简洁性无可替代。