ARTICLE

概率生成函数

概率生成函数 概率生成函数 (Probability Generating Function, PGF) 是研究取非负整数值的离散随机变量的核心工具。它将一个随机变量的全部概率质量编码进一个单一的幂级数中,使得分布的性质——特别是各阶矩和独立随机变量之和的分布——可以通过函数的解析性质优雅地推导出来。通常记作 G_X(t) 或 _X(t)。 定义 设 X 是

浏览 0 更新 2025-10-26

概率生成函数

概率生成函数 (Probability Generating Function, PGF) 是研究取非负整数值的离散随机变量的核心工具。它将一个随机变量的全部概率质量编码进一个单一的幂级数中,使得分布的性质——特别是各阶矩和独立随机变量之和的分布——可以通过函数的解析性质优雅地推导出来。通常记作 GX(t)G_X(t)ΠX(t)\Pi_X(t)

定义

XX 是一个取非负整数值的随机变量,其概率质量函数pk=P(X=k),  k=0,1,2,p_k = P(X = k),\; k = 0, 1, 2, \ldots。则 XX 的概率生成函数定义为:

GX(t)=E[tX]=k=0pktkG_X(t) = E[t^X] = \sum_{k=0}^{\infty} p_k \cdot t^k

其中 tt 是一个实变量。该幂级数至少在 t1|t| \le 1 上绝对收敛,因为 k=0pk=1\sum_{k=0}^\infty p_k = 1。当 t1|t| \le 1 时,GX(t)pktkpk=1|G_X(t)| \le \sum p_k |t|^k \le \sum p_k = 1

从另一个角度看,GX(t)G_X(t)tkt^k 的系数就是 pk=P(X=k)p_k = P(X = k),因此 PGF 本质上是对概率分布的一种编码——给定 PGF,分布就被唯一确定。

收敛半径与解析性质

概率生成函数 GX(t)=k=0pktkG_X(t) = \sum_{k=0}^\infty p_k t^k 是一个以 t=0t=0 为中心的幂级数。因为系数 pkp_k 非负且 pk=1\sum p_k = 1,该幂级数的收敛半径至少为 1。事实上,由Cauchy-Hadamard 定理,收敛半径 R=1/lim suppkkR = 1 / \limsup \sqrt[k]{p_k}。由于 pk1p_k \le 1,必有 R1R \ge 1

R>1R > 1 时,GX(t)G_X(t) 在包含 [1,1][-1, 1] 的更宽区间上解析,所有阶导数均存在,意味着 XX 的所有阶乘矩均为有限。典型的例子是 Poisson 分布,其 PGF eλ(t1)e^{\lambda(t-1)} 在整个复平面上解析。当 R=1R = 1 时,GX(t)G_X(t)(1,1)(-1, 1) 内解析,但在 t=1t = 1 处仅左连续且可求各阶左导数(作为 t1t \uparrow 1 的极限),这使得即使某些高阶矩不存在,低阶矩仍可通过上述极限提取。

这一收敛保证是 PGF 相比 MGF 的一大优势:PGF 总是在 t<1|t| < 1 内良好定义,而 MGF 在某些参数值下可能对任何 s>0s > 0 都发散。

基本性质

边界值与概率提取: GX(1)=k=0pk=1G_X(1) = \sum_{k=0}^\infty p_k = 1,这是全概率公理的直接体现。GX(0)=p0G_X(0) = p_0,即随机变量取零值的概率。更一般地,单个概率 pkp_k 可以通过反复求导并取 t=0t=0 提取:

pk=GX(k)(0)k!p_k = \frac{G_X^{(k)}(0)}{k!}

这与泰勒级数的系数公式一致,意味着 PGF 完全编码了分布。

阶乘矩的提取: PGF 的核心优势在于可以通过求导提取阶乘矩。对 GX(t)G_X(t) 逐项求导并令 t1t \uparrow 1

GX(1)=limt1k=1kpktk1=k=1kpk=E[X]G_X'(1) = \lim_{t \uparrow 1} \sum_{k=1}^\infty k p_k t^{k-1} = \sum_{k=1}^\infty k p_k = E[X]
GX(1)=k=2k(k1)pk=E[X(X1)]G_X''(1) = \sum_{k=2}^\infty k(k-1) p_k = E[X(X-1)]

一般地,rr 阶阶乘矩 E[X(X1)(Xr+1)]=GX(r)(1)E[X(X-1)\cdots(X-r+1)] = G_X^{(r)}(1)。由此可以恢复任意阶的原始矩:E[X]=GX(1)E[X] = G_X'(1)E[X2]=GX(1)+GX(1)E[X^2] = G_X''(1) + G_X'(1),进而 Var(X)=GX(1)+GX(1)[GX(1)]2\text{Var}(X) = G_X''(1) + G_X'(1) - [G_X'(1)]^2

唯一性定理: 若两个取非负整数值的随机变量具有相同的 PGF(在某个包含 0 的开区间上),则它们具有相同的分布。这一结论的证明思路简洁而有力:幂级数的系数由其各阶导数在 t=0t = 0 处的值唯一确定,因此 GX(t)G_X(t) 决定了所有 pkp_k。这意味着 PGF 为分布提供了完全表征——在理论推导中,我们只需要讨论 PGF 而无需直接处理概率质量函数。

独立随机变量之和

PGF 最优雅的应用体现在处理独立随机变量之和上。设 XXYY 相互独立,则:

GX+Y(t)=E[tX+Y]=E[tXtY]=E[tX]E[tY]=GX(t)GY(t)G_{X+Y}(t) = E[t^{X+Y}] = E[t^X \cdot t^Y] = E[t^X] \cdot E[t^Y] = G_X(t) \cdot G_Y(t)

两个独立随机变量之和的 PGF 是各自 PGF 的乘积。这一性质可以推广到 nn 个独立随机变量:若 X1,,XnX_1, \ldots, X_n 独立,则 GX1++Xn(t)=i=1nGXi(t)G_{X_1 + \cdots + X_n}(t) = \prod_{i=1}^n G_{X_i}(t)。这与卷积运算形成对照——PGF 将卷积转化为普通乘法,极大简化了分析。

常见分布的 PGF

分布概率质量函数PGF GX(t)定义域\wiki伯努利分布 Bern(p)p1=p,  p0=qq+ptR\wiki二项分布 Bin(n,p)(nk)pkqnk(q+pt)nR\wiki泊松分布 Pois(λ)eλλk/k!eλ(t1)R\wiki几何分布 Geo(p)pqk1pt1qtt<1/q\wiki负二项分布 NB(r,p)(k1r1)prqkr(pt1qt)rt<1/q\begin{array}{l|l|l|l} \text{分布} & \text{概率质量函数} & \text{PGF } G_X(t) & \text{定义域} \\ \hline \wiki{伯努利分布} \text{ Bern}(p) & p_1=p,\; p_0=q & q + pt & \mathbb{R} \\ \wiki{二项分布} \text{ Bin}(n, p) & \binom{n}{k}p^k q^{n-k} & (q + pt)^n & \mathbb{R} \\ \wiki{泊松分布} \text{ Pois}(\lambda) & e^{-\lambda}\lambda^k/k! & e^{\lambda(t-1)} & \mathbb{R} \\ \wiki{几何分布} \text{ Geo}(p) & pq^{k-1} & \dfrac{pt}{1-qt} & |t|<1/q \\ \wiki{负二项分布} \text{ NB}(r, p) & \binom{k-1}{r-1}p^r q^{k-r} & \left(\dfrac{pt}{1-qt}\right)^r & |t|<1/q \end{array}

注意负二项分布 NB(r,p)\text{NB}(r, p) 的 PGF 是 rr 个独立几何分布 PGF 的乘积,呼应了负二项随机变量是 rr 次独立几何试验总次数的直观理解。同样,二项分布 Bin(n,p)\text{Bin}(n, p) 的 PGF 恰好是 nn 个独立 Bernoulli(pp) PGF 的乘积 (q+pt)n(q + pt)^n,这与"二项随机变量是 nn 个独立 Bernoulli 之和"的结构完全吻合。类似地,若 XPois(λ)X \sim \text{Pois}(\lambda)YPois(μ)Y \sim \text{Pois}(\mu) 独立,则 GX+Y(t)=eλ(t1)eμ(t1)=e(λ+μ)(t1)G_{X+Y}(t) = e^{\lambda(t-1)} \cdot e^{\mu(t-1)} = e^{(\lambda+\mu)(t-1)},直接得出 X+YPois(λ+μ)X + Y \sim \text{Pois}(\lambda + \mu)——这一结论通过卷积计算将繁琐得多。

与矩生成函数的关系

概率生成函数与矩生成函数 (Moment Generating Function, MGF) 有密切联系:GX(es)=E[esX]=MX(s)G_X(e^s) = E[e^{sX}] = M_X(s),即令 t=est = e^s 即可得到 MGF。PGF 专为离散非负整数值设计,其提取的是阶乘矩而非原始矩,但在处理独立和与分支过程等问题中更为自然。与 MGF 相比,PGF 的幂级数结构使它在小范围内始终存在(t1|t| \le 1),不受 MGF 可能在某些点发散的限制。

复合分布与随机和

PGF 的另一大威力体现在处理随机和上。设 NN 是非负整数值随机变量,X1,X2,X_1, X_2, \ldots 是一列独立同分布的非负整数值随机变量,且与 NN 独立。考虑随机和:

SN=X1+X2++XNS_N = X_1 + X_2 + \cdots + X_N

(当 N=0N = 0SN=0S_N = 0)。SNS_N 的 PGF 可通过全期望公式求得:

GSN(t)=E[tSN]=E[E[tX1++XNN]]=E[(GX(t))N]=GN(GX(t))G_{S_N}(t) = E[t^{S_N}] = E\left[E[t^{X_1 + \cdots + X_N} \mid N]\right] = E\left[(G_X(t))^N\right] = G_N(G_X(t))

其中 GX(t)G_X(t)XiX_i 的公共 PGF,GN(t)G_N(t) 是计数变量 NN 的 PGF。结果极为简洁——随机和的 PGF 是 GNG_NGXG_X函数复合。这一公式是Wald 等式在 PGF 层面的对应物,在保险精算(理赔总额)、排队论(批量到达)和生态学(种群增长)中有大量应用。

核心应用

1. Galton-Watson 分支过程: Galton-Watson 分支过程是 PGF 的经典应用场景,也是复合分布公式的直接产物。设第 nn 代个体数为 ZnZ_nZ0=1Z_0 = 1),每个个体独立产生后代数服从 PGF G(t)G(t),第 n+1n+1 代个体数即为 ZnZ_n 个独立同分布后代数之和。由复合分布公式:

GZn+1(t)=GZn(G(t))G_{Z_{n+1}}(t) = G_{Z_n}(G(t))

迭代得出 GZn(t)=G(n)(t)G_{Z_n}(t) = G^{(n)}(t),即 GGnn 次函数复合。灭绝概率 π=limnP(Zn=0)\pi = \lim_{n\to\infty} P(Z_n = 0) 满足不动点方程 π=G(π)\pi = G(\pi),且是 [0,1][0, 1] 上的最小非负根。当平均后代数 μ=G(1)1\mu = G'(1) \le 1π=1\pi = 1(必然灭绝),当 μ>1\mu > 1π<1\pi < 1(正概率永存)。这一优雅的结论完全依赖于 PGF 的解析性质。

2. 分布识别与再生性: 利用唯一性定理,若一个随机变量的 PGF 具有特定函数形式,可直接判定其分布。例如,若 GX(t)=eλ(t1)G_X(t) = e^{\lambda(t-1)},则 XPois(λ)X \sim \text{Pois}(\lambda)。多个分布的再生性(即独立同分布之和仍属同一分布族)通过 PGF 乘积一目了然:Poisson、二项(固定 pp)、负二项(固定 pp)均具有再生性。

3. 概率极限定理: PGF 为离散场景下的极限定理提供了最自然的证明工具。泊松极限定理的经典证明即利用二项 PGF 的极限:若 nn \to \inftynpλnp \to \lambda,则 (q+pt)n=[1+p(t1)]neλ(t1)(q + pt)^n = [1 + p(t-1)]^n \to e^{\lambda(t-1)}。更一般地,PGF 的逐点收敛等价于分布的依分布收敛,这一事实构成了离散分布极限理论的连续映射基础。

总结

概率生成函数是处理非负整数值离散随机变量的瑞士军刀:它将概率分布编码为幂级数,将加法转化为乘法,将矩的计算转化为求导,将分布的迭代转化为函数复合。它与矩生成函数、特征函数累积量生成函数共同构成了分析随机变量性质的函数论工具箱,各有适用场景,而 PGF 在离散结构中的简洁性无可替代。