ARTICLE

概率母函数

概率母函数 (Probability Generating Function) 概率母函数(Probability Generating Function,简称 PGF)是刻画非负整数值随机变量分布的核心分析工具。对于取值于 N_0 = \0, 1, 2, \ 的离散型随机变量 X,其概率母函数定义为: 其中 s 为实变量,收敛域至少包含闭区间 [-1, 1

浏览 0 更新 2025-11-07

概率母函数 (Probability Generating Function)

概率母函数(Probability Generating Function,简称 PGF)是刻画非负整数值随机变量分布的核心分析工具。对于取值于 N0={0,1,2,}\mathbb{N}_0 = \{0, 1, 2, \ldots\} 的离散型随机变量 XX,其概率母函数定义为:

GX(s)=E[sX]=k=0P(X=k)sk,s1G_X(s) = \mathbb{E}[s^X] = \sum_{k=0}^{\infty} \mathbb{P}(X = k) \, s^k, \quad |s| \leq 1

其中 ss 为实变量,收敛域至少包含闭区间 [1,1][-1, 1]。因为幂级数系数恰为概率质量函数(PMF){pk}k=0\{p_k\}_{k=0}^\infty,概率母函数实质上是对分布序列的生成函数编码,将无穷维的概率分布映射为一个在单位区间上解析的函数。当 s<1|s| < 1 时级数绝对收敛;s=1s = 1GX(1)=pk=1G_X(1) = \sum p_k = 1

基本性质

概率母函数具备以下核心代数性质:

  1. 规范性GX(1)=pk=1G_X(1) = \sum p_k = 1
  2. 矩生成:对 GX(s)G_X(s)s=1s = 1 处逐次求导可得阶乘矩(Factorial Moments): \[ G_X^{(r)}(1) = \mathbb{E}[X(X-1)\cdots(X-r+1)] \] 特别地,一阶导数给出期望:E[X]=GX(1)\mathbb{E}[X] = G_X'(1);方差可通过 Var(X)=GX(1)+GX(1)[GX(1)]2\operatorname{Var}(X) = G_X''(1) + G_X'(1) - [G_X'(1)]^2 求得。
  3. 唯一性:若两个非负整数值随机变量的概率母函数在包含 0 的邻域内相等,则两者具有相同的分布。幂级数的系数唯一决定原分布。
  4. 独立和卷积:若 XXYY 相互独立,则 GX+Y(s)=GX(s)GY(s)G_{X+Y}(s) = G_X(s) \cdot G_Y(s)。这一乘性性质是处理独立随机变量之和的强大工具。
  5. 连续性定理:分布列的弱收敛等价于对应概率母函数在 [0,1][0, 1] 上的逐点收敛。

常见分布的概率母函数

  • 伯努利分布 XBernoulli(p)X \sim \operatorname{Bernoulli}(p)GX(s)=q+psG_X(s) = q + ps,其中 q=1pq = 1 - p
  • 二项分布 XBinomial(n,p)X \sim \operatorname{Binomial}(n, p)GX(s)=(q+ps)nG_X(s) = (q + ps)^n,由独立伯努利试验的乘性直接可得。
  • 泊松分布 XPoisson(λ)X \sim \operatorname{Poisson}(\lambda)GX(s)=eλ(s1)G_X(s) = e^{\lambda(s - 1)}
  • 几何分布(第一次成功,参数 pp):GX(s)=ps1qsG_X(s) = \frac{ps}{1 - qs}s<1/q|s| < 1/q
  • 负二项分布(第 rr 次成功):由独立几何变量的卷积得 GX(s)=(ps1qs)rG_X(s) = \left(\frac{ps}{1 - qs}\right)^r

与其它生成函数的关系

概率母函数与 矩母函数(MGF)和 特征函数 之间存在直接关联。矩母函数定义为 MX(t)=E[etX]M_X(t) = \mathbb{E}[e^{tX}],令 et=se^t = s 即得 GX(s)=MX(lns)G_X(s) = M_X(\ln s)。特征函数 φX(t)=E[eitX]\varphi_X(t) = \mathbb{E}[e^{itX}] 则令 s=eits = e^{it} 关联:φX(t)=GX(eit)\varphi_X(t) = G_X(e^{it})。对于非负整数值随机变量,概率母函数通常比矩母函数更简洁——前者是有理函数或指数函数的有理组合,便于代数运算;后者的存在性需 tt 在一定范围内保证积分收敛。在涉及独立和的分布推导、离散 分支过程 灭绝概率计算以及 随机游走 首达时分析中,概率母函数因代数封闭性而优于 MGF。

典型应用

一、独立随机变量和的分布。设 Sn=X1++XnS_n = X_1 + \cdots + X_n,其中 XiX_i i.i.d. 且 PGF 为 GX(s)G_X(s),则 GSn(s)=[GX(s)]nG_{S_n}(s) = [G_X(s)]^n。进一步可展开幂级数以直接读出 PMF。

二、随机个数的随机和。设 NN 为非负整数值随机变量,{Xi}\{X_i\} 为 i.i.d. 且与 NN 独立。则随机和 SN=i=1NXiS_N = \sum_{i=1}^N X_i 的概率母函数满足:

GSN(s)=GN(GX(s))G_{S_N}(s) = G_N(G_X(s))

这一复合公式在 分支过程保险精算 中的聚合索赔模型以及排队论中具有核心地位。

三、分支过程中的灭绝概率。在 Galton-Watson 分支过程中,设后代数目分布的 PGF 为 G(s)G(s),则灭绝概率 qq 是方程 q=G(q)q = G(q)[0,1][0, 1] 内的最小非负根。这一结果将分布演化问题转化为不动点方程求解。

阶乘矩与中心矩的转换

概率母函数直接输出的是阶乘矩而非原始矩,但两者可通过组合恒等式相互转换。设随机变量 XXrr 阶阶乘矩为 μ[r]=E[X(X1)(Xr+1)]=GX(r)(1)\mu_{[r]} = \mathbb{E}[X(X-1)\cdots(X-r+1)] = G_X^{(r)}(1)。利用斯特林数(Stirling Numbers of the Second Kind),可将原始矩表示为阶乘矩的线性组合:

E[Xr]=j=0rS(r,j)μ[j]\mathbb{E}[X^r] = \sum_{j=0}^{r} S(r, j) \, \mu_{[j]}

其中 S(r,j)S(r, j) 为第二类斯特林数,满足递推 S(r+1,j)=jS(r,j)+S(r,j1)S(r+1, j) = jS(r, j) + S(r, j-1)。这一关系源于恒等式 xr=j=0rS(r,j)x(j)x^r = \sum_{j=0}^r S(r, j) x_{(j)},其中 x(j)=x(x1)(xj+1)x_{(j)} = x(x-1)\cdots(x-j+1) 为下降阶乘。反之,阶乘矩也可通过第一类斯特林数 s(r,j)s(r, j) 从原始矩表出:μ[r]=j=0rs(r,j)E[Xj]\mu_{[r]} = \sum_{j=0}^r s(r, j) \mathbb{E}[X^j]。这一双向转换在 矩方法 估计和 计数过程 的推断中实用价值显著。

概率母函数的展开与反演

从概率母函数恢复概率质量函数的核心方法是泰勒展开。由于 GX(s)G_X(s)s=0s = 0 处的泰勒级数为 pksk\sum p_k s^k,直接有:

pk=P(X=k)=GX(k)(0)k!p_k = \mathbb{P}(X = k) = \frac{G_X^{(k)}(0)}{k!}

但对复杂 PGF,逐次求导可能繁琐。另一种常用技术是部分分式分解:当 GX(s)G_X(s) 为有理函数时(如几何分布、负二项分布),可分解为 Ai1ris\sum \frac{A_i}{1 - r_i s} 的形式,再利用几何级数 11rs=k=0rksk\frac{1}{1 - rs} = \sum_{k=0}^{\infty} r^k s^k 直接读出系数。对于整函数形式的 PGF(如泊松分布),则利用指数函数的幂级数展开即可。反演技巧在排队论中求解稳态分布的 zz-变换反演中直接对应。

分析层面的注意事项

概率母函数在 s1|s| \leq 1 上一致收敛,但收敛半径 RR 可能严格大于 1(如泊松分布的收敛半径无穷大)。当 R>1R > 1 时,GX(s)G_X(s) 在更大区间上解析,其导数在 s=1s = 1 处的取值可通过从内部逼近(s1s \uparrow 1)由 Abel 连续性定理严格保证。若收敛半径恰好为 1 且存在重尾现象,则高阶矩可能不存在(表现为 GX(r)(1)=G_X^{(r)}(1^-) = \infty),此时需慎用矩公式。

Abel 定理与 Tauber 定理 为概率母函数在边界的行为提供了理论支撑。Abel 定理保证若 pk\sum p_k 收敛,则 lims1GX(s)=GX(1)\lim_{s \uparrow 1} G_X(s) = G_X(1);反之,Tauber 定理在额外条件(如 pk0p_k \geq 0)下允许从边界行为推断级数的可和性。这一对定理构成了概率母函数作为分析桥梁的深层基础。

概率母函数与 Z-变换 有形式上的相似性,但前者定义在实数域上的级数展开,后者则为复分析框架,两者在信号处理与排队论中各有侧重。