ARTICLE

负二项分布

负二项分布 (Negative Binomial Distribution) 负二项分布 (Negative Binomial Distribution) 是概率论和统计学中一种重要的离散概率分布。它描述了在一系列独立的、结果只有成功或失败两种可能(即伯努利试验)的试验中,为了达到预设的成功次数 r,所需要的试验总次数或所经历的失败次数。 该分布与二项分布

浏览 181 更新 2025-10-26

负二项分布 (Negative Binomial Distribution)

负二项分布 (Negative Binomial Distribution) 是概率论统计学中一种重要的离散概率分布。它描述了在一系列独立的、结果只有成功或失败两种可能(即伯努利试验)的试验中,为了达到预设的成功次数 rr,所需要的试验总次数或所经历的失败次数。

该分布与二项分布 (Binomial Distribution) 密切相关,但视角相反。

  • 二项分布:在 固定次数 的试验中,成功次数是一个随机变量。
  • 负二项分布:在达到 固定成功次数 的目标下,试验总次数(或失败次数)是一个随机变量。

当预设的成功次数 r=1r=1 时,负二项分布就退化为几何分布 (Geometric Distribution)。

定义与核心概念

假设我们进行一系列独立的伯努利试验,每次试验成功的概率为 pp,失败的概率为 1p1-p。我们持续进行试验,直到观察到第 rr 次成功为止。负二项分布可以用来回答以下两种相关的问题:

  1. 为了取得 rr 次成功,总共需要进行多少次试验?
  2. 在取得 rr 次成功之前,总共会经历多少次失败?

这两种不同的表述导致了负二项分布的两种常见参数化形式。在学习和应用时,务必分清所使用的具体定义。

参数化一:关于试验总次数 kk

设随机变量 XX 表示为了取得 rr 次成功所需要的 试验总次数。显然,总试验次数 XX 必须至少为 rr。其取值范围为 k{r,r+1,r+2,}k \in \{r, r+1, r+2, \ldots\}

要使第 kk 次试验恰好是第 rr 次成功,必须满足两个条件:

  1. 在第 kk 次试验时,取得了成功。
  2. 在前 k1k-1 次试验中,恰好取得了 r1r-1 次成功。

根据二项分布的逻辑,前 k1k-1 次试验中取得 r1r-1 次成功的组合数为 (k1r1)\binom{k-1}{r-1}。因此,随机变量 XX概率质量函数 (Probability Mass Function, PMF) 为:

P(X=k)=(k1r1)pr(1p)krfor k=r,r+1,r+2,P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r} \quad \text{for } k = r, r+1, r+2, \ldots

其中:

  • rr 是目标成功次数 (r1r \ge 1)。
  • pp 是单次试验的成功概率 (0<p10 < p \le 1)。
  • kk 是总试验次数。
  • (k1r1)\binom{k-1}{r-1}二项式系数,代表组合数。

参数化二:关于失败次数 yy

设随机变量 YY 表示在取得 rr 次成功之前所经历的 失败次数。其取值范围为 y{0,1,2,}y \in \{0, 1, 2, \ldots\}

如果经历了 yy 次失败才达到 rr 次成功,那么总试验次数为 k=y+rk = y+r。与上一种情况类似,最后一次试验(第 y+ry+r 次)必须是成功。这意味着在前 y+r1y+r-1 次试验中,必须有 r1r-1 次成功和 yy 次失败。

因此,随机变量 YY概率质量函数 (PMF) 为:

P(Y=y)=(y+r1y)pr(1p)yfor y=0,1,2,P(Y=y) = \binom{y+r-1}{y} p^r (1-p)^y \quad \text{for } y = 0, 1, 2, \ldots

这个公式也可以写作 P(Y=y)=(y+r1r1)pr(1p)yP(Y=y) = \binom{y+r-1}{r-1} p^r (1-p)^y。这种形式在统计建模(特别是广义线性模型)中更为常用。

注: 两种参数化之间的关系非常直接:X=Y+rX = Y + r

"负二项"名称的由来

负二项分布的名称源于其概率质量函数与负二项式定理的联系。利用广义二项式系数的定义 (nk)=n(n1)(nk+1)k!\binom{n}{k} = \frac{n(n-1)\cdots(n-k+1)}{k!},我们可以将系数改写:

(y+r1y)=(y+r1)(y+r2)(r)y!=(1)y(r)(r1)(ry+1)y!=(1)y(ry)\binom{y+r-1}{y} = \frac{(y+r-1)(y+r-2)\cdots(r)}{y!} = (-1)^y \frac{(-r)(-r-1)\cdots(-r-y+1)}{y!} = (-1)^y \binom{-r}{y}

因此,概率质量函数可以表示为:

P(Y=y)=(ry)pr((1p))yP(Y=y) = \binom{-r}{y} p^r (-(1-p))^y

这与形式为 (a+b)n(a+b)^n 的二项式展开在指数 nn 为负数时的形式类似。

分布的主要性质

为清晰起见,我们同时列出两种参数化下的性质。

\begin{tabular}{|l|l|l|} \hline 性质 \& 参数化一 (XNB(r,p)X \sim NB(r, p),试验次数) \& 参数化二 (YNB(r,p)Y \sim NB(r, p),失败次数) \\ \hline 期望 (Mean) \& E[X]=rpE[X] = \frac{r}{p} \& E[Y]=r(1p)pE[Y] = \frac{r(1-p)}{p} \\ \hline 方差 (Variance) \& Var(X)=r(1p)p2Var(X) = \frac{r(1-p)}{p^2} \& Var(Y)=r(1p)p2Var(Y) = \frac{r(1-p)}{p^2} \\ \hline 众数 (Mode) \& p(r1)1p+r\lfloor \frac{p(r-1)}{1-p} \rfloor + r \& p(r1)1p\lfloor \frac{p(r-1)}{1-p} \rfloor (当r>1r>1时) \\ \hline \end{tabular}

重要观察: 对于第二种参数化(失败次数YY),方差可以表示为:

Var(Y)=r(1p)p+r(1p)2p2=E[Y]+(E[Y])2rVar(Y) = \frac{r(1-p)}{p} + \frac{r(1-p)^2}{p^2} = E[Y] + \frac{(E[Y])^2}{r}

由于 (E[Y])2r>0\frac{(E[Y])^2}{r} > 0,因此负二项分布的 方差总是大于其期望。这一特性被称为过度离散 (Overdispersion),使得负二项分布在处理实际计数数据时,比泊松分布(其期望等于方差)更为灵活和常用。

与其他分布的关系

几何分布 (Geometric Distribution)

几何分布是负二项分布的一个特例,即当 r=1r=1 时。它描述的是为了获得 第1次 成功所需要的试验次数或所经历的失败次数。

  • NB(1,p)NB(1, p)(试验次数)等价于定义在 {1,2,}\{1, 2, \ldots\} 上的几何分布。
  • NB(1,p)NB(1, p)(失败次数)等价于定义在 {0,1,}\{0, 1, \ldots\} 上的几何分布。

泊松分布 (Poisson Distribution)

负二项分布可以看作是泊松分布的一种推广。当 rr \to \inftyp1p \to 1,使得 r(1p)=λr(1-p) = \lambda(一个常数)时,负二项分布收敛于一个期望为 λ\lambda泊松分布。更重要的是,负二项分布可以通过 伽马-泊松混合 (Gamma-Poisson Mixture) 得到:如果一个计数值服从泊松分布 Pois(λ)\text{Pois}(\lambda),而其速率参数 λ\lambda 本身不是一个常数,而是一个服从伽马分布的随机变量,那么这个计数值的边缘分布就是负二项分布。这个特性解释了为什么负二项分布能够很好地处理具有过度离散特性的数据。

应用实例

实例一:产品质量控制

一家工厂生产的某个电子元件,其次品率为 p=0.02p=0.02。质检员需要从生产线上随机抽取并检测元件,直到发现 3 个次品为止,然后才将整批产品送检。

问题: 质检员在恰好检测第 50 个元件时,刚好发现第 3 个次品的概率是多少?

分析: 这是一个典型的负二项分布问题。

  • "成功"定义为"发现一个次品"。
  • 成功概率 p=0.02p = 0.02
  • 目标成功次数 r=3r = 3
  • 总试验次数 k=50k = 50

我们使用关于试验总次数的参数化公式:

P(X=50)=(50131)(0.02)3(10.02)503P(X=50) = \binom{50-1}{3-1} (0.02)^3 (1-0.02)^{50-3}
P(X=50)=(492)(0.02)3(0.98)47P(X=50) = \binom{49}{2} (0.02)^3 (0.98)^{47}
P(X=50)=49×482×0.000008×(0.98)47P(X=50) = \frac{49 \times 48}{2} \times 0.000008 \times (0.98)^{47}
P(X=50)=1176×0.000008×0.38750.00364P(X=50) = 1176 \times 0.000008 \times 0.3875 \approx 0.00364

所以,恰好在第 50 次检测时发现第 3 个次品的概率约为 0.364\%。

实例二:生态学中的种群计数

在生态学研究中,研究人员可能需要统计一片森林中某个特定物种的植物数量。他们将森林划分为多个样方 (quadrats),并统计每个样方中的植物数量。

  • 如果该物种的分布是完全随机的,那么每个样方中的植物数量可能服从泊松分布
  • 然而,在现实中,植物的分布常常是聚集的(例如,种子落在母树周围)。这意味着某些样方中的数量会异常高,而许多样方中的数量则为零或很低。这种现象导致数据方差远大于均值,即过度离散

在这种情况下,使用负二项分布来建模每个样方中的植物数量通常比泊松分布更为合适,因为它能更好地捕捉数据的这种聚集特性。这是负二项回归在生物和环境科学中广泛应用的基础。

矩母函数与累积量

负二项分布的矩母函数 (Moment Generating Function, MGF) 也具有重要意义。对于失败次数参数化 YNB(r,p)Y \sim NB(r, p),其MGF为:

MY(t)=(p1(1p)et)rfor t<ln(1p)M_Y(t) = \left( \frac{p}{1-(1-p)e^t} \right)^r \quad \text{for } t < -\ln(1-p)

由此可以方便地推导出各阶矩。一阶矩(期望)和二阶矩(方差)已在上文给出,而三阶 (Skewness) 反映了分布的偏斜程度。负二项分布是正偏态 (right-skewed) 的,即其长尾拖向右侧,这意味着在大量试验中仍然未能达到目标成功次数的极端情况虽然罕见,但并非不可能。偏度系数为:

γ1=1+pr(1p)>0\gamma_1 = \frac{1+p}{\sqrt{r(1-p)}} > 0

pp 较大或 rr 较大时,偏度减小,分布趋于对称;当 p0p \to 0 时,偏度趋于无穷大,分布高度右偏。

参数估计

在实际应用中,负二项分布的参数 (r,p)(r, p) 通常通过以下两种方法估计:

矩估计法 (Method of Moments): 设样本均值为 xˉ\bar{x},样本方差为 s2s^2。令:

E[Y]=r(1p)p=xˉ,Var(Y)=r(1p)p2=s2E[Y] = \frac{r(1-p)}{p} = \bar{x}, \quad Var(Y) = \frac{r(1-p)}{p^2} = s^2

解得:

p^=xˉs2,r^=xˉ2s2xˉ\hat{p} = \frac{\bar{x}}{s^2}, \quad \hat{r} = \frac{\bar{x}^2}{s^2 - \bar{x}}

需要注意的是,矩估计要求 s2>xˉs^2 > \bar{x},即样本必须表现出过度离散,否则矩估计失效——这也从侧面印证了负二项分布适用于过度离散数据。

最大似然估计法 (Maximum Likelihood Estimation, MLE): MLE 通常比矩估计更有效率,但需要数值优化方法(如牛顿-拉夫森法),因为似然方程没有闭式解。现代统计软件(R语言的 \texttt{MASS} 包、Python的 \texttt{scipy.stats})均内置了负二项分布的 MLE 实现。

与回归模型的联系

负二项回归 (Negative Binomial Regression) 是广义线性模型 (GLM) 中的重要成员,专门用于处理计数型因变量。与泊松回归相比,负二项回归引入了一个额外的离散参数(通常记为 θ\thetaα\alpha),允许方差与均值之间存在任意比例关系:

Var(Y)=μ+μ2θVar(Y) = \mu + \frac{\mu^2}{\theta}

θ\theta \to \infty 时,负二项回归退化为泊松回归;当 θ\theta 有限时,模型自动为过度离散数据提供了更合理的标准误估计,从而避免泊松回归在过度离散情形下产生的第一类错误膨胀问题。

小结

负二项分布是概率论与统计学中极具价值的离散分布,其核心魅力在于对计数数据过度离散特性的自然捕捉能力。从伯努利试验序列中"等待第 rr 次成功"这一直观过程出发,负二项分布延伸出两种等价的参数化形式,并通过与几何分布、泊松分布和伽马分布的深层联系,构建了从基础概率到高级统计建模的完整桥梁。无论是在产品质量控制中的次品检测、生态学中的种群密度建模,还是在现代机器学习中的点击率预估、保险精算中的理赔次数建模中,负二项分布都扮演着不可替代的角色。其名称来源于负二项式定理这一数学巧合,而其应用价值则根植于对现实世界计数数据"方差大于均值"这一普遍规律的精准刻画。