知经 KNOWECON · 卓越的经济金融统计数学学习平台

负二项分布

# 负二项分布 (Negative Binomial Distribution)

负二项分布 (Negative Binomial Distribution) 是{{{概率论}}}和{{{统计学}}}中一种重要的{{{离散概率分布}}}。它描述了在一系列独立的、结果只有成功或失败两种可能(即{{{伯努利试验}}})的试验中,为了达到预设的成功次数 $r$ ,所需要的试验总次数或所经历的失败次数。

该分布与{{{二项分布}}} (Binomial Distribution) 密切相关,但视角相反。 * {{{二项分布}}}:在 固定次数 的试验中,成功次数是一个随机变量。 * 负二项分布:在达到 固定成功次数 的目标下,试验总次数(或失败次数)是一个随机变量。

当预设的成功次数 $r=1$ 时,负二项分布就退化为{{{几何分布}}} (Geometric Distribution)。

## 定义与核心概念

假设我们进行一系列独立的{{{伯努利试验}}},每次试验成功的概率为 $p$,失败的概率为 $1-p$。我们持续进行试验,直到观察到第 $r$ 次成功为止。负二项分布可以用来回答以下两种相关的问题:

1. 为了取得 $r$ 次成功,总共需要进行多少次试验? 2. 在取得 $r$ 次成功之前,总共会经历多少次失败?

这两种不同的表述导致了负二项分布的两种常见参数化形式。在学习和应用时,务必分清所使用的具体定义。

### 参数化一:关于试验总次数 $k$

设随机变量 $X$ 表示为了取得 $r$ 次成功所需要的 试验总次数。显然,总试验次数 $X$ 必须至少为 $r$。其取值范围为 $k \in \{r, r+1, r+2, \ldots\}$。

要使第 $k$ 次试验恰好是第 $r$ 次成功,必须满足两个条件: 1. 在第 $k$ 次试验时,取得了成功。 2. 在前 $k-1$ 次试验中,恰好取得了 $r-1$ 次成功。

根据{{{二项分布}}}的逻辑,前 $k-1$ 次试验中取得 $r-1$ 次成功的组合数为 $\binom{k-1}{r-1}$。因此,随机变量 $X$ 的{{{概率质量函数}}} (Probability Mass Function, PMF) 为: $$ P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r} \quad \text{for } k = r, r+1, r+2, \ldots $$ 其中: * $r$ 是目标成功次数 ($r \ge 1$)。 * $p$ 是单次试验的成功概率 ($0 < p \le 1$)。 * $k$ 是总试验次数。 * $\binom{k-1}{r-1}$ 是{{{二项式系数}}},代表组合数。

### 参数化二:关于失败次数 $y$

设随机变量 $Y$ 表示在取得 $r$ 次成功之前所经历的 失败次数。其取值范围为 $y \in \{0, 1, 2, \ldots\}$。

如果经历了 $y$ 次失败才达到 $r$ 次成功,那么总试验次数为 $k = y+r$。与上一种情况类似,最后一次试验(第 $y+r$ 次)必须是成功。这意味着在前 $y+r-1$ 次试验中,必须有 $r-1$ 次成功和 $y$ 次失败。

因此,随机变量 $Y$ 的{{{概率质量函数}}} (PMF) 为: $$ P(Y=y) = \binom{y+r-1}{y} p^r (1-p)^y \quad \text{for } y = 0, 1, 2, \ldots $$ 这个公式也可以写作 $P(Y=y) = \binom{y+r-1}{r-1} p^r (1-p)^y$。这种形式在统计建模(特别是{{{广义线性模型}}})中更为常用。

注: 两种参数化之间的关系非常直接:$X = Y + r$。

### "负二项"名称的由来

负二项分布的名称源于其概率质量函数与{{{负二项式定理}}}的联系。利用广义二项式系数的定义 $\binom{n}{k} = \frac{n(n-1)\cdots(n-k+1)}{k!}$,我们可以将系数改写: $$ \binom{y+r-1}{y} = \frac{(y+r-1)(y+r-2)\cdots(r)}{y!} = (-1)^y \frac{(-r)(-r-1)\cdots(-r-y+1)}{y!} = (-1)^y \binom{-r}{y} $$ 因此,概率质量函数可以表示为: $$ P(Y=y) = \binom{-r}{y} p^r (-(1-p))^y $$ 这与形式为 $(a+b)^n$ 的二项式展开在指数 $n$ 为负数时的形式类似。

## 分布的主要性质

为清晰起见,我们同时列出两种参数化下的性质。

| 性质 | 参数化一 ($X \sim NB(r, p)$,试验次数) | 参数化二 ($Y \sim NB(r, p)$,失败次数) | | --- | --- | --- | | {{{期望}}} (Mean) | $E[X] = \frac{r}{p}$ | $E[Y] = \frac{r(1-p)}{p}$ | | {{{方差}}} (Variance) | $Var(X) = \frac{r(1-p)}{p^2}$ | $Var(Y) = \frac{r(1-p)}{p^2}$ | | {{{众数}}} (Mode) | $\lfloor \frac{p(r-1)}{1-p} \rfloor + r$ | $\lfloor \frac{p(r-1)}{1-p} \rfloor$ (当$r>1$时) |

重要观察: 对于第二种参数化(失败次数$Y$),方差可以表示为: $$ Var(Y) = \frac{r(1-p)}{p} + \frac{r(1-p)^2}{p^2} = E[Y] + \frac{(E[Y])^2}{r} $$ 由于 $\frac{(E[Y])^2}{r} > 0$,因此负二项分布的 方差总是大于其期望。这一特性被称为{{{过度离散}}} (Overdispersion),使得负二项分布在处理实际计数数据时,比{{{泊松分布}}}(其期望等于方差)更为灵活和常用。

## 与其他分布的关系

1. {{{几何分布}}} (Geometric Distribution) 几何分布是负二项分布的一个特例,即当 $r=1$ 时。它描述的是为了获得 第1次 成功所需要的试验次数或所经历的失败次数。 * $NB(1, p)$(试验次数)等价于定义在 $\{1, 2, \ldots\}$ 上的几何分布。 * $NB(1, p)$(失败次数)等价于定义在 $\{0, 1, \ldots\}$ 上的几何分布。

2. {{{泊松分布}}} (Poisson Distribution) 负二项分布可以看作是泊松分布的一种推广。当 $r \to \infty$ 且 $p \to 1$,使得 $r(1-p) = \lambda$(一个常数)时,负二项分布收敛于一个期望为 $\lambda$ 的{{{泊松分布}}}。更重要的是,负二项分布可以通过 伽马-泊松混合(Gamma-Poisson Mixture) 得到:如果一个计数值服从{{{泊松分布}}}$Pois(\lambda)$,而其速率参数 $\lambda$ 本身不是一个常数,而是一个服从{{{伽马分布}}}的随机变量,那么这个计数值的边缘分布就是负二项分布。这个特性解释了为什么负二项分布能够很好地处理具有{{{过度离散}}}特性的数据。

## 应用实例

### 实例一:产品质量控制

一家工厂生产的某个电子元件,其次品率为 $p=0.02$。质检员需要从生产线上随机抽取并检测元件,直到发现 3 个次品为止,然后才将整批产品送检。 问题: 质检员在恰好检测第 50 个元件时,刚好发现第 3 个次品的概率是多少?

分析: 这是一个典型的负二项分布问题。 * "成功"定义为“发现一个次品”。 * 成功概率 $p = 0.02$。 * 目标成功次数 $r = 3$。 * 总试验次数 $k = 50$。

我们使用关于试验总次数的参数化公式: $$ P(X=50) = \binom{50-1}{3-1} (0.02)^3 (1-0.02)^{50-3} $$ $$ P(X=50) = \binom{49}{2} (0.02)^3 (0.98)^{47} $$ $$ P(X=50) = \frac{49 \times 48}{2} \times 0.000008 \times (0.98)^{47} $$ $$ P(X=50) = 1176 \times 0.000008 \times 0.3875 \approx 0.00364 $$ 所以,恰好在第 50 次检测时发现第 3 个次品的概率约为 0.364%。

### 实例二:生态学中的种群计数

在生态学研究中,研究人员可能需要统计一片森林中某个特定物种的植物数量。他们将森林划分为多个样方(quadrats),并统计每个样方中的植物数量。

* 如果该物种的分布是完全随机的,那么每个样方中的植物数量可能服从{{{泊松分布}}}。 * 然而,在现实中,植物的分布常常是聚集的(例如,种子落在母树周围)。这意味着某些样方中的数量会异常高,而许多样方中的数量则为零或很低。这种现象导致数据方差远大于均值,即{{{过度离散}}}。

在这种情况下,使用负二项分布来建模每个样方中的植物数量通常比泊松分布更为合适,因为它能更好地捕捉数据的这种聚集特性。这是{{{负二项回归}}}在生物和环境科学中广泛应用的基础。