ARTICLE

负二项分布

负二项分布 (Negative Binomial Distribution) 负二项分布 (Negative Binomial Distribution) 是概率论和统计学中一种重要的离散概率分布。它描述了在一系列独立的、结果只有成功或失败两种可能（即伯努利试验）的试验中，为了达到预设的成功次数 r，所需要的试验总次数或所经历的失败次数。该分布与二项分布

浏览 181 更新 2025-10-26

负二项分布 (Negative Binomial Distribution)

负二项分布 (Negative Binomial Distribution) 是概率论和统计学中一种重要的离散概率分布。它描述了在一系列独立的、结果只有成功或失败两种可能（即伯努利试验）的试验中，为了达到预设的成功次数 $r$ ，所需要的试验总次数或所经历的失败次数。

该分布与二项分布 (Binomial Distribution) 密切相关，但视角相反。

二项分布：在 固定次数 的试验中，成功次数是一个随机变量。
负二项分布：在达到 固定成功次数 的目标下，试验总次数（或失败次数）是一个随机变量。

当预设的成功次数 $r=1$ 时，负二项分布就退化为几何分布 (Geometric Distribution)。

定义与核心概念

假设我们进行一系列独立的伯努利试验，每次试验成功的概率为 $p$ ，失败的概率为 $1-p$ 。我们持续进行试验，直到观察到第 $r$ 次成功为止。负二项分布可以用来回答以下两种相关的问题：

为了取得 $r$ 次成功，总共需要进行多少次试验？
在取得 $r$ 次成功之前，总共会经历多少次失败？

这两种不同的表述导致了负二项分布的两种常见参数化形式。在学习和应用时，务必分清所使用的具体定义。

参数化一：关于试验总次数 $k$

设随机变量 $X$ 表示为了取得 $r$ 次成功所需要的 试验总次数。显然，总试验次数 $X$ 必须至少为 $r$ 。其取值范围为 $k \in \{r, r+1, r+2, \ldots\}$ 。

要使第 $k$ 次试验恰好是第 $r$ 次成功，必须满足两个条件：

在第 $k$ 次试验时，取得了成功。
在前 $k-1$ 次试验中，恰好取得了 $r-1$ 次成功。

根据二项分布的逻辑，前 $k-1$ 次试验中取得 $r-1$ 次成功的组合数为 $\binom{k-1}{r-1}$ 。因此，随机变量 $X$ 的概率质量函数 (Probability Mass Function, PMF) 为：

P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r} \quad \text{for } k = r, r+1, r+2, \ldots

其中：

$r$ 是目标成功次数 ( $r \ge 1$ )。
$p$ 是单次试验的成功概率 ( $0 < p \le 1$ )。
$k$ 是总试验次数。
$\binom{k-1}{r-1}$ 是二项式系数，代表组合数。

参数化二：关于失败次数 $y$

设随机变量 $Y$ 表示在取得 $r$ 次成功之前所经历的 失败次数。其取值范围为 $y \in \{0, 1, 2, \ldots\}$ 。

如果经历了 $y$ 次失败才达到 $r$ 次成功，那么总试验次数为 $k = y+r$ 。与上一种情况类似，最后一次试验（第 $y+r$ 次）必须是成功。这意味着在前 $y+r-1$ 次试验中，必须有 $r-1$ 次成功和 $y$ 次失败。

因此，随机变量 $Y$ 的概率质量函数 (PMF) 为：

P(Y=y) = \binom{y+r-1}{y} p^r (1-p)^y \quad \text{for } y = 0, 1, 2, \ldots

这个公式也可以写作 $P(Y=y) = \binom{y+r-1}{r-1} p^r (1-p)^y$ 。这种形式在统计建模（特别是广义线性模型）中更为常用。

注：两种参数化之间的关系非常直接： $X = Y + r$ 。

"负二项"名称的由来

负二项分布的名称源于其概率质量函数与负二项式定理的联系。利用广义二项式系数的定义 $\binom{n}{k} = \frac{n(n-1)\cdots(n-k+1)}{k!}$ ，我们可以将系数改写：

\binom{y+r-1}{y} = \frac{(y+r-1)(y+r-2)\cdots(r)}{y!} = (-1)^y \frac{(-r)(-r-1)\cdots(-r-y+1)}{y!} = (-1)^y \binom{-r}{y}

因此，概率质量函数可以表示为：

P(Y=y) = \binom{-r}{y} p^r (-(1-p))^y

这与形式为 $(a+b)^n$ 的二项式展开在指数 $n$ 为负数时的形式类似。

分布的主要性质

为清晰起见，我们同时列出两种参数化下的性质。

\begin{tabular}{|l|l|l|} \hline 性质 \& 参数化一 ( $X \sim NB(r, p)$ ，试验次数) \& 参数化二 ( $Y \sim NB(r, p)$ ，失败次数) \\ \hline 期望 (Mean) \& $E[X] = \frac{r}{p}$ \& $E[Y] = \frac{r(1-p)}{p}$ \\ \hline 方差 (Variance) \& $Var(X) = \frac{r(1-p)}{p^2}$ \& $Var(Y) = \frac{r(1-p)}{p^2}$ \\ \hline 众数 (Mode) \& $\lfloor \frac{p(r-1)}{1-p} \rfloor + r$ \& $\lfloor \frac{p(r-1)}{1-p} \rfloor$ (当 $r>1$ 时) \\ \hline \end{tabular}

重要观察： 对于第二种参数化（失败次数 $Y$ ），方差可以表示为：

Var(Y) = \frac{r(1-p)}{p} + \frac{r(1-p)^2}{p^2} = E[Y] + \frac{(E[Y])^2}{r}

由于 $\frac{(E[Y])^2}{r} > 0$ ，因此负二项分布的 方差总是大于其期望。这一特性被称为过度离散 (Overdispersion)，使得负二项分布在处理实际计数数据时，比泊松分布（其期望等于方差）更为灵活和常用。

与其他分布的关系

几何分布 (Geometric Distribution)

几何分布是负二项分布的一个特例，即当 $r=1$ 时。它描述的是为了获得 第1次 成功所需要的试验次数或所经历的失败次数。

$NB(1, p)$ （试验次数）等价于定义在 $\{1, 2, \ldots\}$ 上的几何分布。
$NB(1, p)$ （失败次数）等价于定义在 $\{0, 1, \ldots\}$ 上的几何分布。

泊松分布 (Poisson Distribution)

负二项分布可以看作是泊松分布的一种推广。当 $r \to \infty$ 且 $p \to 1$ ，使得 $r(1-p) = \lambda$ （一个常数）时，负二项分布收敛于一个期望为 $\lambda$ 的泊松分布。更重要的是，负二项分布可以通过 伽马-泊松混合 (Gamma-Poisson Mixture) 得到：如果一个计数值服从泊松分布 $\text{Pois}(\lambda)$ ，而其速率参数 $\lambda$ 本身不是一个常数，而是一个服从伽马分布的随机变量，那么这个计数值的边缘分布就是负二项分布。这个特性解释了为什么负二项分布能够很好地处理具有过度离散特性的数据。

应用实例

实例一：产品质量控制

一家工厂生产的某个电子元件，其次品率为 $p=0.02$ 。质检员需要从生产线上随机抽取并检测元件，直到发现 3 个次品为止，然后才将整批产品送检。

问题： 质检员在恰好检测第 50 个元件时，刚好发现第 3 个次品的概率是多少？

分析： 这是一个典型的负二项分布问题。

"成功"定义为"发现一个次品"。
成功概率 $p = 0.02$ 。
目标成功次数 $r = 3$ 。
总试验次数 $k = 50$ 。

我们使用关于试验总次数的参数化公式：

P(X=50) = \binom{50-1}{3-1} (0.02)^3 (1-0.02)^{50-3}

P(X=50) = \binom{49}{2} (0.02)^3 (0.98)^{47}

P(X=50) = \frac{49 \times 48}{2} \times 0.000008 \times (0.98)^{47}

P(X=50) = 1176 \times 0.000008 \times 0.3875 \approx 0.00364

所以，恰好在第 50 次检测时发现第 3 个次品的概率约为 0.364\%。

实例二：生态学中的种群计数

在生态学研究中，研究人员可能需要统计一片森林中某个特定物种的植物数量。他们将森林划分为多个样方 (quadrats)，并统计每个样方中的植物数量。

如果该物种的分布是完全随机的，那么每个样方中的植物数量可能服从泊松分布。
然而，在现实中，植物的分布常常是聚集的（例如，种子落在母树周围）。这意味着某些样方中的数量会异常高，而许多样方中的数量则为零或很低。这种现象导致数据方差远大于均值，即过度离散。

在这种情况下，使用负二项分布来建模每个样方中的植物数量通常比泊松分布更为合适，因为它能更好地捕捉数据的这种聚集特性。这是负二项回归在生物和环境科学中广泛应用的基础。

矩母函数与累积量

负二项分布的矩母函数 (Moment Generating Function, MGF) 也具有重要意义。对于失败次数参数化 $Y \sim NB(r, p)$ ，其MGF为：

M_Y(t) = \left( \frac{p}{1-(1-p)e^t} \right)^r \quad \text{for } t < -\ln(1-p)

由此可以方便地推导出各阶矩。一阶矩（期望）和二阶矩（方差）已在上文给出，而三阶矩 (Skewness) 反映了分布的偏斜程度。负二项分布是正偏态 (right-skewed) 的，即其长尾拖向右侧，这意味着在大量试验中仍然未能达到目标成功次数的极端情况虽然罕见，但并非不可能。偏度系数为：

\gamma_1 = \frac{1+p}{\sqrt{r(1-p)}} > 0

当 $p$ 较大或 $r$ 较大时，偏度减小，分布趋于对称；当 $p \to 0$ 时，偏度趋于无穷大，分布高度右偏。

参数估计

在实际应用中，负二项分布的参数 $(r, p)$ 通常通过以下两种方法估计：

矩估计法 (Method of Moments)： 设样本均值为 $\bar{x}$ ，样本方差为 $s^2$ 。令：

E[Y] = \frac{r(1-p)}{p} = \bar{x}, \quad Var(Y) = \frac{r(1-p)}{p^2} = s^2

解得：

\hat{p} = \frac{\bar{x}}{s^2}, \quad \hat{r} = \frac{\bar{x}^2}{s^2 - \bar{x}}

需要注意的是，矩估计要求 $s^2 > \bar{x}$ ，即样本必须表现出过度离散，否则矩估计失效——这也从侧面印证了负二项分布适用于过度离散数据。

最大似然估计法 (Maximum Likelihood Estimation, MLE)： MLE 通常比矩估计更有效率，但需要数值优化方法（如牛顿-拉夫森法），因为似然方程没有闭式解。现代统计软件（R语言的 \texttt{MASS} 包、Python的 \texttt{scipy.stats}）均内置了负二项分布的 MLE 实现。

与回归模型的联系

负二项回归 (Negative Binomial Regression) 是广义线性模型 (GLM) 中的重要成员，专门用于处理计数型因变量。与泊松回归相比，负二项回归引入了一个额外的离散参数（通常记为 $\theta$ 或 $\alpha$ ），允许方差与均值之间存在任意比例关系：

Var(Y) = \mu + \frac{\mu^2}{\theta}

当 $\theta \to \infty$ 时，负二项回归退化为泊松回归；当 $\theta$ 有限时，模型自动为过度离散数据提供了更合理的标准误估计，从而避免泊松回归在过度离散情形下产生的第一类错误膨胀问题。

小结

负二项分布是概率论与统计学中极具价值的离散分布，其核心魅力在于对计数数据过度离散特性的自然捕捉能力。从伯努利试验序列中"等待第 $r$ 次成功"这一直观过程出发，负二项分布延伸出两种等价的参数化形式，并通过与几何分布、泊松分布和伽马分布的深层联系，构建了从基础概率到高级统计建模的完整桥梁。无论是在产品质量控制中的次品检测、生态学中的种群密度建模，还是在现代机器学习中的点击率预估、保险精算中的理赔次数建模中，负二项分布都扮演着不可替代的角色。其名称来源于负二项式定理这一数学巧合，而其应用价值则根植于对现实世界计数数据"方差大于均值"这一普遍规律的精准刻画。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

负二项分布