知经 KNOWECON · 卓越的经济金融统计数学学习平台

几何分布

# 几何分布 (Geometric Distribution)

几何分布 (Geometric Distribution) 是一种重要的{{{离散概率分布}}} (discrete probability distribution)。它描述了在一个{{{伯努利过程}}} (Bernoulli process) 中,为了取得第一次成功而需要进行的独立{{{伯努利试验}}} (Bernoulli trial) 的次数。换言之,它模拟的是“等待第一次成功”的场景。

几何分布在概率论和统计学中非常基础,是理解更复杂的随机过程的基石。例如,它与{{{负二项分布}}} (Negative Binomial Distribution) 有着密切的联系。

这个分布之所以被称为“几何”分布,是因为其概率质量函数的结构是一个等比数列(几何级数)。

## 核心定义与假设

为了构建几何分布模型,我们必须满足以下基本假设,这些假设定义了一个伯努利过程:

1. 一系列独立的试验:每次试验的结果不会影响任何其他试验的结果。 2. 二元结果:每次试验只有两种可能的结果,通常称为“成功” (success) 和“失败” (failure)。 3. 恒定的成功概率:在每次试验中,成功的概率都是一个常数,记为 $p$。因此,失败的概率为 $q = 1-p$。

基于此,几何分布关注的{{{随机变量}}} (random variable) $X$ 就是为了观测到第一次成功所需要的试验总次数。

## 几何分布的两种形式

在学习和应用几何分布时,一个非常关键的注意事项是它存在两种被广泛接受的定义。这两种定义在随机变量的取值范围上有所不同,从而影响其{{{概率质量函数}}} (Probability Mass Function, PMF)、期望等性质。在任何具体问题中,都必须首先明确正在使用哪一种定义。

### 形式一:成功所需的试验次数

这是最直观的定义。随机变量 $X$ 表示 直到第一次成功发生时,所进行的总试验次数

* 支持集 (Support):$X$ 的可能取值为 $k = 1, 2, 3, \ldots$。$X=1$ 表示第一次试验就成功了,$X=k$ 表示前 $k-1$ 次试验都失败了,而第 $k$ 次试验成功了。 * 概率质量函数 (PMF): 事件 $\{X=k\}$ 发生的概率,意味着序列 `(失败, 失败, $...$, 失败, 成功)` 的出现,其中有 $k-1$ 次失败和 1 次成功。由于每次试验是独立的,我们可以将它们的概率相乘: $$ P(X=k) = (\underbrace{(1-p) \times (1-p) \times \cdots \times (1-p)}_{k-1 \text{ 次}}) \times p $$ 因此,PMF 为: $$ P(X=k) = (1-p)^{k-1}p \quad \text{for } k=1, 2, 3, \ldots $$

### 形式二:首次成功前的失败次数

在这种定义下,随机变量 $Y$ 表示 在第一次成功发生之前,所经历的失败次数

* 支持集 (Support):$Y$ 的可能取值为 $k = 0, 1, 2, \ldots$。$Y=0$ 表示第一次试验就成功了(0次失败),$Y=k$ 表示经历了 $k$ 次失败后,紧接着的一次试验是成功的。 * 概率质量函数 (PMF): 事件 $\{Y=k\}$ 发生的概率,意味着有 $k$ 次失败,随后有 1 次成功。其概率为: $$ P(Y=k) = (1-p)^k p \quad \text{for } k=0, 1, 2, \ldots $$ * 与形式一的关系:显而易见,$Y = X - 1$。因此,这两个形式本质上描述的是同一件事,只是观察角度不同。

注意:不同的教科书和统计软件(如R、Python中的库)可能默认使用不同的形式。在应用时务必查阅相关文档以避免混淆。在本词条的后续部分,我们主要以 形式一 (试验次数 $X$) 为基础进行讨论,并在必要时指出形式二的区别。

## 主要性质

### 期望 (Expected Value)

几何分布的{{{期望}}}或均值,直观上代表了“平均需要多少次试验才能获得第一次成功”。

* 对于形式一 ($X$),期望为: $$ E[X] = \frac{1}{p} $$ 直观理解:如果一个事件发生的概率是 $p=1/4$,那么直觉上我们平均需要进行 4 次试验才能等到它发生。 数学推导: $E[X] = \sum_{k=1}^{\infty} k \cdot P(X=k) = \sum_{k=1}^{\infty} k \cdot p(1-p)^{k-1} = p \sum_{k=1}^{\infty} k(1-p)^{k-1}$。 这是一个等差等比级数的求和。令 $S = \sum_{k=1}^{\infty} k q^{k-1}$,其中 $q=1-p$。通过微积分或错位相减法可证明 $S = \frac{1}{(1-q)^2} = \frac{1}{p^2}$。因此,$E[X] = p \cdot \frac{1}{p^2} = \frac{1}{p}$。

* 对于形式二 ($Y$),期望为: $$ E[Y] = E[X-1] = E[X] - 1 = \frac{1}{p} - 1 = \frac{1-p}{p} $$

### 方差 (Variance)

{{{方差}}}衡量了试验次数围绕其期望值的波动或离散程度。

* 对于形式一 ($X$) 和形式二 ($Y$),方差是相同的,因为随机变量加上或减去一个常数不影响其方差: $$ Var(X) = Var(Y) = \frac{1-p}{p^2} $$ 当成功概率 $p$ 很小时,方差会很大,这意味着获得首次成功所需的试验次数非常不稳定,波动范围很广。

### 无记忆性 (Memorylessness)

这是几何分布最独特且最重要的性质。它指出,过去失败的次数不影响未来成功的概率

* 数学表述:对于随机变量 $X$ (形式一),和任意正整数 $m, n$: $$ P(X > m+n \mid X > n) = P(X > m) $$ * 解释:这个公式的左边表示“在已经失败了 $n$ 次的条件下,还需要再失败至少 $m$ 次的概率”。右边表示“从一开始就需要失败至少 $m$ 次的概率”。无记忆性说明这两个概率是相等的。换句话说,系统“忘记”了它已经失败了 $n$ 次,未来成功的可能性与从零开始是完全一样的。 * 证明: 首先,我们需要计算事件 $\{X > k\}$ 的概率,即前 $k$ 次试验全部失败的概率。 $$ P(X > k) = (1-p)^k $$ 根据条件概率的定义: $$ P(X > m+n \mid X > n) = \frac{P(\{X > m+n\} \cap \{X > n\})}{P(X > n)} $$ 因为如果 $X > m+n$ 成立,那么 $X > n$ 必然成立,所以交集就是 $\{X > m+n\}$。 $$ = \frac{P(X > m+n)}{P(X > n)} = \frac{(1-p)^{m+n}}{(1-p)^n} = (1-p)^m = P(X > m) $$ * 在所有离散概率分布中,几何分布是唯一具有无记忆性的分布。其连续分布的对应物是{{{指数分布}}} (Exponential Distribution),后者也具有无记忆性。

### 累积分布函数 (Cumulative Distribution Function, CDF)

CDF 描述了随机变量小于或等于某个值的概率。

* 对于形式一 ($X$),当 $k$ 为正整数时: $$ F_X(k) = P(X \le k) = 1 - P(X > k) = 1 - (1-p)^k $$

## 与其他分布的关系

* 伯努利分布:几何分布可以看作是“反复进行独立的伯努利试验,直到出现第一次成功”。伯努利分布是单次试验的模型,而几何分布是这一系列试验的模型。 * 负二项分布:{{{负二项分布}}}是几何分布的推广。负二项分布描述了为取得 $r$ 次成功而需要进行的试验次数。当 $r=1$ 时,负二项分布就变成了几何分布。因此,`Geometric(p)` 等价于 `NegativeBinomial(r=1, p)`。

## 应用实例

例1:产品质量检测 假设一家工厂生产的灯泡有 5% 的概率是次品(成功 = 发现次品)。检查员一个接一个地检测灯泡。 * 问题:在检查到第 10 个灯泡时,才发现第一个次品的概率是多少? * 分析:这是一个几何分布问题(形式一)。 * 成功概率 $p = 0.05$。 * 随机变量 $X$ 是发现第一个次品时检查的灯泡总数。 * 我们要求 $P(X=10)$。 * $P(X=10) = (1-0.05)^{10-1} \times 0.05 = (0.95)^9 \times 0.05 \approx 0.0315$。 * 这意味着大约有 3.15% 的可能性在恰好第 10 次检查时发现首个次品。

* 问题:平均需要检查多少个灯泡才能发现第一个次品? * 分析:这是求期望值 $E[X]$。 * $E[X] = 1/p = 1/0.05 = 20$。 * 平均来说,检查员需要检查 20 个灯泡才能找到一个次品。

例2:游戏抽奖 在一个游戏中,每次抽奖获得稀有物品的概率为 $p=0.01$。 * 问题:一个玩家已经抽了 50 次都没有抽中,他感到很沮丧。那么他在接下来 10 次之内(即第 51 到 60 次)抽中的概率,与一个新玩家在前 10 次抽中的概率相比,哪个更大? * 分析:根据几何分布的无记忆性,两者是完全相等的。 * 老玩家已经失败 50 次,他接下来成功的概率不受过去失败的影响。 * 他从第 51 次开始“重新”等待第一次成功。 * $P(X > 60 \mid X > 50) = P(X > 10)$。 * 因此,老玩家在接下来 10 次内抽中的概率 $P(50 < X \le 60 \mid X > 50)$ 与新玩家在前 10 次内抽中的概率 $P(X \le 10)$ 是相同的。过去的失败记录不会增加未来的成功机会。