# 离散型随机变量 (Discrete Random Variable)
在{{{概率论}}}与{{{统计学}}}中,离散型随机变量是一个基础且核心的概念。它是一种其可能取值是“可数”的{{{随机变量}}}。这意味着它的所有可能值要么是有限的,要么是可数无限的。
一个{{{随机变量}}}本质上是一个函数,它将一个{{{随机试验}}}的每一个可能结果(即{{{样本空间}}}中的一个元素)映射到一个唯一的实数。根据这些实数取值的特性,随机变量被分为离散型和{{{连续型随机变量}}}两大类。离散型随机变量通常与计数过程相关,例如,抛硬币出现的正面次数、一个小时内到达银行的顾客人数等。
## 详细定义
要准确理解离散型随机变量,我们需要先理解两个组成部分:
1. 随机变量 (Random Variable): 在数学上,一个随机变量 $X$ 是一个定义在样本空间 $\Omega$ 上的函数,它将每个样本点 $\omega \in \Omega$ 映射到实数集 $\mathbb{R}$ 上的一个值,即 $X(\omega) = x$。简而言之,它为随机现象的结果赋予一个数值。例如,在抛掷一枚骰子的试验中,样本空间为 $\Omega = \{ \text{一点}, \text{二点}, \ldots, \text{六点} \}$。我们可以定义一个随机变量 $X$ 为掷出的点数,那么 $X$ 就将这些文字结果映射为数字 $\{1, 2, 3, 4, 5, 6\}$。
2. “离散”的特性 (The "Discrete" Property): 一个随机变量被称为离散的,如果其所有可能取值的集合是可数的 (countable)。可数集包括两种情况: * 有限集 (Finite Set): 可能的取值数量是有限的。例如,一枚骰子的点数 $X$ 只能取 $\{1, 2, 3, 4, 5, 6\}$ 这6个值。 * 可数无限集 (Countably Infinite Set): 可能的取值是无限的,但可以与自然数集 $\{1, 2, 3, \dots\}$ 建立一一对应的关系。例如,假设我们不停地抛掷一枚硬币直至第一次出现正面为止,令随机变量 $Y$ 为所需的抛掷次数。$Y$ 的可能取值为 $\{1, 2, 3, 4, \dots\}$。这个集合是无限的,但它是可数的。
与离散型随机变量相对的是{{{连续型随机变量}}},后者的可能取值可以充满一个或多个区间,是不可数的,例如一个地区明天的降雨量。
## 描述离散型随机变量的工具
为了完整地描述一个离散型随机变量的统计特性,我们主要使用以下两个函数:
### 1. 概率质量函数 (Probability Mass Function, PMF)
{{{概率质量函数}}} (PMF) 是描述离散型随机变量最直接的方式。对于一个离散型随机变量 $X$,其PMF定义为 $p_X(x) = P(X=x)$,表示变量 $X$ 精确等于某个特定值 $x$ 的概率。
PMF必须满足以下两个基本性质: 1. 非负性:对于任意值 $x$,都有 $p_X(x) \ge 0$。 2. 归一性:所有可能取值的概率之和必须等于1。即: $$ \sum_{x} p_X(x) = 1 $$ 其中,求和的范围是 $X$ 所有可能的取值。
示例:考虑一个公平的六面骰子,随机变量 $X$ 代表掷出的点数。其PMF为: $$ p_X(k) = P(X=k) = \frac{1}{6}, \quad \text{对于 } k \in \{1, 2, 3, 4, 5, 6\} $$ 对于任何其他值 $k$(如 $k=2.5$ 或 $k=7$),$p_X(k) = 0$。
### 2. 累积分布函数 (Cumulative Distribution Function, CDF)
{{{累积分布函数}}} (CDF) 是一个更具普适性的工具,对离散和连续随机变量都适用。对于随机变量 $X$,其CDF定义为 $F_X(x) = P(X \le x)$,表示变量 $X$ 的取值小于或等于某个特定值 $x$ 的概率。
对于离散型随机变量,其CDF可以通过对PMF求和得到: $$ F_X(x) = \sum_{k \le x} p_X(k) $$ 离散型随机变量的CDF是一个阶梯函数 (step function),它在每个可能的取值点上发生跳跃,跳跃的高度等于该点的概率质量(即PMF的值)。
示例:继续使用骰子的例子,其CDF $F_X(x)$ 的一些取值为: * $F_X(0.5) = P(X \le 0.5) = 0$ * $F_X(1) = P(X \le 1) = P(X=1) = \frac{1}{6}$ * $F_X(1.5) = P(X \le 1.5) = P(X=1) = \frac{1}{6}$ * $F_X(2) = P(X \le 2) = P(X=1) + P(X=2) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6}$ * $F_X(6) = P(X \le 6) = 1$ * $F_X(10) = P(X \le 10) = 1$
这个函数在 $x=1, 2, 3, 4, 5, 6$ 各点处向上跳跃,每步高度为 $1/6$。
## 重要数字特征
### 1. 期望 (Expected Value)
{{{期望}}}(或称均值)是随机变量的中心趋势度量,代表了在大量重复试验中,该随机变量的“平均”取值。对于离散型随机变量 $X$,其期望记为 $E[X]$ 或 $\mu_X$,计算公式为: $$ E[X] = \sum_{x} x \cdot p_X(x) $$ 它是一个加权平均,每个可能取值 $x$ 的权重是其发生的概率 $p_X(x)$。
示例:对于骰子,$E[X] = 1\left(\frac{1}{6}\right) + 2\left(\frac{1}{6}\right) + 3\left(\frac{1}{6}\right) + 4\left(\frac{1}{6}\right) + 5\left(\frac{1}{6}\right) + 6\left(\frac{1}{6}\right) = \frac{21}{6} = 3.5$。 尽管3.5不是一个可能的掷骰结果,但它代表了长期平均值。
### 2. 方差与标准差 (Variance and Standard Deviation)
{{{方差}}}和{{{标准差}}}是衡量随机变量取值分散程度的度量。方差越大,表示数据点越分散于均值两侧。
{{{方差}}}记为 $\text{Var}(X)$ 或 $\sigma_X^2$,定义为随机变量与期望之差的平方的期望值: $$ \text{Var}(X) = E[(X - \mu_X)^2] = \sum_{x} (x - \mu_X)^2 \cdot p_X(x) $$ 一个更方便计算的公式是: $$ \text{Var}(X) = E[X^2] - (E[X])^2 $$ 其中 $E[X^2] = \sum_x x^2 \cdot p_X(x)$。
{{{标准差}}}记为 $\sigma_X$,是方差的算术平方根: $$ \sigma_X = \sqrt{\text{Var}(X)} $$ 标准差的单位与随机变量本身的单位相同,因此在解释上更为直观。
## 常见的离散概率分布
在实践中,许多现象都可以用一些标准化的离散概率分布来建模:
* {{{伯努利分布}}} (Bernoulli Distribution):描述单次试验的结果,该试验只有两个可能的结果(如成功/失败,正面/反面)。是构建其他更复杂离散分布的基础。 * {{{二项分布}}} (Binomial Distribution):描述在 $n$ 次独立的{{{伯努利试验}}}中,“成功”事件发生的确切次数。例如,抛10次硬币,出现6次正面的概率。 * {{{泊松分布}}} (Poisson Distribution):描述在一个固定的时间或空间单位内,某事件发生的次数,前提是该事件以一个已知的平均速率独立发生。例如,一家商店每小时平均接待10位顾客,计算下一小时恰好接待12位顾客的概率。 * {{{几何分布}}} (Geometric Distribution):描述在连续的伯努利试验中,为获得第一次“成功”所需要进行的试验次数。例如,需要抛多少次骰子才能第一次掷出6。 * {{{超几何分布}}} (Hypergeometric Distribution):描述从一个包含“成功”和“失败”两类元素的有限总体中,进行不放回抽样,在抽取的样本中“成功”元素的数量。例如,从一副牌中抽5张,其中有2张A的概率。