知经 KNOWECON · 卓越的经济金融统计数学学习平台

均匀分布

# 均匀分布 (Uniform Distribution)

均匀分布 (Uniform Distribution),也称为矩形分布,是{{{概率论}}}和{{{统计学}}}中最简单的一种{{{概率分布}}}。它的核心思想是,在一个给定的范围内,所有可能结果的出现都是 等可能的。均匀分布根据{{{随机变量}}}是离散的还是连续的,分为两种形式:{{{离散均匀分布}}} (Discrete Uniform Distribution) 和 {{{连续均匀分布}}} (Continuous Uniform Distribution)。

## 离散均匀分布 (Discrete Uniform Distribution)

当一个{{{随机变量}}} $X$ 只能取有限个离散且等可能的值时,我们称其服从离散均匀分布。

定义:如果一个离散随机变量 $X$ 有 $n$ 个可能的结果 $\{x_1, x_2, \dots, x_n\}$,并且每个结果发生的概率都相等,那么 $X$ 就服从一个离散均匀分布。

最常见的情况是,这些值为连续的整数,例如从 $a$ 到 $b$ 的所有整数。此时,总共有 $n = b - a + 1$ 个可能的值。

### 概率质量函数 (Probability Mass Function, PMF)

{{{概率质量函数}}} (PMF) 描述了随机变量取到每个特定值的概率。对于一个在整数区间 $[a, b]$ 上均匀分布的随机变量 $X$,其PMF为:

$$ P(X=k) = \frac{1}{n} = \frac{1}{b-a+1}, \quad \text{for } k = a, a+1, \dots, b $$

对于所有其他 $k$ 值,其概率为0。

### 累积分布函数 (Cumulative Distribution Function, CDF)

{{{累积分布函数}}} (CDF) 描述了随机变量小于或等于某个值 $x$ 的概率,即 $F(x) = P(X \le x)$。对于整数区间 $[a, b]$ 上的离散均匀分布,其CDF是一个阶梯函数:

$$ F(x) = P(X \le x) = \begin{cases} 0 & \text{for } x < a \\ \frac{\lfloor x \rfloor - a + 1}{b - a + 1} & \text{for } a \le x \le b \\ 1 & \text{for } x > b \end{cases} $$

其中 $\lfloor x \rfloor$ 表示不大于 $x$ 的最大整数(向下取整函数)。

### 主要性质

对于一个在整数区间 $[a, b]$ 上均匀分布的随机变量 $X$:

* {{{期望值}}} (Mean): $$E[X] = \frac{a+b}{2}$$ 期望值是可能取值的算术平均数,直观上就是区间的中心。

* {{{方差}}} (Variance): $$Var(X) = \frac{(b-a+1)^2 - 1}{12}$$ 方差衡量了数据点相对于期望值的离散程度。

### 示例:掷骰子

一个标准的六面公平骰子是离散均匀分布最经典的例子。

* 可能的结果集为 $\{1, 2, 3, 4, 5, 6\}$。 * $a=1$, $b=6$, 因此有 $n=6-1+1=6$ 个结果。 * PMF: 每个结果的概率都是 $P(X=k) = \frac{1}{6}$,其中 $k \in \{1, 2, 3, 4, 5, 6\}$。 * 期望值: $E[X] = \frac{1+6}{2} = 3.5$。这意味着多次投掷骰子的平均点数会趋近于 3.5。 * 方差: $Var(X) = \frac{(6-1+1)^2 - 1}{12} = \frac{6^2 - 1}{12} = \frac{35}{12} \approx 2.92$。

## 连续均匀分布 (Continuous Uniform Distribution)

当一个{{{随机变量}}} $X$ 可以在一个有界区间 $[a, b]$ 内取任何实数值,并且在任何等长度的子区间内取值的概率都相同时,我们称其服从连续均匀分布。通常我们说的“均匀分布”更多时候指代的是连续均匀分布。

定义:如果一个连续随机变量 $X$ 的{{{概率密度函数}}} (PDF) 在一个区间 $[a, b]$ 上为常数,而在该区间外为0,那么 $X$ 就服从一个在 $[a, b]$ 上的连续均匀分布。我们通常记作 $X \sim U(a, b)$。

### 概率密度函数 (Probability Density Function, PDF)

由于连续分布的总概率(即PDF曲线下的总面积)必须为1,所以对于长度为 $b-a$ 的区间,其PDF的高度必须是 $\frac{1}{b-a}$。

$$ f(x) = \begin{cases} \frac{1}{b-a} & \text{for } a \le x \le b \\ 0 & \text{otherwise} \end{cases} $$

重要提示:对于任何{{{连续随机变量}}},包括均匀分布,其取到任何单个精确值的概率都为0,即 $P(X=c)=0$。概率只能在某个区间上定义,例如 $P(c \le X \le d)$。

### 累积分布函数 (Cumulative Distribution Function, CDF)

CDF 是 PDF 从负无穷到 $x$ 的积分。对于连续均匀分布,其CDF是一个线性增长的斜坡:

$$ F(x) = P(X \le x) = \begin{cases} 0 & \text{for } x < a \\ \frac{x-a}{b-a} & \text{for } a \le x \le b \\ 1 & \text{for } x > b \end{cases} $$

### 主要性质

对于一个服从 $U(a, b)$ 的连续随机变量 $X$:

* {{{期望值}}} (Mean): $$E[X] = \frac{a+b}{2}$$ 期望值同样是区间的中心点。

* {{{方差}}} (Variance): $$Var(X) = \frac{(b-a)^2}{12}$$ 注意,这个公式与离散情况略有不同。

* {{{标准差}}} (Standard Deviation): $$\sigma_X = \sqrt{Var(X)} = \frac{b-a}{\sqrt{12}} \approx 0.2887 \cdot (b-a)$$

### 示例:公交车等待时间

假设一辆公交车在上午8:00到8:20之间随机到达,且在任何时刻到达的概率都一样。设 $X$ 为从8:00开始的等待时间(以分钟为单位)。

* 那么 $X$ 服从在区间 $[0, 20]$ 上的连续均匀分布,即 $X \sim U(0, 20)$。 * $a=0$, $b=20$。 * PDF: $f(x) = \frac{1}{20-0} = \frac{1}{20}$,对于 $0 \le x \le 20$。 * 期望值: $E[X] = \frac{0+20}{2} = 10$。平均等待时间为10分钟。 * 方差: $Var(X) = \frac{(20-0)^2}{12} = \frac{400}{12} = \frac{100}{3} \approx 33.33$。 * 计算概率: 等待时间在5到15分钟之间的概率是多少? $P(5 \le X \le 15) = \int_{5}^{15} \frac{1}{20} dx = \frac{1}{20} [x]_{5}^{15} = \frac{15-5}{20} = \frac{10}{20} = 0.5$。 或者,使用CDF计算:$P(5 \le X \le 15) = F(15) - F(5) = \frac{15-0}{20} - \frac{5-0}{20} = \frac{10}{20} = 0.5$。

## 重要性质与应用

1. {{{最大熵}}} (Maximum Entropy):对于一个给定了取值范围的随机变量,如果我们没有任何其他信息,那么假设其服从均匀分布是最合理的选择。这是因为均匀分布在所有具有相同支撑集的分布中,其{{{信息熵}}}是最大的,代表了最大的不确定性。

2. 随机数生成的基础:均匀分布,特别是 $U(0, 1)$,是所有{{{随机模拟}}}的基石。计算机中的伪随机数生成器本质上就是为了产生服从 $U(0, 1)$ 分布的序列。通过{{{逆变换采样法}}} (Inverse Transform Sampling) 等技术,我们可以将 $U(0, 1)$ 的随机数转换成服从其他任何复杂分布(如{{{正态分布}}}、{{{指数分布}}})的随机数。这是{{{蒙特卡洛方法}}}的核心。

3. 在统计检验中的应用:在假设检验中,如果{{{零假设}}} ($H_0$) 是正确的,那么计算出的{{{P值}}} (p-value) 理论上应该服从 $U(0, 1)$ 分布。这个性质可以用来检验一系列独立实验的p值是否表现正常。