ARTICLE

离散概率分布

离散概率分布 (Discrete Probability Distribution) 离散概率分布是概率论和统计学中的核心概念,用于完整刻画一个离散随机变量所有可能取值及其对应概率的分布规律。如果说随机变量是对不确定性现象的数学建模,那么概率分布就是这个模型最完整的"说明书"——它告诉我们变量会取哪些值,以及取每个值的可能性有多大。 一个随机变量被称为离散的

浏览 46 更新 2025-10-26

离散概率分布 (Discrete Probability Distribution)

离散概率分布概率论统计学中的核心概念,用于完整刻画一个离散随机变量所有可能取值及其对应概率的分布规律。如果说随机变量是对不确定性现象的数学建模,那么概率分布就是这个模型最完整的"说明书"——它告诉我们变量会取哪些值,以及取每个值的可能性有多大。

一个随机变量被称为离散的,当且仅当其所有可能取值的集合是可数的,即取值可以被一一列举,无论是有限个(如掷骰子的点数 1166)还是可数无限个(如首次成功所需的试验次数可取 1,2,3,1, 2, 3, \ldots)。离散概率分布则是对这种变量概率行为的完整数学描述。与此形成对照的是连续概率分布,后者处理取值在某个区间内不可数的连续随机变量,如身高、温度等可以在一个范围内取任意实数值的量。两者的本质区别在于:离散分布用概率质量函数(求和)刻画,连续分布用概率密度函数(积分)刻画。

形式化定义与性质

离散概率分布由其概率质量函数 (Probability Mass Function, PMF) 唯一确定。对于离散随机变量 XX,PMF 定义为:

p(x)=P(X=x)p(x) = P(X = x)

即将随机变量精确等于某个特定值 xx 的概率表达为 xx 的函数。PMF 是离散分布的"身份证",掌握了它,就掌握了随机变量的全部概率信息。

一个合法的 PMF 必须满足两条公理性质:

  1. 非负性:对任意可能取值 xix_i,有 0p(xi)10 \le p(x_i) \le 1。概率不能为负,也不能超过一,这是概率作为"可能性度量"的基本直觉。
  2. 归一性:所有可能取值的概率之和等于 11,即 xiSp(xi)=1\sum_{x_i \in S} p(x_i) = 1,其中 SS样本空间。这意味着在所有可能的结果中,必然有一个会发生——这是概率公理化定义中"单位测度"条件的体现。

分布的数字特征

PMF 完整地描述了一个离散分布,但在实践中我们常常需要一两个概括性的数字来快速把握分布的特征。最常用的两个数字特征是期望值和方差。

期望值 (Expected Value),记作 E[X]E[X]μ\mu,是随机变量所有可能取值按其概率加权的平均,公式为 E[X]=μ=ixip(xi)E[X] = \mu = \sum_{i} x_i p(x_i)。它描述了分布在"长期平均"意义上的中心位置。例如,掷一枚公平骰子的期望值为 3.53.5,尽管 3.53.5 本身不是一个可能的点数——期望值不一定是可取值,它是一个理论上的"重心"。

方差 (Variance),记作 Var(X)\operatorname{Var}(X)σ2\sigma^2,衡量取值围绕期望值的离散程度。定义为 Var(X)=σ2=E[(Xμ)2]=i(xiμ)2p(xi)\operatorname{Var}(X) = \sigma^2 = E[(X-\mu)^2] = \sum_{i} (x_i - \mu)^2 p(x_i)。在计算上,常用等价公式 Var(X)=E[X2](E[X])2\operatorname{Var}(X) = E[X^2] - (E[X])^2标准差 σ=Var(X)\sigma = \sqrt{\operatorname{Var}(X)} 与变量同量纲,解释更直观。方差越大,分布越"扁平",不确定性越高。

常见的离散概率分布

以下五种分布覆盖了绝大多数应用场景:

  1. 伯努利分布 (Bernoulli Distribution):最简单的情形——单次二结果试验。参数 p[0,1]p \in [0,1]成功概率。PMF:P(X=x)=px(1p)1xP(X=x) = p^x (1-p)^{1-x}x{0,1}x \in \{0, 1\}E[X]=pE[X] = pVar(X)=p(1p)\operatorname{Var}(X) = p(1-p)。例如抛一次硬币看是否正面。
  2. 二项分布 (Binomial Distribution)nn 次独立伯努利试验中成功的总次数。参数为试验次数 nn 和单次成功概率 pp。PMF:P(X=k)=(nk)pk(1p)nkP(X=k) = \binom{n}{k} p^k (1-p)^{n-k}k{0,1,,n}k \in \{0, 1, \ldots, n\}E[X]=npE[X] = npVar(X)=np(1p)\operatorname{Var}(X) = np(1-p)。例如抛10次硬币,正面朝上的次数服从 Binomial(10,0.5)\text{Binomial}(10, 0.5)。二项分布是统计推断中最常用的分布之一,假设检验中的符号检验、比率检验都基于它。
  3. 泊松分布 (Poisson Distribution):刻画在固定时间或空间内随机事件发生的次数,假设事件独立且以恒定速率发生。唯一参数 λ>0\lambda > 0 既是期望也是方差:E[X]=Var(X)=λE[X] = \operatorname{Var}(X) = \lambda。PMF:P(X=k)=λkeλk!P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}k{0,1,2,}k \in \{0, 1, 2, \ldots\}。典型应用:呼叫中心每小时来电数、一段DNA上的突变位点数、保险理赔的日发生次数。当 nnpp 小且 npλnp \approx \lambda 时,二项分布可用泊松分布近似,这被称为"稀有事件定律"。
  4. 几何分布 (Geometric Distribution):重复独立伯努利试验,直到第一次成功所需的次数。PMF:P(X=k)=(1p)k1pP(X=k) = (1-p)^{k-1} pk{1,2,}k \in \{1, 2, \ldots\}E[X]=1/pE[X] = 1/pVar(X)=(1p)/p2\operatorname{Var}(X) = (1-p)/p^2。几何分布具有无记忆性:无论已经失败了多少次,接下来仍需等待的分布与从头开始一样——这是唯一具有此性质的离散分布。例如反复掷骰子直到第一次出现6点。
  5. 超几何分布 (Hypergeometric Distribution):从有限总体 NN(含 KK 个"成功")中不放回抽取 nn 个,成功数量的分布。PMF:P(X=k)=(Kk)(NKnk)(Nn)P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}。与二项分布的关键区别在于不放回导致各次抽取不独立。当总体 NN 远大于样本量 nn 时,超几何分布近似于 Binomial(n,K/N)\text{Binomial}(n, K/N)。典型应用:质量控制中的抽样检验、扑克牌中特定花色张数的计算。

累积分布函数 (CDF)

离散随机变量的累积分布函数 (Cumulative Distribution Function),记作 F(x)F(x),定义为随机变量取值不超过 xx 的概率:

F(x)=P(Xx)=xixp(xi)F(x) = P(X \le x) = \sum_{x_i \le x} p(x_i)

CDF 是从 PMF 累加得到的,它有三个基本性质:非减、右连续、limxF(x)=0\lim_{x \to -\infty} F(x) = 0limxF(x)=1\lim_{x \to \infty} F(x) = 1。对于离散变量,CDF 呈阶梯状(阶跃函数),每一级跳跃的高度恰好等于该点的概率质量。CDF 最大的实用价值在于可以直接计算区间概率:P(a<Xb)=F(b)F(a)P(a < X \le b) = F(b) - F(a),无需逐项求和。在经济和金融应用中,风险价值 (VaR) 本质上就是收益分布 CDF 的分位数,而信用评级迁移矩阵中的违约概率也可通过 CDF 的视角加以理解。

离散分布在经济学与计量中的应用

离散概率分布在经济学和计量经济学中有广泛而深远的应用。离散选择模型(如 Logit 和 Probit 模型)完全建立在离散分布的理论基础上,被广泛用于分析消费者的购买决策、投票行为、交通方式选择等二元或多元选择问题。计数模型(如泊松回归和负二项回归)则直接应用泊松分布来建模专利数量、就医次数、缺勤天数等计数型被解释变量。在金融风险管理中,违约事件本身服从伯努利分布,而违约次数的建模则涉及二项分布和泊松分布。此外,抽样理论中的接受抽样方案、保险精算中的索赔次数建模,以及机器学习中朴素贝叶斯分类器的概率估计,无一不以离散概率分布为理论基石。掌握离散分布不仅是学习概率论的第一步,更是贯通整个定量社会科学的关键起点。