ARTICLE

离散分布

离散分布 (Discrete Distribution) 离散分布 (Discrete Distribution) 是 概率论 与 统计学 中描述 离散随机变量 概率行为的一类 概率分布。当随机变量的取值集合为有限集或可数无穷集时,其概率规律由离散分布完全刻画。离散分布是概率建模的两大基本范式之一,与 连续概率分布 共同构成统计推断与计量经济学的数学基础。

浏览 1 更新 2025-10-26

离散分布 (Discrete Distribution)

离散分布 (Discrete Distribution) 是 概率论统计学 中描述 离散随机变量 概率行为的一类 概率分布。当随机变量的取值集合为有限集或可数无穷集时,其概率规律由离散分布完全刻画。离散分布是概率建模的两大基本范式之一,与 连续概率分布 共同构成统计推断与计量经济学的数学基础。

离散分布的核心在于 概率质量函数 (Probability Mass Function, PMF) 与 累积分布函数 (Cumulative Distribution Function, CDF) 的有机统一:PMF 精确定义单点概率,CDF 则给出区间累积概率。二者配合,使得离散分布在风险建模、计数数据分析、离散选择等领域具有不可替代的地位。

概率质量函数 (PMF)

对于一个离散随机变量 XX,其 概率质量函数 p(x)p(x) 定义为:

p(x)=P(X=x),xSp(x) = P(X = x),\quad x \in \mathcal{S}

其中 S\mathcal{S}XX支持 (Support)——所有使 p(x)>0p(x) > 0xx 构成的集合。

一个合法的 PMF 必须同时满足 非负性归一性

p(x)0 (x),xSp(x)=1p(x) \ge 0\ (\forall x),\qquad \sum_{x \in \mathcal{S}} p(x) = 1

PMF 直接赋予每个可能的结果一个概率质量,这一"质量"意象源于物理学类比:将单位概率总质量 1 分布于可数个点上。与连续分布的概率密度函数 (PDF) 不同,PMF 本身即为概率,而非概率密度——p(x)p(x) 可以大于 1 的情形仅当取值本身被分组编码(如对数 PMF),而在原生定义下 p(x)[0,1]p(x) \in [0,1]

累积分布函数 (CDF)

离散分布的 累积分布函数 F(x)F(x) 定义为随机变量不超过 xx 的概率:

F(x)=P(Xx)=xixp(xi)F(x) = P(X \le x) = \sum_{x_i \le x} p(x_i)

离散 CDF 的核心特征是 阶梯状 (Step Function):函数在每个可能取值 xix_i 处发生垂直跳跃,跳跃高度恰好等于该点的 PMF 值 p(xi)p(x_i)。在跳跃点之间,CDF 保持常数。因此有重要关系:

p(xi)=F(xi)limyxiF(y)p(x_i) = F(x_i) - \lim_{y \to x_i^-} F(y)

即 PMF 可从 CDF 的跳跃中恢复。

CDF 满足边界条件 limxF(x)=0\lim_{x \to -\infty} F(x) = 0limx+F(x)=1\lim_{x \to +\infty} F(x) = 1,且非递减右连续。CDF 在计算区间概率时极为便捷:

P(a<Xb)=F(b)F(a)P(a < X \le b) = F(b) - F(a)

数字特征:期望与方差

期望 (Expected Value) 是离散分布的一阶矩,定义为中心位置的概率加权平均:

E[X]=μ=xSxp(x)E[X] = \mu = \sum_{x \in \mathcal{S}} x \cdot p(x)

方差 (Variance) 为二阶中心矩,度量分布离散程度:

Var(X)=σ2=E[(Xμ)2]=xS(xμ)2p(x)Var(X) = \sigma^2 = E[(X - \mu)^2] = \sum_{x \in \mathcal{S}} (x - \mu)^2 p(x)

计算中常用简化式 Var(X)=E[X2]μ2Var(X) = E[X^2] - \mu^2

高阶矩同样重要:偏度 (Skewness) 基于三阶中心矩 γ1=E[(Xμ)3]/σ3\gamma_1 = E[(X-\mu)^3]/\sigma^3 刻画非对称性,正偏意味着右尾更长;峰度 (Kurtosis) 基于四阶中心矩描述尾部厚度。例如 泊松分布 的偏度为 1/λ1/\sqrt{\lambda}(恒正偏),二项分布p=0.5p=0.5 时偏度为零(对称)。这些高阶特征在金融风险建模(如操作风险损失的厚尾建模)和模型诊断中具有重要参考价值。

常见离散分布概览

离散分布家族涵盖从最简单的单次试验模型到复杂的多元计数模型。以下列出核心成员及其基本特征:

  • 伯努利分布 (Bernoulli Distribution):单次二分类试验,PMF 为 px(1p)1x, x{0,1}p^x(1-p)^{1-x},\ x \in \{0,1\}。是所有离散分布的基本构件——任意有界离散分布均可表示为伯努利变量的加权组合。
  • 二项分布 (Binomial Distribution)nn 次独立伯努利试验的成功总次数,PMF 为 (nk)pk(1p)nk\binom{n}{k}p^k(1-p)^{n-k}。当 nn 很大而 pp 很小时,由 泊松定理 逼近于泊松分布。
  • 泊松分布 (Poisson Distribution):固定区间内随机事件发生次数,PMF 为 λkeλ/k!\lambda^k e^{-\lambda}/k!。期望与方差相等(均为 λ\lambda),这一等散布性 (Equidispersion) 在实证计数数据中常被违反,由此催生 负二项回归 等过散布模型。
  • 几何分布 (Geometric Distribution):首次成功前的试验次数,PMF 为 (1p)k1p(1-p)^{k-1}p。是唯一具有 无记忆性 的离散分布:P(X>m+nX>n)=P(X>m)P(X > m+n \mid X > n) = P(X > m)
  • 超几何分布 (Hypergeometric Distribution):有限总体不放回抽样中成功元素的个数。当总体远大于样本时近似于二项分布,是小样本精确检验(如 费雪精确检验)的理论基础。
  • 负二项分布 (Negative Binomial Distribution):第 rr 次成功前的失败次数,是泊松分布的重要替代——允许方差大于期望,在 计数数据模型 中广泛应用。

概率生成函数与离散分布的解析工具

概率生成函数 (Probability Generating Function, PGF) 是离散分布特有的强大解析工具。对于非负整数值随机变量 XX,其 PGF 定义为:

GX(t)=E[tX]=k=0p(k)tk,t1G_X(t) = E[t^X] = \sum_{k=0}^{\infty} p(k) t^k,\quad |t| \le 1

PGF 的核心性质:一阶导数在 t=1t=1 处给出期望 GX(1)=E[X]G'_X(1) = E[X];二阶导数给出 GX(1)=E[X(X1)]G''_X(1) = E[X(X-1)],由此可得方差。更深刻的是,PGF 的唯一性定理断言:若两个非负整数值随机变量的 PGF 在包含 0 的开区间内相等,则它们同分布。这为独立随机变量和的分布推导提供了卷积替代方案——独立和的 PGF 等于各自 PGF 的乘积。泊松定理 的经典证明正是利用二项 PGF 的极限 [(1p)+pt]neλ(t1)[(1-p) + pt]^n \to e^{\lambda(t-1)} 完成的。

与连续分布的关系

离散分布与 连续概率分布 的根本差异不在于取值的有限性,而在于概率的分配方式。离散分布将总概率质量 1 分配于可数个孤立点上,连续分布则将其散布于不可数连续区间上——任意单点的概率为零,仅区间积分有意义。

这一差异在实践中有重要推论:

  • 近似与连续性校正:使用连续分布(如正态分布)近似离散分布(如二项分布)时,需进行 连续性修正。例如,用 N(np,np(1p))N(np, np(1-p)) 近似 B(n,p)B(n,p) 时,P(Xk)P(X \le k) 的连续近似为 Φ((k+0.5np)/np(1p))\Phi((k+0.5-np)/\sqrt{np(1-p)}) 而非 Φ((knp)/np(1p))\Phi((k-np)/\sqrt{np(1-p)})。这一 ±0.5 调整源于将离散点概率映射到连续区间的几何直觉。
  • 从离散到连续的极限:许多连续分布可视为离散分布的极限。正态分布是二项分布的极限(De Moivre--Laplace 定理),指数分布是几何分布的连续类比(二者共享无记忆性),Gamma 分布则是负二项分布的连续对应。
  • 经验分布函数经验分布函数 (EDF) 本身就是离散分布(在每个样本点赋予质量 1/n1/n),却收敛于真实的总体分布(无论离散或连续)——这体现了离散分布在统计推断中的桥梁作用,也是 Bootstrap 方法的理论出发点。

计量经济学与实证应用

离散分布在现代计量经济学中扮演核心角色:

离散选择模型LogitProbit模型 以伯努利分布为底层概率结构,通过连接函数将线性预测子映射至 [0,1][0,1] 区间,用于建模二元决策(购买/不购买、就业/失业)。

计数数据模型:泊松回归与负二项回归直接以离散分布为似然函数,广泛应用于专利数量、医院就诊次数、交通事故频率等非负整数响应变量的建模。当数据呈现过度散布(方差大于均值)时,负二项回归通过引入伽马混合分布提供灵活的替代方案。

风险与保险精算:操作风险损失频率以泊松过程建模,违约事件计数以二项或泊松分布描述,几何分布刻画首次索赔时间——离散分布构成精算科学与 信用风险 建模的概率骨架。

抽样理论与实验设计:超几何分布支撑有限总体推断,多项分布推广二项处理多类别响应——从 列联表分析多项Logit模型,离散分布无处不在。

离散分布作为概率论最原始却也最深刻的分支,其简洁性与强大的建模能力使其成为经济学实证研究中不可或缺的数学语言。理解离散分布的结构与性质,是通往 统计推断计量经济学 乃至 机器学习 (Machine Learning) 分类模型的理论门户。