ARTICLE

概率分布

概率分布 (Probability Distribution) 概率分布 (Probability Distribution) 是概率论和统计学中的核心概念。它是一个数学函数,用于完整描述一个随机变量所有可能取值及其对应的概率。掌握了随机变量的概率分布,就等于掌握了该随机变量的全部随机性规律——它是进行统计推断、参数估计和假设检验的根基。 概率分布的形式取决

浏览 76 更新 2025-10-25

概率分布 (Probability Distribution)

概率分布 (Probability Distribution) 是概率论统计学中的核心概念。它是一个数学函数,用于完整描述一个随机变量所有可能取值及其对应的概率。掌握了随机变量的概率分布,就等于掌握了该随机变量的全部随机性规律——它是进行统计推断、参数估计和假设检验的根基。

概率分布的形式取决于随机变量的类型:离散还是连续。

离散概率分布与概率质量函数 (PMF)

当随机变量只能取有限个或可数无限个数值时(例如:掷骰子的点数 1,2,,6 1,2,\dots,6 ;一天内的顾客数量 0,1,2, 0,1,2,\dots ),我们称其为离散随机变量。其分布由概率质量函数 (Probability Mass Function, PMF) 刻画,记作:

p(x)=P(X=x)p(x) = P(X = x)

PMF 直接给出随机变量 X X 恰好等于某个具体值 x x 的概率。一个有效的 PMF 必须满足两个条件:

  • 非负性:对所有 x x p(x)0 p(x) \ge 0
  • 归一性:所有可能取值的概率之和为 1,即 xp(x)=1 \sum_x p(x) = 1

最常见的离散分布有三类:

  • 伯努利分布:描述单次试验的二元结果(成功/失败),随机变量仅取 0 或 1。它是所有离散分布中最简单、最基本的构建块。
  • 二项分布n n 次独立、同分布的伯努利试验中成功的总次数。抛十次硬币出现正面的次数即服从二项分布,其参数为试验次数 n n 和成功概率 p p
  • 泊松分布:描述固定时间或空间间隔内某稀有事件发生的次数,如呼叫中心一小时内的来电数。当 n n 很大而 p p 很小时,二项分布可用泊松分布近似。

连续概率分布与概率密度函数 (PDF)

当随机变量可以在某个区间内取任意实数值时(例如:身高、温度、股票收益率),称为连续随机变量。其分布由概率密度函数 (Probability Density Function, PDF) 描述,记作 f(x) f(x)

与 PMF 的一个关键区别在于:连续随机变量取任何单个特定值的概率恒为零,即 P(X=x)=0 P(X=x)=0 。因此,PDF 在单点的值本身不代表概率。概率只能通过积分——即密度曲线下的面积——来获得:

P(aXb)=abf(x)dxP(a \le X \le b) = \int_a^b f(x)\,dx

有效的 PDF 须满足 f(x)0 f(x) \ge 0 f(x)dx=1 \int_{-\infty}^{\infty} f(x)\,dx = 1

常见连续分布包括:

  • 正态分布:亦称高斯分布,由均值 μ \mu 和方差 σ2 \sigma^2 完全确定,呈对称钟形曲线。中心极限定理保证了它在统计推断中的核心地位。
  • 均匀分布:在区间 [a,b] [a, b] 上所有点的概率密度相等,f(x)=1/(ba) f(x) = 1/(b-a) 。它是随机数生成和贝叶斯无信息先验的基础。
  • 指数分布:描述独立随机事件之间的等待时间,具有无记忆性——无论已经等待了多久,剩余等待时间的分布始终不变。

累积分布函数 (CDF)

累积分布函数 (Cumulative Distribution Function) 是对离散和连续随机变量统一适用的概念,定义为:

F(x)=P(Xx)F(x) = P(X \le x)

CDF 具有普适性质:非递减,limxF(x)=0 \lim_{x\to -\infty}F(x)=0 limx+F(x)=1 \lim_{x\to +\infty}F(x)=1 。对于离散变量,F(x)=txp(t) F(x)=\sum_{t\le x}p(t) ;对于连续变量,F(x)=xf(t)dt F(x)=\int_{-\infty}^x f(t)\,dt ,且 PDF 是 CDF 的导数:f(x)=dF(x)/dx f(x)=dF(x)/dx

关键数字特征

分布可通过若干数值特征概括其形态:

  • 期望值 E[X] E[X] (均值 μ \mu ):分布的"重心",按概率加权的平均。离散:E[X]=xxp(x) E[X]=\sum_x x\cdot p(x) ;连续:E[X]=xf(x)dx E[X]=\int_{-\infty}^{\infty} x\cdot f(x)\,dx
  • 中位数 m m :将分布分为概率各半的点,满足 P(Xm)0.5 P(X\le m) \ge 0.5 P(Xm)0.5 P(X\ge m) \ge 0.5
  • 众数:概率(密度)最大的取值,即分布的峰值点
  • 方差 σ2=E[(Xμ)2] \sigma^2 = E[(X-\mu)^2] 标准差 σ=Var(X) \sigma = \sqrt{\operatorname{Var}(X)} :度量数据围绕均值的离散程度。标准差因与原变量同单位而更具可解释性

应用

概率分布是连接概率理论与现实世界的桥梁。在统计推断中,我们通过样本的抽样分布推断总体参数并进行假设检验;在金融工程中,资产收益率常用对数正态分布建模,而极端风险则借助极值理论的分布族来刻画;在精算科学中,寿命分布和索赔额分布是保险定价的基石;在机器学习中,分类器的输出是类别概率分布,生成模型则直接对数据的联合分布建模;在物理学中,量子力学的波函数本质上是一种概率振幅分布。概率分布是定量科学中不可或缺的通用语言。