ARTICLE

probability distribution

概率分布 (Probability Distribution) 概率分布 (Probability Distribution) 是 概率论 与 统计学 中最基础的概念之一。它完整描述了一个 随机变量 (Random Variable) 取各个可能值的概率规律。更形式化地说,概率分布是定义在样本空间 上的一个概率测度 P,满足 Kolmogorov 公理:非负

浏览 0 更新 2025-07-16

概率分布 (Probability Distribution)

概率分布 (Probability Distribution) 是 概率论统计学 中最基础的概念之一。它完整描述了一个 随机变量 (Random Variable) 取各个可能值的概率规律。更形式化地说,概率分布是定义在样本空间 Ω\Omega 上的一个概率测度 PP,满足 Kolmogorov 公理:非负性、规范性(全空间概率为 1)以及可列可加性。随机变量 XX 的概率分布完全决定了其所有概率特征——包括期望、方差、分位数以及任意事件 XAX \in A 的发生概率。

离散分布与连续分布

根据随机变量的取值类型,概率分布分为两大类:

  1. 离散概率分布 (Discrete Probability Distribution):随机变量取值于有限集或可列无穷集 {x1,x2,}\{x_1, x_2, \ldots\},由 概率质量函数 (Probability Mass Function, PMF) 完全刻画:p(xi)=P(X=xi)p(x_i) = P(X = x_i),满足 p(xi)0p(x_i) \geq 0ip(xi)=1\sum_i p(x_i) = 1。常见离散分布包括 Bernoulli分布二项分布泊松分布、几何分布等。
  2. 连续概率分布 (Continuous Probability Distribution):随机变量取值于实数轴上的一个区间(或整个 R\mathbb{R}),由 概率密度函数 (Probability Density Function, PDF) 刻画:f(x)0f(x) \geq 0,且 +f(x)dx=1\int_{-\infty}^{+\infty} f(x)\,dx = 1。注意 PDF 在某一点的值 f(x)f(x)不是 概率——连续随机变量取任一特定值的概率为零,概率通过积分获得:P(aXb)=abf(x)dxP(a \leq X \leq b) = \int_a^b f(x)\,dx。常见连续分布包括 正态分布指数分布均匀分布Beta分布 等。

累积分布函数

累积分布函数 (Cumulative Distribution Function, CDF) 是描述概率分布的统一工具,同时适用于离散和连续情形。定义为 F(x)=P(Xx)F(x) = P(X \leq x),具有以下性质:

  • FF 是非降右连续函数,limxF(x)=0\lim_{x \to -\infty} F(x) = 0limx+F(x)=1\lim_{x \to +\infty} F(x) = 1
  • 对离散分布,F(x)F(x) 是阶梯函数,跳跃高度即为 PMF 值。
  • 对连续分布,F(x)F(x) 是绝对连续函数,且 f(x)=F(x)f(x) = F'(x) 几乎处处成立。

CDF 的重要性在于:给定 FF,任何事件概率均可通过 FF 表达。例如 P(a<Xb)=F(b)F(a)P(a < X \leq b) = F(b) - F(a)。此外,无论底层分布如何,若 FF 是连续且严格递增的,则随机变量 U=F(X)U = F(X) 服从 [0,1][0,1] 上的均匀分布——这一性质是 逆变换采样 (Inverse Transform Sampling) 的理论基础。

分布的数字特征

概率分布常通过若干 数字特征 进行概括。最基本的两个是:

  • 期望 (Expected Value)μ=E[X]=xdF(x)\mu = E[X] = \int x\,dF(x),在离散情形为 xip(xi)\sum x_i p(x_i),连续情形为 xf(x)dx\int x f(x)\,dx。期望是分布的"重心",也是均方误差准则下的最优常数值预测。
  • 方差 (Variance)σ2=Var(X)=E[(Xμ)2]=E[X2]μ2\sigma^2 = Var(X) = E[(X - \mu)^2] = E[X^2] - \mu^2,衡量分布的离散程度。标准差 σ=Var(X)\sigma = \sqrt{Var(X)}XX 具有相同量纲,更便于解释。

更高阶的矩同样有意义:偏度 (Skewness) E[(Xμ)3]/σ3E[(X-\mu)^3]/\sigma^3 衡量分布的不对称性(正偏意味着右尾更长,如对数正态分布);峰度 (Kurtosis) E[(Xμ)4]/σ4E[(X-\mu)^4]/\sigma^4 衡量尾部的厚薄程度——超额峰度大于 0 表示比正态分布有更重的尾部(称为 尖峰厚尾)。

矩母函数 MX(t)=E[etX]M_X(t) = E[e^{tX}](若在 0 的邻域存在)和特征函数 ϕX(t)=E[eitX]\phi_X(t) = E[e^{itX}] 提供了另一种等价描述:若两个随机变量的矩母函数或特征函数相同,则它们具有相同的分布。特征函数总是存在,因此在理论证明中更为常用。

参数族与非参数分布

大多数常用概率分布属于 参数族 (Parametric Family),即分布的形态由有限个参数完全决定。例如:

  • 正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2):由位置参数 μ\mu 和尺度参数 σ\sigma 决定。
  • Beta分布 Beta(α,β)Beta(\alpha, \beta):由两个形状参数控制,定义域为 (0,1)(0, 1),在 贝叶斯统计 中作为二项分布的 共轭先验
  • Gamma分布 Gamma(k,θ)Gamma(k, \theta):由形状参数 kk 和尺度参数 θ\theta 决定,是指数分布的推广,常用于建模等待时间。

参数的变动会系统性地改变分布的位置、尺度或形状。在统计推断中,估计这些未知参数是核心任务,常用的方法包括 最大似然估计 (MLE) 和 矩估计 (Method of Moments)。

与之相对,非参数方法不预设特定的参数形式,而是从数据中直接估计分布函数(如 经验分布函数)或密度(如 核密度估计),在高维或复杂数据结构下具有更强的灵活性。

联合分布、边缘分布与条件分布

当涉及多个随机变量时,概率分布的概念自然推广。随机向量 (X,Y)(X, Y)联合分布 (Joint Distribution) 描述了所有变量同时取值的概率规律。由联合分布可导出:

  • 边缘分布 (Marginal Distribution):通过对其他变量求和或积分得到,如 fX(x)=fX,Y(x,y)dyf_X(x) = \int f_{X,Y}(x,y)\,dy
  • 条件分布 (Conditional Distribution):给定一个变量取值后另一个变量的分布,如 fYX(yx)=fX,Y(x,y)/fX(x)f_{Y|X}(y|x) = f_{X,Y}(x,y) / f_X(x)(当 fX(x)>0f_X(x) > 0)。

联合分布、边缘分布与条件分布之间的关系通过贝叶斯定理连接:fYX(yx)fXY(xy)fY(y)f_{Y|X}(y|x) \propto f_{X|Y}(x|y) f_Y(y)。这一框架是所有 贝叶斯推断 的数学基础。

分布之间的关系与变换

不同概率分布之间存在着丰富的结构关系。例如:

  • nn 个独立标准正态随机变量的平方和服从自由度为 nn卡方分布i=1nZi2χ(n)2\sum_{i=1}^n Z_i^2 \sim \chi^2_{(n)}
  • 独立标准正态变量与独立卡方变量之比(经自由度缩放)构成 t分布,是 假设检验 中小样本推断的基石。
  • 两个独立卡方变量之比构成 F分布,用于方差比较和 ANOVA 检验。

此外,大数定律中心极限定理 揭示了概率分布中最重要的渐近规律:无论原始分布如何(只要方差有限),独立同分布随机变量之和的标准化形式依分布收敛于标准正态分布 N(0,1)\mathcal{N}(0,1)。这一结论是频率学派统计推断中 置信区间 和假设检验的理论支柱。

分布的支持与定义域

每个概率分布都有一个 支持 (Support)——随机变量以概率 1 取值的最小闭集。对于离散分布,支持是 PMF 为正的所有点的集合;对于连续分布,支持是 PDF 为正的区间(或区间的并集)。支持的选取需与随机变量的实际意义匹配:例如,建模概率值时应选取支持为 (0,1)(0, 1)Beta分布;建模非负持续时间时应选取支持为 (0,+)(0, +\infty)指数分布Gamma分布。错误地选择支持范围会导致模型与真实数据生成过程之间存在结构性矛盾。

在经济学与计量经济学中的应用

概率分布是经济学中建模不确定性的基本语言。线性回归模型 中对误差项 ε\varepsilon 的分布假设(如正态性、同方差性)直接影响 普通最小二乘法 估计量的 BLUE 性质与推断的有效性。在金融计量中,资产收益率常被假设服从 正态分布,但实证研究表明实际收益率具有 尖峰厚尾 特征——极端事件的发生频率远高于正态分布的预测,这催生了 GARCH模型 和极值理论在风险建模中的广泛应用。风险价值 (VaR) 和 期望损失 (ES) 等金融风险度量完全依赖于资产收益率分布的尾部行为。在微观计量中,离散选择模型(如 Logit模型、Probit 模型)直接建立在对潜变量分布(逻辑分布或正态分布)的假设之上。在 贝叶斯统计 中,先验分布的选择是分析的核心环节,其主观性或客观性一直是方法论争议的焦点。理解各类概率分布的数学性质、参数含义及相互关系,是构建、诊断和改进定量模型的根本能力。