ARTICLE
概率分布
概率分布 (Probability Distribution) 概率分布 (Probability Distribution) 是概率论和统计学中的核心概念。它是一个数学函数,用于完整描述一个随机变量所有可能取值及其对应的概率。掌握了随机变量的概率分布,就等于掌握了该随机变量的全部随机性规律——它是进行统计推断、参数估计和假设检验的根基。 概率分布的形式取决
概率分布 (Probability Distribution)
概率分布 (Probability Distribution) 是概率论和统计学中的核心概念。它是一个数学函数,用于完整描述一个随机变量所有可能取值及其对应的概率。掌握了随机变量的概率分布,就等于掌握了该随机变量的全部随机性规律——它是进行统计推断、参数估计和假设检验的根基。
概率分布的形式取决于随机变量的类型:离散还是连续。
离散概率分布与概率质量函数 (PMF)
当随机变量只能取有限个或可数无限个数值时(例如:掷骰子的点数 ;一天内的顾客数量 ),我们称其为离散随机变量。其分布由概率质量函数 (Probability Mass Function, PMF) 刻画,记作:
PMF 直接给出随机变量 恰好等于某个具体值 的概率。一个有效的 PMF 必须满足两个条件:
- 非负性:对所有 ,
- 归一性:所有可能取值的概率之和为 1,即
最常见的离散分布有三类:
- 伯努利分布:描述单次试验的二元结果(成功/失败),随机变量仅取 0 或 1。它是所有离散分布中最简单、最基本的构建块。
- 二项分布: 次独立、同分布的伯努利试验中成功的总次数。抛十次硬币出现正面的次数即服从二项分布,其参数为试验次数 和成功概率 。
- 泊松分布:描述固定时间或空间间隔内某稀有事件发生的次数,如呼叫中心一小时内的来电数。当 很大而 很小时,二项分布可用泊松分布近似。
连续概率分布与概率密度函数 (PDF)
当随机变量可以在某个区间内取任意实数值时(例如:身高、温度、股票收益率),称为连续随机变量。其分布由概率密度函数 (Probability Density Function, PDF) 描述,记作 。
与 PMF 的一个关键区别在于:连续随机变量取任何单个特定值的概率恒为零,即 。因此,PDF 在单点的值本身不代表概率。概率只能通过积分——即密度曲线下的面积——来获得:
有效的 PDF 须满足 及 。
常见连续分布包括:
- 正态分布:亦称高斯分布,由均值 和方差 完全确定,呈对称钟形曲线。中心极限定理保证了它在统计推断中的核心地位。
- 均匀分布:在区间 上所有点的概率密度相等,。它是随机数生成和贝叶斯无信息先验的基础。
- 指数分布:描述独立随机事件之间的等待时间,具有无记忆性——无论已经等待了多久,剩余等待时间的分布始终不变。
累积分布函数 (CDF)
累积分布函数 (Cumulative Distribution Function) 是对离散和连续随机变量统一适用的概念,定义为:
CDF 具有普适性质:非递减,,。对于离散变量,;对于连续变量,,且 PDF 是 CDF 的导数:。
关键数字特征
分布可通过若干数值特征概括其形态:
- 期望值 (均值 ):分布的"重心",按概率加权的平均。离散:;连续:
- 中位数 :将分布分为概率各半的点,满足 且
- 众数:概率(密度)最大的取值,即分布的峰值点
- 方差 和标准差 :度量数据围绕均值的离散程度。标准差因与原变量同单位而更具可解释性
应用
概率分布是连接概率理论与现实世界的桥梁。在统计推断中,我们通过样本的抽样分布推断总体参数并进行假设检验;在金融工程中,资产收益率常用对数正态分布建模,而极端风险则借助极值理论的分布族来刻画;在精算科学中,寿命分布和索赔额分布是保险定价的基石;在机器学习中,分类器的输出是类别概率分布,生成模型则直接对数据的联合分布建模;在物理学中,量子力学的波函数本质上是一种概率振幅分布。概率分布是定量科学中不可或缺的通用语言。