ARTICLE
分布
分布 (Distribution) 在概率论和统计学中,分布 (Distribution) 是一个核心概念,它描述了一个随机变量 (Random Variable) 所有可能取值及其对应概率的函数。分布是对数据变异性的完整数学描述,它可以回答以下问题:变量可能取哪些值?哪些值是常见的,哪些是罕见的?数据是集中还是分散?数据的整体形态是对称的还是偏斜的?理解分
分布 (Distribution)
在概率论和统计学中,分布 (Distribution) 是一个核心概念,它描述了一个随机变量 (Random Variable) 所有可能取值及其对应概率的函数。分布是对数据变异性的完整数学描述,它可以回答以下问题:变量可能取哪些值?哪些值是常见的,哪些是罕见的?数据是集中还是分散?数据的整体形态是对称的还是偏斜的?理解分布是进行统计推断、假设检验和构建金融模型等工作的基石,也是几乎所有定量学科的理论基础。
频率分布与概率分布
在学习中,区分频率分布 (Frequency Distribution) 和概率分布 (Probability Distribution) 很重要。频率分布是对观测数据的总结和描述,是一个经验性概念。它通过将数据分组并计算每个组中观测值出现的次数(频率)或比例(相对频率)来构建。例如,统计一个班级学生的身高,将数据划分到不同区间(如160-165cm, 165-170cm等),计算每个区间的人数,就得到了一个频率分布,它描述的是样本 (Sample) 的特征。概率分布是一个理论模型,描述了随机变量所有可能结果的概率,它基于概率论的公理,是对总体 (Population) 特征的理论刻画。例如,一个公平的六面骰子,掷出任意一点(1到6)的概率为 ,这就是一个离散均匀概率分布。统计推断的核心就是用样本的频率分布去推断总体的概率分布。下面的讨论主要集中在理论性的概率分布上。
分布的类型
概率分布主要分为两大类:离散分布 (Discrete Distributions) 和 连续分布 (Continuous Distributions)。
一. 离散分布 (Discrete Distributions)
离散分布描述取值为有限个或可数无穷多个的随机变量。其概率由概率质量函数 (Probability Mass Function, PMF) 定义,记为 或 ,表示随机变量 取特定值 的概率。PMF满足两个基本性质:对于所有可能的 ,;所有可能值的概率之和为1,即 。
常见的离散分布包括:
- 伯努利分布 (Bernoulli Distribution):单次随机试验,结果只有两种(成功/失败),成功的概率为 。这是许多更复杂分布的基础。
- 二项分布 (Binomial Distribution):描述了在 次独立的伯努利试验中,成功发生 次的概率。例如,重复抛硬币10次,出现6次正面的概率。
- 泊松分布 (Poisson Distribution):描述了在固定的时间、空间或体积内,某一事件发生的次数。例如,呼叫中心在一小时内接到的电话数量,或一本书中每页的印刷错误数量。
- 几何分布 (Geometric Distribution):描述了为了获得第一次成功所需要进行的试验次数。
- 离散均匀分布 (Discrete Uniform Distribution):所有可能的结果发生的概率相等,如掷一个公平的骰子。
二. 连续分布 (Continuous Distributions)
连续分布描述可取某一区间内任何值的随机变量(如身高、体重、时间、温度)。其概率由概率密度函数 (Probability Density Function, PDF) 定义,记为 。PDF的性质包括:对于所有 ,,但PDF本身不是概率,它可以大于1;PDF曲线下的总面积为1,即 ;随机变量 落在区间 内的概率为 ;对于任何单个精确值 ,,因为单个点的积分为零。
常见的连续分布包括:
- 正态分布 (Normal Distribution):也称高斯分布,是自然界和经济社会中最常见的分布。其钟形曲线形态对称。中心极限定理指出,大量独立随机变量的均值近似服从正态分布,这使其在统计学中具有至关重要的地位。
- 连续均匀分布 (Continuous Uniform Distribution):在指定区间 内,任何等长度的子区间具有相同的概率。
- 指数分布 (Exponential Distribution):描述了独立随机事件发生的时间间隔,如两次公交车到站的间隔时间。它与泊松分布密切相关。
- 卡方分布 (Chi-squared Distribution):常用于拟合优度检验和方差的假设检验。
- t分布 (Student's t-Distribution):在总体标准差未知且样本量较小(通常 )时,用于对总体均值进行推断。当样本量增大时,t分布趋近于正态分布。
- F分布 (F-Distribution):常用于方差分析 (ANOVA) 中,检验两个或多个总体的方差是否相等。
描述分布的特征
可以用一些关键的数值特征来概括和比较不同的分布,这些特征通常称为分布的矩 (Moments)。
集中趋势的度量描述数据的中心位置,包括期望值(均值,分布的重心,记为 或 )、中位数(将分布平分的值)和众数(概率最大或密度函数最大的点)。离散趋势的度量描述数据的分散程度,包括方差(记为 或 )、标准差(,与原始数据同单位)、极差和四分位距 (IQR)。形状的度量包括偏度(不对称方向和程度,对称分布偏度为0)和峰度(尾部厚度和峰部尖锐度,高峰度意味着分布有更厚的尾部)。
累积分布函数 (CDF) 是一个对所有类型分布都适用的统一概念,记为 。对于连续分布,PDF是CDF的导数,即 ,且 。
应用
分布的概念贯穿所有数据驱动领域。在经济学与金融学中,用对数正态分布模拟股票价格,用各种分布对资产回报率和风险价值 (VaR) 进行建模。在统计推断中,假设检验和置信区间的构建完全依赖于抽样分布的理论。在质量控制中,使用泊松分布监控单位产品中的缺陷数量。在机器学习中,许多算法(如高斯混合模型)直接对数据的分布进行建模,或对数据的分布做出假设(如线性回归假设误差项服从正态分布)。