ARTICLE
离散程度
离散程度 (Dispersion) 离散程度,也称为变异性 (Variability)或散布 (Spread),是统计学中描述一组数据分布的分散或集中情况的数字特征。它衡量数据点与其集中趋势(如均值、中位数)的偏离程度。离散程度低表示数据点彼此接近,离散程度高表示数据分布范围宽。 离散程度是描述性统计中与集中趋势并列的两大核心概念之一。仅有集中趋势不足以完整
离散程度 (Dispersion)
离散程度,也称为变异性 (Variability)或散布 (Spread),是统计学中描述一组数据分布的分散或集中情况的数字特征。它衡量数据点与其集中趋势(如均值、中位数)的偏离程度。离散程度低表示数据点彼此接近,离散程度高表示数据分布范围宽。
离散程度是描述性统计中与集中趋势并列的两大核心概念之一。仅有集中趋势不足以完整概括数据特征,必须结合离散程度才能全面理解数据。在金融领域,离散程度(尤其是标准差)是衡量资产风险的核心指标;在质量控制中则用于监控生产过程的稳定性。
动机:为什么需要离散程度?
考虑两个班级的期末考试成绩(满分100分):
- A班:78, 79, 80, 81, 82
- B班:60, 70, 80, 90, 100
两班的算术平均数均为80分,但A班成绩高度集中,B班则非常分散。仅凭均值无法揭示这一关键差异。
主要度量指标
极差 (Range)
极差定义为最大值与最小值之差:
极差计算简单、直观易懂,但仅利用了两个数据点,对异常值极其敏感,信息利用率低。
四分位距 (Interquartile Range, IQR)
四分位距衡量中间50\%数据的分布范围,定义为第三四分位数与第一四分位数之差:
其中 为第25百分位数, 为第75百分位数。IQR不受两端极值影响,是一种稳健的 (Robust)统计量,常用于构建箱形图。其局限在于同样未利用全部数据信息。
方差 (Variance)
方差是各数据点与均值之差的平方的平均数,是应用最广泛的离散程度指标之一。按总体与样本区分:
- 总体方差
- 样本方差
样本方差分母使用 是贝塞尔校正,保证对总体方差的无偏估计。方差利用了所有数据信息,在数理统计推断中具有重要理论地位,但单位为原始单位的平方,解释不够直观。
标准差 (Standard Deviation)
标准差是方差的算术平方根,是应用最广泛、最重要的离散程度度量:
标准差的单位与原始数据一致,解释直观。在正态分布下,经验法则表明:约68\%的数据落在 内,约95\%落在 内,约99.7\%落在 内。与方差一样,标准差对异常值较为敏感。
变异系数 (Coefficient of Variation, CV)
变异系数是标准差与均值比值的绝对值,以百分比表示:
CV是无量纲量,消除单位和平均水平差异,适用于比较不同单位或均值差异悬殊的数据集的相对离散程度。例如大象体重(均值5000kg,标准差500kg,CV=10\%)与小鼠体重(均值20g,标准差5g,CV=25\%),尽管大象标准差远大于小鼠,但小鼠体重相对波动更大。CV在均值接近零时不稳定。
选择指南
- 快速粗略估计:用极差。
- 数据有异常值或偏态分布:用四分位距 (IQR),稳健性更好。
- 数据近似正态且需全面描述:标准差是首选。
- 理论推导与建模(如方差分析,ANOVA):用方差。
- 比较不同单位或不同量级数据的相对离散程度:用变异系数。