ARTICLE

离散程度

离散程度 (Dispersion) 离散程度,也称为变异性 (Variability)或散布 (Spread),是统计学中描述一组数据分布的分散或集中情况的数字特征。它衡量数据点与其集中趋势(如均值、中位数)的偏离程度。离散程度低表示数据点彼此接近,离散程度高表示数据分布范围宽。 离散程度是描述性统计中与集中趋势并列的两大核心概念之一。仅有集中趋势不足以完整

浏览 80 更新 2025-10-26

离散程度 (Dispersion)

离散程度,也称为变异性 (Variability)散布 (Spread),是统计学中描述一组数据分布的分散或集中情况的数字特征。它衡量数据点与其集中趋势(如均值中位数)的偏离程度。离散程度低表示数据点彼此接近,离散程度高表示数据分布范围宽。

离散程度是描述性统计中与集中趋势并列的两大核心概念之一。仅有集中趋势不足以完整概括数据特征,必须结合离散程度才能全面理解数据。在金融领域,离散程度(尤其是标准差)是衡量资产风险的核心指标;在质量控制中则用于监控生产过程的稳定性。

动机:为什么需要离散程度?

考虑两个班级的期末考试成绩(满分100分):

  • A班:78, 79, 80, 81, 82
  • B班:60, 70, 80, 90, 100

两班的算术平均数均为80分,但A班成绩高度集中,B班则非常分散。仅凭均值无法揭示这一关键差异。

主要度量指标

极差 (Range)

极差定义为最大值与最小值之差:

极差=XmaxXmin\text{极差} = X_{\max} - X_{\min}

极差计算简单、直观易懂,但仅利用了两个数据点,对异常值极其敏感,信息利用率低。

四分位距 (Interquartile Range, IQR)

四分位距衡量中间50\%数据的分布范围,定义为第三四分位数与第一四分位数之差:

IQR=Q3Q1IQR = Q_3 - Q_1

其中 Q1 Q_1 为第25百分位数,Q3 Q_3 为第75百分位数。IQR不受两端极值影响,是一种稳健的 (Robust)统计量,常用于构建箱形图。其局限在于同样未利用全部数据信息。

方差 (Variance)

方差是各数据点与均值之差的平方的平均数,是应用最广泛的离散程度指标之一。按总体样本区分:

  • 总体方差 σ2=i=1N(Xiμ)2N \sigma^2 = \frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}
  • 样本方差 s2=i=1n(XiXˉ)2n1 s^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}

样本方差分母使用 n1 n-1 贝塞尔校正,保证对总体方差的无偏估计。方差利用了所有数据信息,在数理统计推断中具有重要理论地位,但单位为原始单位的平方,解释不够直观。

标准差 (Standard Deviation)

标准差是方差的算术平方根,是应用最广泛、最重要的离散程度度量:

σ=i=1N(Xiμ)2N,s=i=1n(XiXˉ)2n1\sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}}, \quad s = \sqrt{\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}}

标准差的单位与原始数据一致,解释直观。在正态分布下,经验法则表明:约68\%的数据落在 μ±σ \mu \pm \sigma 内,约95\%落在 μ±2σ \mu \pm 2\sigma 内,约99.7\%落在 μ±3σ \mu \pm 3\sigma 内。与方差一样,标准差对异常值较为敏感。

变异系数 (Coefficient of Variation, CV)

变异系数是标准差与均值比值的绝对值,以百分比表示:

CV=σμCV=sXˉCV = \frac{\sigma}{|\mu|} \quad \text{或} \quad CV = \frac{s}{|\bar{X}|}

CV是无量纲量,消除单位和平均水平差异,适用于比较不同单位或均值差异悬殊的数据集的相对离散程度。例如大象体重(均值5000kg,标准差500kg,CV=10\%)与小鼠体重(均值20g,标准差5g,CV=25\%),尽管大象标准差远大于小鼠,但小鼠体重相对波动更大。CV在均值接近零时不稳定。

选择指南

  • 快速粗略估计:用极差
  • 数据有异常值或偏态分布:用四分位距 (IQR),稳健性更好。
  • 数据近似正态且需全面描述:标准差是首选。
  • 理论推导与建模(如方差分析,ANOVA):用方差
  • 比较不同单位或不同量级数据的相对离散程度:用变异系数