ARTICLE

样本极差

样本极差 定义 样本极差(Sample Range)是统计学中描述数据离散程度的最简单度量,定义为样本中最大值与最小值之差,通常记作 R : 其中 X_ 为样本中的最大值, X_ 为样本中的最小值。极差以与原数据相同的量纲表示,直观反映了数据波动的总幅度。 例如,某班级5名学生的身高(cm)分别为:162、170、168、175、160,则样本极差 R =

浏览 5 更新 2025-10-26

样本极差

定义

样本极差(Sample Range)是统计学中描述数据离散程度的最简单度量,定义为样本中最大值与最小值之差,通常记作 R R

R=XmaxXminR = X_{\max} - X_{\min}

其中 Xmax X_{\max} 为样本中的最大值,Xmin X_{\min} 为样本中的最小值。极差以与原数据相同的量纲表示,直观反映了数据波动的总幅度。

例如,某班级5名学生的身高(cm)分别为:162、170、168、175、160,则样本极差 R=175160=15 cm R = 175 - 160 = 15\ \text{cm} 。再如,某城市一周的日最高气温(°C)为:28、31、29、33、27、30、32,则极差 R=3327=6 °C R = 33 - 27 = 6\ \text{°C} 。这些例子说明极差能够快速传达数据的跨度信息。

数学基础

顺序统计量与极差

极差是顺序统计量(order statistics)的线性组合。设样本 X1,X2,,Xn X_1, X_2, \dots, X_n 的升序排列为 X(1)X(2)X(n) X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)} ,其中 X(1) X_{(1)} 为样本最小值,X(n) X_{(n)} 为样本最大值,则:

R=X(n)X(1)R = X_{(n)} - X_{(1)}

对于来自连续分布 F(x) F(x) 的独立同分布样本,顺序统计量 X(1) X_{(1)} X(n) X_{(n)} 的联合概率密度函数为:

fX(1),X(n)(x,y)=n(n1)[F(y)F(x)]n2f(x)f(y),x<yf_{X_{(1)}, X_{(n)}}(x, y) = n(n-1)[F(y) - F(x)]^{n-2} f(x) f(y), \quad x < y

由此可导出样本极差 R R 的概率密度函数:

fR(r)=n(n1)[F(x+r)F(x)]n2f(x)f(x+r)dx,r>0f_R(r) = n(n-1) \int_{-\infty}^{\infty} [F(x+r) - F(x)]^{n-2} f(x) f(x+r) \, dx, \quad r > 0

这一理论基础使得极差的统计推断成为可能。

极差的期望与方差

对于来自正态分布 N(μ,σ2) N(\mu, \sigma^2) 的样本,样本极差的期望可近似表示为:

E(R)=d2(n)σE(R) = d_2(n) \cdot \sigma

其中 d2(n) d_2(n) 是依赖于样本量 n n 的常数,可通过数值积分得到。类似地,极差的标准差为 σR=d3(n)σ \sigma_R = d_3(n) \cdot \sigma 。这些常数在质量控制中至关重要,它们构成了 R R 控制图控制界限计算的基础。

极差的性质

优点

  1. 计算简便——只需找出最大值和最小值即可,无需复杂运算,适合快速粗略评估数据离散程度。在手工计算时代,极差是唯一可行的快速离散度度量。
  2. 直观易懂——极差的含义清晰,非专业人员也能轻松理解。"最高分减最低分"这类表述在教育和日常交流中广泛使用。
  3. 应用广泛——在质量控制(如控制图)、气象统计、金融风险初步评估等领域仍占有一席之地。

缺点

  1. 对极端值敏感——极差仅依赖于两个端点值,若数据中存在异常值(outlier),极差会大幅失真。例如数据集 {1, 2, 3, 4, 100} 的极差为 99,而绝大多数数据集中在 1-4 之间,极差严重夸大了实际变异程度。
  2. 忽略内部信息——极差完全不考虑中间数据的分布形态。两组数据可能具有相同的极差但分布完全不同:{1, 2, 3, 4, 5} 与 {1, 1, 1, 1, 5} 的极差均为 4,但前者的数据分布均匀,后者则高度集中在低端。
  3. 随样本量增大而增大——样本量 n n 越大,越有可能抽到极值,导致极差估计不稳定。对于固定的总体分布,E(R) E(R) n n 单调递增,这与方差或标准差的优良统计性质形成对比。
  4. 统计效率低——与样本标准差相比,极差作为总体标准差估计量的相对效率随样本量增大而迅速下降。当 n=2 n=2 时两者效率相当,但当 n=10 n=10 时极差的效率已低于 50\%。

极差的应用场景

质量控制

在统计过程控制(SPC)中,R R 控制图(Range Chart,又称极差图)是最常用的控制图之一。与均值控制图(Xˉ \bar{X} 图)配合使用时,R R 图用于监控过程变异度是否处于受控状态。控制界限的计算公式为:

UCLR=D4RˉLCLR=D3Rˉ\begin{aligned} \text{UCL}_R &= D_4 \bar{R} \\ \text{LCL}_R &= D_3 \bar{R} \end{aligned}

其中 Rˉ \bar{R} 是各子组极差的均值,D3 D_3 D4 D_4 为依赖于子组大小 n n 的常数。当样本量 n6 n \le 6 D3=0 D_3 = 0 ,此时 R R 图下控制限为零。这些常数可从 ASTM 标准表格中查得,例如当 n=5 n=5 D3=0 D_3=0 D4=2.114 D_4=2.114

描述性统计

在数据探索阶段,极差常与四分位距(IQR)、标准差等配合使用,快速评估数据分布范围。对于正态分布数据,样本极差与标准差之间存在经验关系:Rc(n)s R \approx c(n) \cdot s ,其中 c(n) c(n) n n 变化,当 n=10 n=10 c(10)3.08 c(10) \approx 3.08 ,当 n=100 n=100 c(100)5.02 c(100) \approx 5.02

教育评估

在考试成绩分析中,极差可直观反映学生成绩的差距大小。例如某次考试最高分 98、最低分 32,极差 66 分,说明成绩分化显著。教师可据此初步判断试题难度分布是否合理。

气象与水文

在气象学中,日温差(每日最高温与最低温之差)本质上就是一种极差统计量。月降水量极差可用于衡量降水的均匀程度。在水文频率分析中,极差也被用作初步的变异性指标。

极差的修正与改进

为克服极差对极端值的敏感性,统计学家提出了多种改进方案:

  • 四分位距(IQR)——取第三四分位数 Q3 Q_3 与第一四分位数 Q1 Q_1 之差,排除极端值干扰,是稳健统计中的基本工具。
  • 修剪极差(Trimmed Range)——剔除两端一定比例(如 5\%)的数据后再计算极差,兼具稳健性和一定程度的直观性。
  • 标准偏差(标准差)——利用全部数据计算离散程度,具有最优的数学性质,是最常用的替代指标。
  • 平均绝对偏差(MAD)——以绝对偏差替代平方偏差,对极端值的敏感度低于标准差。

与其他离散度量的比较

| 度量 | 对极端值敏感度 | 计算复杂度 | 统计效率 | 直观性 | |:---:|:---:|:---:|:---:|:---:| | 极差 | 极高 | 极低 | 低 | 最高 | | 四分位距 | 低 | 低 | 中 | 中 | | 标准差 | 中 | 中 | 高 | 低 | | 平均绝对偏差 | 中 | 中 | 中 | 中 |

软件实现

常用统计软件中极差的计算方式:

  • R 语言:\texttt{diff(range(x))} 或 \texttt{max(x) - min(x)}
  • Python(NumPy):\texttt{np.ptp(x)}(peak-to-peak 的缩写)
  • Excel:\texttt{MAX(range) - MIN(range)}
  • SPSS:在描述性统计中勾选 "Range"

总结

样本极差作为最基础的离散度量,以其计算简单、解释直观的优势在众多领域得到广泛应用。从质量控制中的 R R 图到日常考试分析,极差提供了一种快速把握数据全貌的手段。然而其信息利用率低、对极端值敏感等固有局限,决定了它在严谨统计分析中多作为辅助指标而非主要依据。理解极差的特性,有助于在不同场景下选择恰当的统计量描述数据变异程度,在简单与精确之间取得平衡。