ARTICLE

样本极差

样本极差定义样本极差（Sample Range）是统计学中描述数据离散程度的最简单度量，定义为样本中最大值与最小值之差，通常记作 R ：其中 X_ 为样本中的最大值， X_ 为样本中的最小值。极差以与原数据相同的量纲表示，直观反映了数据波动的总幅度。例如，某班级5名学生的身高（cm）分别为：162、170、168、175、160，则样本极差 R =

浏览 5 更新 2025-10-26

样本极差

定义

样本极差（Sample Range）是统计学中描述数据离散程度的最简单度量，定义为样本中最大值与最小值之差，通常记作 $R$ ：

R = X_{\max} - X_{\min}

其中 $X_{\max}$ 为样本中的最大值， $X_{\min}$ 为样本中的最小值。极差以与原数据相同的量纲表示，直观反映了数据波动的总幅度。

例如，某班级5名学生的身高（cm）分别为：162、170、168、175、160，则样本极差 $R = 175 - 160 = 15\ \text{cm}$ 。再如，某城市一周的日最高气温（°C）为：28、31、29、33、27、30、32，则极差 $R = 33 - 27 = 6\ \text{°C}$ 。这些例子说明极差能够快速传达数据的跨度信息。

数学基础

顺序统计量与极差

极差是顺序统计量（order statistics）的线性组合。设样本 $X_1, X_2, \dots, X_n$ 的升序排列为 $X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}$ ，其中 $X_{(1)}$ 为样本最小值， $X_{(n)}$ 为样本最大值，则：

R = X_{(n)} - X_{(1)}

对于来自连续分布 $F(x)$ 的独立同分布样本，顺序统计量 $X_{(1)}$ 和 $X_{(n)}$ 的联合概率密度函数为：

f_{X_{(1)}, X_{(n)}}(x, y) = n(n-1)[F(y) - F(x)]^{n-2} f(x) f(y), \quad x < y

由此可导出样本极差 $R$ 的概率密度函数：

f_R(r) = n(n-1) \int_{-\infty}^{\infty} [F(x+r) - F(x)]^{n-2} f(x) f(x+r) \, dx, \quad r > 0

这一理论基础使得极差的统计推断成为可能。

极差的期望与方差

对于来自正态分布 $N(\mu, \sigma^2)$ 的样本，样本极差的期望可近似表示为：

E(R) = d_2(n) \cdot \sigma

其中 $d_2(n)$ 是依赖于样本量 $n$ 的常数，可通过数值积分得到。类似地，极差的标准差为 $\sigma_R = d_3(n) \cdot \sigma$ 。这些常数在质量控制中至关重要，它们构成了 $R$ 控制图控制界限计算的基础。

极差的性质

优点

计算简便——只需找出最大值和最小值即可，无需复杂运算，适合快速粗略评估数据离散程度。在手工计算时代，极差是唯一可行的快速离散度度量。
直观易懂——极差的含义清晰，非专业人员也能轻松理解。"最高分减最低分"这类表述在教育和日常交流中广泛使用。
应用广泛——在质量控制（如控制图）、气象统计、金融风险初步评估等领域仍占有一席之地。

缺点

对极端值敏感——极差仅依赖于两个端点值，若数据中存在异常值（outlier），极差会大幅失真。例如数据集 {1, 2, 3, 4, 100} 的极差为 99，而绝大多数数据集中在 1-4 之间，极差严重夸大了实际变异程度。
忽略内部信息——极差完全不考虑中间数据的分布形态。两组数据可能具有相同的极差但分布完全不同：{1, 2, 3, 4, 5} 与 {1, 1, 1, 1, 5} 的极差均为 4，但前者的数据分布均匀，后者则高度集中在低端。
随样本量增大而增大——样本量 $n$ 越大，越有可能抽到极值，导致极差估计不稳定。对于固定的总体分布， $E(R)$ 随 $n$ 单调递增，这与方差或标准差的优良统计性质形成对比。
统计效率低——与样本标准差相比，极差作为总体标准差估计量的相对效率随样本量增大而迅速下降。当 $n=2$ 时两者效率相当，但当 $n=10$ 时极差的效率已低于 50\%。

极差的应用场景

质量控制

在统计过程控制（SPC）中， $R$ 控制图（Range Chart，又称极差图）是最常用的控制图之一。与均值控制图（ $\bar{X}$ 图）配合使用时， $R$ 图用于监控过程变异度是否处于受控状态。控制界限的计算公式为：

\begin{aligned} \text{UCL}_R &= D_4 \bar{R} \\ \text{LCL}_R &= D_3 \bar{R} \end{aligned}

其中 $\bar{R}$ 是各子组极差的均值， $D_3$ 、 $D_4$ 为依赖于子组大小 $n$ 的常数。当样本量 $n \le 6$ 时 $D_3 = 0$ ，此时 $R$ 图下控制限为零。这些常数可从 ASTM 标准表格中查得，例如当 $n=5$ 时 $D_3=0$ 、 $D_4=2.114$ 。

描述性统计

在数据探索阶段，极差常与四分位距（IQR）、标准差等配合使用，快速评估数据分布范围。对于正态分布数据，样本极差与标准差之间存在经验关系： $R \approx c(n) \cdot s$ ，其中 $c(n)$ 随 $n$ 变化，当 $n=10$ 时 $c(10) \approx 3.08$ ，当 $n=100$ 时 $c(100) \approx 5.02$ 。

教育评估

在考试成绩分析中，极差可直观反映学生成绩的差距大小。例如某次考试最高分 98、最低分 32，极差 66 分，说明成绩分化显著。教师可据此初步判断试题难度分布是否合理。

气象与水文

在气象学中，日温差（每日最高温与最低温之差）本质上就是一种极差统计量。月降水量极差可用于衡量降水的均匀程度。在水文频率分析中，极差也被用作初步的变异性指标。

极差的修正与改进

为克服极差对极端值的敏感性，统计学家提出了多种改进方案：

四分位距（IQR）——取第三四分位数 $Q_3$ 与第一四分位数 $Q_1$ 之差，排除极端值干扰，是稳健统计中的基本工具。
修剪极差（Trimmed Range）——剔除两端一定比例（如 5\%）的数据后再计算极差，兼具稳健性和一定程度的直观性。
标准偏差（标准差）——利用全部数据计算离散程度，具有最优的数学性质，是最常用的替代指标。
平均绝对偏差（MAD）——以绝对偏差替代平方偏差，对极端值的敏感度低于标准差。

与其他离散度量的比较

度量	对极端值敏感度	计算复杂度	统计效率	直观性
极差	极高	极低	低	最高
四分位距	低	低	中	中
标准差	中	中	高	低
平均绝对偏差	中	中	中	中

软件实现

常用统计软件中极差的计算方式：

R 语言：\texttt{diff(range(x))} 或 \texttt{max(x) - min(x)}
Python（NumPy）：\texttt{np.ptp(x)}（peak-to-peak 的缩写）
Excel：\texttt{MAX(range) - MIN(range)}
SPSS：在描述性统计中勾选 "Range"

总结

样本极差作为最基础的离散度量，以其计算简单、解释直观的优势在众多领域得到广泛应用。从质量控制中的 $R$ 图到日常考试分析，极差提供了一种快速把握数据全貌的手段。然而其信息利用率低、对极端值敏感等固有局限，决定了它在严谨统计分析中多作为辅助指标而非主要依据。理解极差的特性，有助于在不同场景下选择恰当的统计量描述数据变异程度，在简单与精确之间取得平衡。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。