ARTICLE

次序统计量

次序统计量 (Order Statistics) 在统计学和概率论中，次序统计量 (Order Statistics) 是将一个随机样本中的观测值按非递减顺序排列后得到的统计量。它们是描述和分析样本数据分布特征的基础工具，尤其在非参数统计和稳健统计学中扮演着核心角色。给定一个从某个总体中抽取的随机样本 X_1, X_2, , X_n ，我们将其按数值大小进

浏览 49 更新 2025-10-22

次序统计量 (Order Statistics)

在统计学和概率论中，次序统计量 (Order Statistics) 是将一个随机样本中的观测值按非递减顺序排列后得到的统计量。它们是描述和分析样本数据分布特征的基础工具，尤其在非参数统计和稳健统计学中扮演着核心角色。

给定一个从某个总体中抽取的随机样本 $X_1, X_2, \dots, X_n$ ，我们将其按数值大小进行排序，得到一组新的随机变量：

X_{(1)} \le X_{(2)} \le \dots \le X_{(n)}

这组有序的随机变量 $X_{(1)}, X_{(2)}, \dots, X_{(n)}$ 就是该样本的次序统计量。其中：

$X_{(1)}$ 是样本中的最小值，即 $X_{(1)} = \min(X_1, X_2, \dots, X_n)$ 。
$X_{(n)}$ 是样本中的最大值，即 $X_{(n)} = \max(X_1, X_2, \dots, X_n)$ 。
$X_{(k)}$ 是第 $k$ 小的观测值，我们称之为 第 k 个次序统计量。

值得注意的是，每一个 $X_{(k)}$ 本身都是一个随机变量，因为它依赖于原始的随机样本。因此，我们可以研究它的概率分布、期望、方差等统计特性。

一些常见的统计量本身就是次序统计量或其函数：

样本最小值 (Sample Minimum): $X_{(1)}$
样本最大值 (Sample Maximum): $X_{(n)}$
样本极差 (Sample Range): $R = X_{(n)} - X_{(1)}$
样本中位数 (Sample Median):
如果样本量 $n$ 是奇数，中位数是唯一的中心值 $X_{((n+1)/2)}$ 。
如果样本量 $n$ 是偶数，中位数通常定义为两个中心值的平均数 $\frac{1}{2}(X_{(n/2)} + X_{(n/2+1)})$ 。

次序统计量的分布

研究次序统计量的核心在于推导它们的概率分布。假设原始样本 $X_1, X_2, \dots, X_n$ 是一个独立同分布 (i.i.d.) 样本，其共同的累积分布函数 (Cumulative Distribution Function, CDF) 为 $F_X(x) = P(X \le x)$ ，概率密度函数 (Probability Density Function, PDF) 为 $f_X(x)$ 。

第 k 个次序统计量的分布

1. 累积分布函数 (CDF) of $X_{(k)}$

$X_{(k)}$ 的 CDF, 记为 $F_{X_{(k)}}(x)$ , 定义为 $P(X_{(k)} \le x)$ 。事件 “ $X_{(k)} \le x$ ” 发生，当且仅当原始样本 $X_1, \dots, X_n$ 中至少有 k 个观测值小于或等于 $x$ 。

我们可以把每次观测 $X_i \le x$ 是否成立看作一次伯努利试验。试验成功的概率为 $p = P(X_i \le x) = F_X(x)$ 。在 $n$ 次独立试验中，成功的次数 $Y$ 服从二项分布 $B(n, p)$ ，即 $Y \sim \text{Binomial}(n, F_X(x))$ 。因此，事件 “至少有 k 个观测值小于或等于 x” 的概率为：

F_{X_{(k)}}(x) = P(Y \ge k) = \sum_{j=k}^{n} \binom{n}{j} [F_X(x)]^j [1-F_X(x)]^{n-j}

2. 概率密度函数 (PDF) of $X_{(k)}$

通过对 CDF 求导，可以得到 $X_{(k)}$ 的 PDF, $f_{X_{(k)}}(x)$ 。其结果有一个更具直观性的形式：

f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1} [1-F_X(x)]^{n-k} f_X(x)

这个公式可以通过以下直观方式理解：为了使第 $k$ 个次序统计量 $X_{(k)}$ 恰好落在微小区间 $[x, x+dx]$ 内，必须满足以下三个条件：

有一个观测值落在 $[x, x+dx]$ 内，其概率约为 $f_X(x)dx$ 。
有 $k-1$ 个观测值小于 $x$ ，其概率为 $[F_X(x)]^{k-1}$ 。
有 $n-k$ 个观测值大于 $x+dx$ ，其概率约等于 $[1-F_X(x)]^{n-k}$ 。

这三组观测值的分配方式有 $\binom{n}{1} \binom{n-1}{k-1} = \frac{n!}{(k-1)!(n-k)!}$ 种。将所有概率和组合数相乘，再除以 $dx$ ，即可得到 $f_{X_{(k)}}(x)$ 。

特殊情况：最小值和最大值

样本最小值 $X_{(1)}$ 的分布 ( $k=1$ ):

其 CDF 更容易直接推导：

F_{X_{(1)}}(x) = P(X_{(1)} \le x) = 1 - P(X_{(1)} > x) = 1 - P(\text{所有 } X_i > x)

由于独立性，这等于：

F_{X_{(1)}}(x) = 1 - [P(X_1 > x)]^n = 1 - [1 - F_X(x)]^n

其 PDF 为：

f_{X_{(1)}}(x) = n [1 - F_X(x)]^{n-1} f_X(x)

样本最大值 $X_{(n)}$ 的分布 ( $k=n$ ):

其 CDF 也可直接推导：

F_{X_{(n)}}(x) = P(X_{(n)} \le x) = P(\text{所有 } X_i \le x)

由于独立性，这等于：

F_{X_{(n)}}(x) = [P(X_1 \le x)]^n = [F_X(x)]^n

其 PDF 为：

f_{X_{(n)}}(x) = n [F_X(x)]^{n-1} f_X(x)

次序统计量的联合分布

我们也可以研究多个次序统计量的联合分布。例如，第 $i$ 个和第 $j$ 个次序统计量 $X_{(i)}$ 和 $X_{(j)}$ ( $i < j$ ) 的联合 PDF 为：

f_{X_{(i)}, X_{(j)}}(x, y) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!} [F_X(x)]^{i-1} [F_X(y)-F_X(x)]^{j-i-1} [1-F_X(y)]^{n-j} f_X(x) f_X(y)

其中 $x < y$ 。这个公式同样可以被直观地解释：它描述了 $i-1$ 个观测值小于 $x$ ，一个在 $x$ 附近， $j-i-1$ 个在 $x$ 和 $y$ 之间，一个在 $y$ 附近，以及 $n-j$ 个大于 $y$ 的情况的概率密度。

应用与重要性

稳健统计学 (Robust Statistics)：基于次序统计量的统计量（如中位数和四分位数极差）对异常值 (outliers) 不敏感。例如，样本均值会因一个极端值而发生巨大变化，但中位数则保持稳定。

非参数推断 (Non-parametric Inference)：许多非参数检验方法，如符号检验和Wilcoxon秩和检验，不依赖于数据总体的特定分布假设，而是依赖于数据的排序（即次序统计量）。

极值理论 (Extreme Value Theory)：该理论专注于研究极大值 $X_{(n)}$ 和极小值 $X_{(1)}$ 在大样本下的渐进行为，广泛应用于金融风险管理（如计算风险价值 VaR）、保险（预测巨额索赔）和环境科学（预测极端天气事件）。

参数估计：次序统计量可用于构建估计量 (estimators)。例如，如果样本来自一个参数为 $\theta$ 的均匀分布 $U(0, \theta)$ ，那么 $\frac{n+1}{n}X_{(n)}$ 是 $\theta$ 的一个无偏估计量。

统计过程控制 (SPC)：在质量控制中，样本极差 $R = X_{(n)} - X_{(1)}$ 是一个常用的过程变异性的简单度量，被用于构建控制图。

示例：均匀分布的次序统计量

假设 $X_1, X_2, \dots, X_n$ 是来自均匀分布 $U[0, 1]$ 的独立同分布样本。其 CDF 为 $F_X(x) = x$ ，PDF 为 $f_X(x) = 1$ ，对于 $x \in [0, 1]$ 。

我们来求第 $k$ 个次序统计量 $X_{(k)}$ 的 PDF。代入通用公式：

f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1} (1-x)^{n-k} \cdot 1

对于 $x \in [0, 1]$ 。

这个分布是Beta分布 (Beta Distribution) 的一个特例，具体来说是 $X_{(k)} \sim \text{Beta}(k, n-k+1)$ 。这揭示了均匀分布的次序统计量与Beta分布之间的深刻联系。利用这个结果，我们可以直接计算其期望：

E[X_{(k)}] = \frac{k}{k + (n-k+1)} = \frac{k}{n+1}

这个结果非常直观： $n$ 个点将 $[0,1]$ 区间大致分成了 $n+1$ 段，第 $k$ 个点的位置期望在 $k/(n+1)$ 处。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。