ARTICLE

次序统计量

次序统计量 (Order Statistics) 在统计学和概率论中,次序统计量 (Order Statistics) 是将一个随机样本中的观测值按非递减顺序排列后得到的统计量。它们是描述和分析样本数据分布特征的基础工具,尤其在非参数统计和稳健统计学中扮演着核心角色。 给定一个从某个总体中抽取的随机样本 X_1, X_2, , X_n ,我们将其按数值大小进

浏览 49 更新 2025-10-22

次序统计量 (Order Statistics)

统计学概率论中,次序统计量 (Order Statistics) 是将一个随机样本中的观测值按非递减顺序排列后得到的统计量。它们是描述和分析样本数据分布特征的基础工具,尤其在非参数统计稳健统计学中扮演着核心角色。

给定一个从某个总体中抽取的随机样本 X1,X2,,Xn X_1, X_2, \dots, X_n ,我们将其按数值大小进行排序,得到一组新的随机变量:

X(1)X(2)X(n)X_{(1)} \le X_{(2)} \le \dots \le X_{(n)}

这组有序的随机变量 X(1),X(2),,X(n) X_{(1)}, X_{(2)}, \dots, X_{(n)} 就是该样本的次序统计量。其中:

  • X(1) X_{(1)} 是样本中的最小值,即 X(1)=min(X1,X2,,Xn) X_{(1)} = \min(X_1, X_2, \dots, X_n)
  • X(n) X_{(n)} 是样本中的最大值,即 X(n)=max(X1,X2,,Xn) X_{(n)} = \max(X_1, X_2, \dots, X_n)
  • X(k) X_{(k)} 是第 k k 小的观测值,我们称之为 第 k 个次序统计量

值得注意的是,每一个 X(k) X_{(k)} 本身都是一个随机变量,因为它依赖于原始的随机样本。因此,我们可以研究它的概率分布期望方差等统计特性。

一些常见的统计量本身就是次序统计量或其函数:

  • 样本最小值 (Sample Minimum): X(1) X_{(1)}
  • 样本最大值 (Sample Maximum): X(n) X_{(n)}
  • 样本极差 (Sample Range): R=X(n)X(1) R = X_{(n)} - X_{(1)}
  • 样本中位数 (Sample Median):
  • 如果样本量 n n 是奇数,中位数是唯一的中心值 X((n+1)/2) X_{((n+1)/2)}
  • 如果样本量 n n 是偶数,中位数通常定义为两个中心值的平均数 12(X(n/2)+X(n/2+1)) \frac{1}{2}(X_{(n/2)} + X_{(n/2+1)})

次序统计量的分布

研究次序统计量的核心在于推导它们的概率分布。假设原始样本 X1,X2,,Xn X_1, X_2, \dots, X_n 是一个独立同分布 (i.i.d.) 样本,其共同的累积分布函数 (Cumulative Distribution Function, CDF) 为 FX(x)=P(Xx) F_X(x) = P(X \le x) 概率密度函数 (Probability Density Function, PDF) 为 fX(x) f_X(x)

第 k 个次序统计量的分布

1. 累积分布函数 (CDF) of X(k) X_{(k)}

X(k) X_{(k)} 的 CDF, 记为 FX(k)(x) F_{X_{(k)}}(x) , 定义为 P(X(k)x) P(X_{(k)} \le x) 。 事件 “X(k)x X_{(k)} \le x ” 发生,当且仅当原始样本 X1,,Xn X_1, \dots, X_n 至少有 k 个观测值小于或等于 x x

我们可以把每次观测 Xix X_i \le x 是否成立看作一次伯努利试验。试验成功的概率为 p=P(Xix)=FX(x) p = P(X_i \le x) = F_X(x) 。在 n n 次独立试验中,成功的次数 Y Y 服从二项分布 B(n,p) B(n, p) ,即 YBinomial(n,FX(x)) Y \sim \text{Binomial}(n, F_X(x)) 。 因此,事件 “至少有 k 个观测值小于或等于 x” 的概率为:

FX(k)(x)=P(Yk)=j=kn(nj)[FX(x)]j[1FX(x)]njF_{X_{(k)}}(x) = P(Y \ge k) = \sum_{j=k}^{n} \binom{n}{j} [F_X(x)]^j [1-F_X(x)]^{n-j}

2. 概率密度函数 (PDF) of X(k) X_{(k)}

通过对 CDF 求导,可以得到 X(k) X_{(k)} 的 PDF, fX(k)(x) f_{X_{(k)}}(x) 。其结果有一个更具直观性的形式:

fX(k)(x)=n!(k1)!(nk)![FX(x)]k1[1FX(x)]nkfX(x)f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} [F_X(x)]^{k-1} [1-F_X(x)]^{n-k} f_X(x)

这个公式可以通过以下直观方式理解: 为了使第 k k 个次序统计量 X(k) X_{(k)} 恰好落在微小区间 [x,x+dx] [x, x+dx] 内,必须满足以下三个条件:

  • 有一个观测值落在 [x,x+dx] [x, x+dx] 内,其概率约为 fX(x)dx f_X(x)dx
  • k1 k-1 个观测值小于 x x ,其概率为 [FX(x)]k1 [F_X(x)]^{k-1}
  • nk n-k 个观测值大于 x+dx x+dx ,其概率约等于 [1FX(x)]nk [1-F_X(x)]^{n-k}

这三组观测值的分配方式有 (n1)(n1k1)=n!(k1)!(nk)! \binom{n}{1} \binom{n-1}{k-1} = \frac{n!}{(k-1)!(n-k)!} 种。将所有概率和组合数相乘,再除以 dx dx ,即可得到 fX(k)(x) f_{X_{(k)}}(x)

特殊情况:最小值和最大值

  • 样本最小值 X(1) X_{(1)} 的分布 (k=1 k=1 ):

其 CDF 更容易直接推导:

FX(1)(x)=P(X(1)x)=1P(X(1)>x)=1P(所有 Xi>x)F_{X_{(1)}}(x) = P(X_{(1)} \le x) = 1 - P(X_{(1)} > x) = 1 - P(\text{所有 } X_i > x)

由于独立性,这等于:

FX(1)(x)=1[P(X1>x)]n=1[1FX(x)]nF_{X_{(1)}}(x) = 1 - [P(X_1 > x)]^n = 1 - [1 - F_X(x)]^n

其 PDF 为:

fX(1)(x)=n[1FX(x)]n1fX(x)f_{X_{(1)}}(x) = n [1 - F_X(x)]^{n-1} f_X(x)
  • 样本最大值 X(n) X_{(n)} 的分布 (k=n k=n ):

其 CDF 也可直接推导:

FX(n)(x)=P(X(n)x)=P(所有 Xix)F_{X_{(n)}}(x) = P(X_{(n)} \le x) = P(\text{所有 } X_i \le x)

由于独立性,这等于:

FX(n)(x)=[P(X1x)]n=[FX(x)]nF_{X_{(n)}}(x) = [P(X_1 \le x)]^n = [F_X(x)]^n

其 PDF 为:

fX(n)(x)=n[FX(x)]n1fX(x)f_{X_{(n)}}(x) = n [F_X(x)]^{n-1} f_X(x)

次序统计量的联合分布

我们也可以研究多个次序统计量的联合分布。例如,第 i i 个和第 j j 个次序统计量 X(i) X_{(i)} X(j) X_{(j)} (i<j i < j ) 的联合 PDF 为:

fX(i),X(j)(x,y)=n!(i1)!(ji1)!(nj)![FX(x)]i1[FX(y)FX(x)]ji1[1FX(y)]njfX(x)fX(y)f_{X_{(i)}, X_{(j)}}(x, y) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!} [F_X(x)]^{i-1} [F_X(y)-F_X(x)]^{j-i-1} [1-F_X(y)]^{n-j} f_X(x) f_X(y)

其中 x<y x < y 。这个公式同样可以被直观地解释:它描述了 i1 i-1 个观测值小于 x x ,一个在 x x 附近, ji1 j-i-1 个在 x x y y 之间,一个在 y y 附近,以及 nj n-j 个大于 y y 的情况的概率密度。

应用与重要性

  1. 稳健统计学 (Robust Statistics):基于次序统计量的统计量(如中位数四分位数极差)对异常值 (outliers) 不敏感。例如,样本均值会因一个极端值而发生巨大变化,但中位数则保持稳定。
  1. 非参数推断 (Non-parametric Inference):许多非参数检验方法,如符号检验Wilcoxon秩和检验,不依赖于数据总体的特定分布假设,而是依赖于数据的排序(即次序统计量)。
  1. 极值理论 (Extreme Value Theory):该理论专注于研究极大值 X(n) X_{(n)} 和极小值 X(1) X_{(1)} 在大样本下的渐进行为,广泛应用于金融风险管理(如计算风险价值 VaR)、保险(预测巨额索赔)和环境科学(预测极端天气事件)。
  1. 参数估计:次序统计量可用于构建估计量 (estimators)。例如,如果样本来自一个参数为 θ \theta 均匀分布 U(0,θ) U(0, \theta) ,那么 n+1nX(n) \frac{n+1}{n}X_{(n)} θ \theta 的一个无偏估计量
  1. 统计过程控制 (SPC):在质量控制中,样本极差 R=X(n)X(1) R = X_{(n)} - X_{(1)} 是一个常用的过程变异性的简单度量,被用于构建控制图。

示例:均匀分布的次序统计量

假设 X1,X2,,Xn X_1, X_2, \dots, X_n 是来自均匀分布 U[0,1] U[0, 1] 的独立同分布样本。 其 CDF 为 FX(x)=x F_X(x) = x ,PDF 为 fX(x)=1 f_X(x) = 1 ,对于 x[0,1] x \in [0, 1]

我们来求第 k k 个次序统计量 X(k) X_{(k)} 的 PDF。代入通用公式:

fX(k)(x)=n!(k1)!(nk)!xk1(1x)nk1f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1} (1-x)^{n-k} \cdot 1

对于 x[0,1] x \in [0, 1]

这个分布是Beta分布 (Beta Distribution) 的一个特例,具体来说是 X(k)Beta(k,nk+1) X_{(k)} \sim \text{Beta}(k, n-k+1) 。这揭示了均匀分布的次序统计量与Beta分布之间的深刻联系。 利用这个结果,我们可以直接计算其期望:

E[X(k)]=kk+(nk+1)=kn+1E[X_{(k)}] = \frac{k}{k + (n-k+1)} = \frac{k}{n+1}

这个结果非常直观:n n 个点将 [0,1] [0,1] 区间大致分成了 n+1 n+1 段,第 k k 个点的位置期望在 k/(n+1) k/(n+1) 处。