ARTICLE

样本中位数

样本中位数 (Sample Median) 样本中位数 (Sample Median) 是从样本数据中计算得到的中位数,既是描述样本集中趋势的统计量,也是推断总体中位数 (Population Median) 的点估计量。设 X_1, X_2, , X_n 为从总体中抽取的一组独立同分布 (i.i.d.) 样本,将其按升序排列为 X_(1) X_(2) X_

浏览 4 更新 2025-10-26

样本中位数 (Sample Median)

样本中位数 (Sample Median) 是从样本数据中计算得到的中位数,既是描述样本集中趋势的统计量,也是推断总体中位数 (Population Median) 的点估计量。设 X1,X2,,XnX_1, X_2, \dots, X_n 为从总体中抽取的一组独立同分布 (i.i.d.) 样本,将其按升序排列为 X(1)X(2)X(n)X_{(1)} \le X_{(2)} \le \dots \le X_{(n)},即次序统计量 (Order Statistics)。则样本中位数 m^n\hat{m}_n 定义为:

m^n={X(n+12),n 为奇数X(n2)+X(n2+1)2,n 为偶数\hat{m}_n = \begin{cases} X_{(\frac{n+1}{2})}, & n \text{ 为奇数} \\ \displaystyle \frac{X_{(\frac{n}{2})} + X_{(\frac{n}{2}+1)}}{2}, & n \text{ 为偶数} \end{cases}

样本中位数最重要的性质是稳健性——它在存在离群值或数据服从重尾分布时,仍能给出总体中心位置的可靠估计。在计量经济学数理统计学中,样本中位数是稳健估计理论的起点。

样本中位数作为次序统计量

理解样本中位数的统计性质,需要借助次序统计量的联合分布理论。设总体具有概率密度函数 f(x)f(x) 和累积分布函数 F(x)F(x)。第 kk 个次序统计量 X(k)X_{(k)} 的密度函数为:

fX(k)(x)=n!(k1)!(nk)![F(x)]k1[1F(x)]nkf(x)f_{X_{(k)}}(x) = \frac{n!}{(k-1)! (n-k)!} [F(x)]^{k-1} [1 - F(x)]^{n-k} f(x)

nn 为奇数时,令 k=(n+1)/2k = (n+1)/2,上式直接给出样本中位数的精确密度函数。当 nn 为偶数时,样本中位数是两个次序统计量的平均值,其分布可用两者的联合分布通过卷积求得。

这一框架揭示了样本中位数的核心机制:它实际上选取了样本中位于中心位置的次序统计量,极端值无论偏离多远,都不会改变其次序排名,因此不会影响中位数的取值。这是样本中位数稳健性的数学根源。

渐近性质

相合性 (Consistency)

在相当一般的条件下,样本中位数是总体中位数 mm强相合估计量:当 nn \to \infty 时,

m^na.s.m\hat{m}_n \xrightarrow{\text{a.s.}} m

这一结论可由次序统计量的渐近理论直接导出。直观上,随着样本量增大,样本中心位置的次序统计量越来越集中于总体的真实中位数附近。

渐近正态性 (Asymptotic Normality)

样本中位数的渐近正态性是其在统计推断中广泛应用的理论基础。假设总体密度 f(x)f(x) 在总体中位数 mm 处连续且 f(m)>0f(m) > 0,则:

n(m^nm)dN(0,14[f(m)]2)\sqrt{n} (\hat{m}_n - m) \xrightarrow{d} N\left(0, \frac{1}{4 [f(m)]^2}\right)

其中 d\xrightarrow{d} 表示依分布收敛。渐近方差为:

A.Var(m^n)=14n[f(m)]2\text{A.Var}(\hat{m}_n) = \frac{1}{4 n [f(m)]^2}

这个公式具有深刻的含义:样本中位数的精度取决于总体密度在中心点的高度 f(m)f(m)。密度越高(数据在中心越集中),样本中位数越精确;密度越低(数据在中心越分散),样本中位数越不精确。这与直觉一致——若总体数据大量堆积在中位数附近,甚至微小的样本也能精确定位中位数;反之,若总体在中心区域非常稀疏,中位数的估计就天然具有较高的不确定性。

与样本均值的渐近效率比较

比较样本中位数与样本均值 Xˉn\bar{X}_n 的渐近效率是经典问题。样本均值的渐近方差为 σ2/n\sigma^2 / n,其中 σ2\sigma^2 是总体方差。定义渐近相对效率 (Asymptotic Relative Efficiency, ARE):

ARE(m^n,Xˉn)=A.Var(Xˉn)A.Var(m^n)=4σ2[f(m)]2\text{ARE}(\hat{m}_n, \bar{X}_n) = \frac{\text{A.Var}(\bar{X}_n)}{\text{A.Var}(\hat{m}_n)} = 4 \sigma^2 [f(m)]^2

当总体服从正态分布 N(μ,σ2)N(\mu, \sigma^2) 时,f(m)=f(μ)=1/(σ2π)f(m) = f(\mu) = 1 / (\sigma \sqrt{2\pi}),代入得:

ARE=4σ212πσ2=2π0.637\text{ARE} = 4 \sigma^2 \cdot \frac{1}{2\pi \sigma^2} = \frac{2}{\pi} \approx 0.637

这意味着在正态总体下,样本中位数仅达到样本均值约 63.7\% 的效率——要获得相同精度,样本中位数所需的样本量约为样本均值的 π/21.57\pi/2 \approx 1.57 倍。这是稳健性换来的代价。

然而,当总体偏离正态时,情况可能反转。考虑拉普拉斯分布(双指数分布),其密度为 f(x)=12σexμ/σf(x) = \frac{1}{2\sigma} e^{-|x-\mu|/\sigma},方差为 2σ22\sigma^2。在中位数处 f(m)=1/(2σ)f(m) = 1/(2\sigma),可得:

ARE=42σ214σ2=2\text{ARE} = 4 \cdot 2\sigma^2 \cdot \frac{1}{4\sigma^2} = 2

此时样本中位数的效率是样本均值的两倍。在更极端的重尾分布(如柯西分布,其均值甚至不存在)中,样本均值完全失效,而样本中位数仍然保持相合性和渐近正态性。

Bahadur 表示

Bahadur 表示 (Bahadur Representation) 是样本中位数理论中一项优美的强逼近结果。它给出了样本中位数与独立同分布随机变量之和之间的渐近线性关系:

m^n=m+1nf(m)i=1n(12I{Xim})+Rn\hat{m}_n = m + \frac{1}{n f(m)} \sum_{i=1}^{n} \left( \frac{1}{2} - I_{\{X_i \le m\}} \right) + R_n

其中 I{}I_{\{\cdot\}}示性函数,余项 RnR_n 几乎必然地满足 Rn=O(n3/4(logn)3/4)R_n = O(n^{-3/4} (\log n)^{3/4})。Bahadur 表示的重要性在于:

  1. 它将样本中位数这一非线性统计量近似为独立随机变量之和的线性函数,从而使得中心极限定理大数定律可以直接套用。
  2. 它为构造样本中位数的置信区间和进行假设检验提供了理论基础,因为主导项的行为完全由伯努利随机变量 I{Xim}I_{\{X_i \le m\}} 的和决定。
  3. 该表示可以推广到一般的样本分位数,构成分位数回归等方法的理论基石。

置信区间与假设检验

基于次序统计量的精确置信区间

对于总体中位数 mm,可以利用次序统计量构造不依赖总体分布形式的精确置信区间(分布自由的置信区间)。设 r<sr < s 为两个整数,则:

P(X(r)mX(s))=k=rs1(nk)(12)nP\left( X_{(r)} \le m \le X_{(s)} \right) = \sum_{k=r}^{s-1} \binom{n}{k} \left( \frac{1}{2} \right)^n

这是因为事件 {X(r)mX(s)}\{X_{(r)} \le m \le X_{(s)}\} 等价于样本中小于等于 mm 的观测值个数介于 rrs1s-1 之间,而在原假设下该个数服从二项分布 Binomial(n,0.5)\text{Binomial}(n, 0.5)。适当选择 rrss 即可获得任意指定置信水平 (1α)(1-\alpha) 的区间。这在非参数统计中被称为符号检验的置信区间,完全不依赖于总体分布形式。

基于渐近正态性的大样本区间

当样本量较大时,利用渐近正态性构造近似置信区间:

m^n±zα/212nf^(m^n)\hat{m}_n \pm z_{\alpha/2} \cdot \frac{1}{2 \sqrt{n} \hat{f}(\hat{m}_n)}

其中 zα/2z_{\alpha/2} 是标准正态分布的临界值,f^(m^n)\hat{f}(\hat{m}_n) 是总体密度在中位数处的估计(通常采用核密度估计)。这类区间计算简便,但依赖于大样本近似和密度估计的质量。

Bootstrap 方法

对于样本中位数的方差估计和置信区间构造,Bootstrap 是一种非常自然的工具。由于样本中位数的抽样分布在有限样本下没有简单的闭式表达式,Bootstrap 通过重抽样直接模拟其分布:

  1. 从原始样本中有放回地抽取 nn 个观测值,计算 Bootstrap 样本的中位数 m^n\hat{m}_n^*
  2. 重复该过程 BB 次(通常 B1000B \ge 1000),得到Bootstrap分布 {m^n,1,,m^n,B}\{\hat{m}_{n,1}^*, \dots, \hat{m}_{n,B}^*\}
  3. 用Bootstrap分布的样本标准差作为 m^n\hat{m}_n 标准误的估计,或用其 α/2\alpha/21α/21-\alpha/2 分位数构造百分位置信区间。

与样本均值的深度比较

下表总结了样本中位数与样本均值的核心差异:

\begin{tabular}{|c|c|c|} \hline 性质 \& 样本中位数 \& 样本均值 \\ \hline 定义 \& 次序统计量 \& 算术平均 \\ \hline 对离群值的敏感度 \& 不敏感(稳健) \& 高度敏感 \\ \hline 渐近正态性条件 \& 仅需 f(m)>0f(m) > 0 \& 需要有限方差 \\ \hline 正态总体下的 ARE \& 0.637 \& 1(基准) \\ \hline 重尾总体下的 ARE \& 可 1\gg 1 \& 可远小于 1 或失效 \\ \hline 最小化目标 \& 绝对偏差和 \& 平方偏差和 \\ \hline 有偏性 \& 有偏(小样本) \& 无偏 \\ \hline \end{tabular}

在经济学和计量经济学中的应用

收入分配研究:各国统计部门报告家庭收入中位数时,本质上是计算样本中位数。在抽样调查中,由于收入分布高度右偏,样本中位数是比样本均值更稳健的中心趋势度量。

弱工具变量下的 IV 估计:在工具变量回归中,当工具变量较弱时,2SLS 估计量的有限样本分布可能严重偏离正态,呈现双峰或重尾特征。此时报告多个分位数的估计结果(包括中位数)比仅报告均值更有信息量。

政策评估:在处理效应分析中,除了报告平均处理效应外,研究者常报告处理效应的中位数,以排除少数极端个体的干扰,刻画"典型"个体的受益程度。

稳健回归最小绝对离差 (LAD) 回归以中位数为核心——LAD 回归线通过数据点的条件中位数,而非条件均值。这使得 LAD 在误差分布具有重尾特征时优于普通最小二乘法 (OLS)。

注意事项与局限性

  1. 小样本偏差:样本中位数在小样本下是有偏的——当总体不对称时,E[m^n]m\mathbb{E}[\hat{m}_n] \ne m。偏误的方向和大小取决于总体的偏斜程度和样本量。随着 nn 增大,偏差以 O(1/n)O(1/n) 的速率趋于零。
  2. 离散化问题:当总体分布包含原子(如有概率质量集中在某点)时,样本中位数的渐近理论需要修正——渐近方差公式中的 f(m)f(m) 需替换为在 mm 处的概率质量。
  3. 效率损失:在总体分布明确为正态时,使用样本中位数意味着损失约 36\% 的效率。研究者需要根据实际数据的特征在稳健性和效率之间进行权衡。截尾均值 (Trimmed Mean) 和 Winsorized 均值 提供了在两者之间折中的可能。
  4. 多维推广:在多元统计中,中位数的概念没有唯一的自然推广。空间中位数(或 L1L_1 中位数)是最常用的推广,但其计算需要迭代算法,且渐近分布的形式比一元情况复杂得多。