ARTICLE

经验中位数

经验中位数 (Empirical Median) 经验中位数 (Empirical Median),也称样本中位数 (Sample Median),是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本,经验中位数将排序后的数据一分为二:至少一半的观测值不大于它,至少一半的观测值不小于它。与样本均值不同,经验中位数对异常值 (Outliers) 具有

浏览 0 更新 2025-10-26

经验中位数 (Empirical Median)

经验中位数 (Empirical Median),也称样本中位数 (Sample Median),是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本,经验中位数将排序后的数据一分为二:至少一半的观测值不大于它,至少一半的观测值不小于它。与样本均值不同,经验中位数对异常值 (Outliers) 具有天然的稳健性 (Robustness),因此在非参数统计、稳健估计和实际数据分析中扮演着不可替代的角色。

定义与计算

X1,X2,,XnX_1, X_2, \ldots, X_n 为来自某总体的一个简单随机样本,将其按升序排列得到次序统计量 X(1)X(2)X(n)X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}。则经验中位数 MnM_n 定义为:

Mn={X(n+12),若 n 为奇数,X(n2)+X(n2+1)2,若 n 为偶数.M_n = \begin{cases} X_{(\frac{n+1}{2})}, & \text{若 } n \text{ 为奇数}, \\ \displaystyle \frac{X_{(\frac{n}{2})} + X_{(\frac{n}{2}+1)}}{2}, & \text{若 } n \text{ 为偶数}. \end{cases}

换言之,当样本量为奇数时,中位数直接取中间位置的观测值;当样本量为偶数时,中位数取中间两个观测值的算术平均。注意部分软件(如 SAS)定义的下中位数 (Lower Median) 为 X(n/2)X_{(\lfloor n/2 \rfloor)}上中位数 (Upper Median) 为 X(n/2)X_{(\lceil n/2 \rceil)},但主流教材与 R 语言的默认定义均为上述插值形式。

经验中位数也可以从累积分布函数的角度理解:样本的经验分布函数 (Empirical CDF) 为 F^n(x)=1ni=1n1{Xix}\hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{X_i \leq x\}},则经验中位数是满足 F^n(x)1/2\hat{F}_n(x) \geq 1/2 的最小 xx,或更精确地,F^n\hat{F}_n分位数函数的取值:Mn=F^n1(1/2)M_n = \hat{F}_n^{-1}(1/2)。这一视角将经验中位数纳入分位数回归M-估计的统一框架。

统计性质

无偏性与一致性

总体中位数为 θ\theta,即满足 P(Xθ)1/2P(X \leq \theta) \geq 1/2P(Xθ)1/2P(X \geq \theta) \geq 1/2。经验中位数 MnM_n 是总体中位数 θ\theta相合估计量 (Consistent Estimator):当 nn \to \infty 时,MnpθM_n \xrightarrow{p} \theta。然而,除非总体分布是对称的,否则 MnM_n 通常不是 θ\theta无偏估计量——有限样本下 E[Mn]θE[M_n] \neq \theta,但偏差随 nn 增大而消失,即 MnM_n渐近无偏的。

渐近正态性

经验中位数的渐近分布是非参数统计的经典结论。若总体具有概率密度函数 f(x)f(x),且 f(θ)>0f(\theta) > 0(即在总体中位数处密度为正),则有:

n(Mnθ)dN(0,14[f(θ)]2).\sqrt{n} (M_n - \theta) \xrightarrow{d} \mathcal{N}\left(0, \frac{1}{4 [f(\theta)]^2}\right).

这一结果揭示了经验中位数精度的关键决定因素:总体中位数处的密度 f(θ)f(\theta) 越大,中位数的渐近方差越小,估计越精确。对于正态总体 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),中位数与均值重合(θ=μ\theta = \mu),密度 f(μ)=1/(σ2π)f(\mu) = 1 / (\sigma \sqrt{2\pi}),故中位数的渐近方差为 πσ22n\frac{\pi \sigma^2}{2 n},约为样本均值方差 σ2/n\sigma^2 / nπ/21.571\pi/2 \approx 1.571 倍——在正态模型下,均值比中位数更有效。

稳健性与影响函数

经验中位数最重要的实用优势在于其稳健性。样本均值对单个极端值的变化无限敏感:若将一个观测值推向无穷,均值也随之趋向无穷。而中位数的影响函数 (Influence Function) 是有界的:

IF(x;T,F)=sign(xθ)2f(θ),\text{IF}(x; T, F) = \frac{\text{sign}(x - \theta)}{2 f(\theta)},

这意味着无论单个观测值多么极端,它对中位数估计的影响始终被限定在有限的范围内。中位数的失效点 (Breakdown Point) 高达 1/21/2,即在不超过一半的数据被任意篡改时,中位数仍能保持有界。相比之下,样本均值的失效点为 00——一个异常值即可使其崩溃。这种稳健性使得中位数在收入分布(存在极端富豪)、房价分析(存在豪宅)和金融收益(存在崩盘和暴涨)等实际场景中被广泛使用。

与均值的比较

经验中位数和样本均值是最常用的两种位置度量,各有优劣:

  • 效率差异:在正态分布下,中位数的渐近相对效率 (ARE) 相对于均值为 2/π0.6372/\pi \approx 0.637,即中位数需要大约 1.57 倍于均值所需的样本量才能达到相同精度。然而在拉普拉斯分布(双指数分布)下,中位数是最大似然估计,ARE 约为 2.0——中位数远比均值有效。
  • 稳健性差异:中位数的失效点为 50\%,均值为 0\%。在存在重尾或污染数据的场景中,中位数往往提供更可信的中心位置估计。
  • 可解释性:中位数直接对应「一半以上/以下」的直观含义,在收入、房价、寿命等偏态分布中往往比均值更具代表意义。例如「人均收入」常被少数高收入者拉高,而「收入中位数」更能反映普通居民的真实水平。
  • 数学便利性:均值具有线性性(E[aX+bY]=aE[X]+bE[Y]E[aX+bY] = aE[X] + bE[Y])和与平方损失的最优性,便于解析推导。中位数不具备线性性,但在绝对偏差损失下是最优的(见下文)。

优化解释:绝对偏差最小化

经验中位数不仅是简单的排序取中,它还具有深刻的变分刻画:中位数是最小化绝对偏差之和的解。具体而言,MnM_n 是如下优化问题的任意解:

Mn=argminmRi=1nXim.M_n = \arg \min_{m \in \mathbb{R}} \sum_{i=1}^{n} |X_i - m|.

这一性质将中位数与最小一乘法 (Least Absolute Deviations, LAD) 联系起来——中位数就是只有一个截距项的 LAD 回归结果。与之对应,样本均值最小化平方误差之和:Xˉ=argminm(Xim)2\bar{X} = \arg\min_{m} \sum (X_i - m)^2。这一对偶关系是中位数稳健性的数学根源:平方损失对大偏差加倍惩罚(梯度为 2(Xim)2(X_i - m)),而绝对损失对大偏差仅施加常数惩罚(梯度为 ±1\pm 1),极端值无法主导优化目标。

基于这一优化视角,经验中位数可以自然地推广到分位数回归 (Quantile Regression) 框架。第 τ\tau 分位数 Q(τ)Q(\tau) 最小化非对称绝对损失 ρτ(Xim)\sum \rho_{\tau}(X_i - m),其中 ρτ(u)=u(τ1{u<0})\rho_{\tau}(u) = u(\tau - \mathbf{1}_{\{u < 0\}})检查函数 (Check Function)。当 τ=0.5\tau = 0.5 时,ρ0.5(u)=u/2\rho_{0.5}(u) = |u|/2,退化为中位数。

置信区间与推断

基于次序统计量可以直接构造总体中位数的非参数置信区间,无需假设任何参数分布。令 X(1)X(n)X_{(1)} \leq \cdots \leq X_{(n)} 为次序统计量,用 X(r)X_{(r)}X(s)X_{(s)}r<sr < s)作为置信下限和上限。在总体中位数为 θ\theta 的原假设下,观测值落在 θ\theta 两侧的概率均为 1/21/2,因此该区间覆盖 θ\theta 的概率为:

P(X(r)θX(s))=k=rs1(nk)(12)n.P\bigl(X_{(r)} \leq \theta \leq X_{(s)}\bigr) = \sum_{k=r}^{s-1} \binom{n}{k} \left(\frac{1}{2}\right)^n.

利用二项分布的对称性,可以选取 rrs=nr+1s = n - r + 1 来获得所需置信水平。这一方法完全无分布假设(Distribution-Free),是符号检验 (Sign Test) 和Wilcoxon符号秩检验等非参数推断方法的基石。在大样本下,可利用上述渐近正态性构造基于正态近似的置信区间:

Mn±zα/212f^(Mn)n,M_n \pm z_{\alpha/2} \cdot \frac{1}{2 \hat{f}(M_n) \sqrt{n}},

其中 f^\hat{f} 需要通过对样本进行核密度估计来获得 f(θ)f(\theta) 的估计,这涉及比均值推断更复杂的平滑参数选择。

高维与多元推广

在一维数据中最自然的位置排序在多元情形下不再平凡,因为 Rp\mathbb{R}^pp>1p > 1)中不存在天然的全序关系。学者们提出了多种多元中位数的推广:

  • 空间中位数 (Spatial Median):也称 L1L_1 中位数,最小化到各点的欧氏距离之和——即 argminmRpi=1nXim\arg\min_{m \in \mathbb{R}^p} \sum_{i=1}^{n} \|X_i - m\|。它具有旋转不变性和 50\% 的失效点,但不具备仿射等变性
  • 分量中位数 (Componentwise Median):独立地对每个坐标取中位数。计算简便但失去了旋转不变性——对数据旋转后分量中位数并不等于原分量中位数的旋转。
  • Tukey中位数 (Tukey Median / Halfspace Median):在所有方向上半空间深度最大的点,具有仿射等变性但计算复杂度极高。
  • Oja中位数:最小化由点和数据张成的单形体积之和,具有仿射等变性但计算同样困难。

多元中位数的选择取决于具体应用对等变性、稳健性和计算成本的权衡。在实际应用中,分量中位数因其简洁性最常用,而空间中位数在稳健多元分析中受到更多理论关注。

应用与注意事项

经验中位数在实际数据分析中有广泛应用场景:

  1. 偏态分布的中心报告:在收入不平等研究中,各国统计部门通常同时报告平均收入和中位收入,后者更能反映典型居民的经济状况。
  2. 异常值污染的稳健估计:在金融收益率分析中,少数极端涨跌对均值产生巨大扰动,中位数提供更稳定的中心趋势估计。例如在估计典型日收益率时,中位数对 1987 年股灾或 2008 年金融危机期间的极端值不敏感。
  3. 非参数检验的基础Mann-Whitney U检验(Wilcoxon秩和检验)和Kruskal-Wallis检验将多组比较转化为中位数比较,对偏离正态性稳健。
  4. 箱线图的核心要素箱线图 (Box Plot) 的中线即为中位数,与四分位数一起提供数据分布的快速可视化。
  5. 生存分析Kaplan-Meier估计的中位生存时间——即生存率降至 50\% 的时间——是临床研究中最重要的汇总指标之一。

使用经验中位数时需要注意几点:首先,中位数对样本中间区域的局部波动比均值更敏感——删除或添加中间附近的观测值可能导致中位数跳跃(特别是小样本偶数情形下的插值效应)。其次,中位数的非线性和不可微性使得基于中位数的推断(如 Bootstrap 置信区间)比基于均值的方法需要更精细的理论处理。最后,当总体分布确实是对称且薄尾的(接近正态),使用中位数将牺牲统计效率——此时均值是更优选择。因此,在选择位置度量时,应在效率稳健性之间基于数据特征做出审慎的权衡。