ARTICLE
经验中位数
经验中位数 (Empirical Median) 经验中位数 (Empirical Median),也称样本中位数 (Sample Median),是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本,经验中位数将排序后的数据一分为二:至少一半的观测值不大于它,至少一半的观测值不小于它。与样本均值不同,经验中位数对异常值 (Outliers) 具有
经验中位数 (Empirical Median)
经验中位数 (Empirical Median),也称样本中位数 (Sample Median),是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本,经验中位数将排序后的数据一分为二:至少一半的观测值不大于它,至少一半的观测值不小于它。与样本均值不同,经验中位数对异常值 (Outliers) 具有天然的稳健性 (Robustness),因此在非参数统计、稳健估计和实际数据分析中扮演着不可替代的角色。
定义与计算
设 为来自某总体的一个简单随机样本,将其按升序排列得到次序统计量 。则经验中位数 定义为:
换言之,当样本量为奇数时,中位数直接取中间位置的观测值;当样本量为偶数时,中位数取中间两个观测值的算术平均。注意部分软件(如 SAS)定义的下中位数 (Lower Median) 为 ,上中位数 (Upper Median) 为 ,但主流教材与 R 语言的默认定义均为上述插值形式。
经验中位数也可以从累积分布函数的角度理解:样本的经验分布函数 (Empirical CDF) 为 ,则经验中位数是满足 的最小 ,或更精确地, 的分位数函数的取值:。这一视角将经验中位数纳入分位数回归和M-估计的统一框架。
统计性质
无偏性与一致性
总体中位数为 ,即满足 且 。经验中位数 是总体中位数 的相合估计量 (Consistent Estimator):当 时,。然而,除非总体分布是对称的,否则 通常不是 的无偏估计量——有限样本下 ,但偏差随 增大而消失,即 是渐近无偏的。
渐近正态性
经验中位数的渐近分布是非参数统计的经典结论。若总体具有概率密度函数 ,且 (即在总体中位数处密度为正),则有:
这一结果揭示了经验中位数精度的关键决定因素:总体中位数处的密度 越大,中位数的渐近方差越小,估计越精确。对于正态总体 ,中位数与均值重合(),密度 ,故中位数的渐近方差为 ,约为样本均值方差 的 倍——在正态模型下,均值比中位数更有效。
稳健性与影响函数
经验中位数最重要的实用优势在于其稳健性。样本均值对单个极端值的变化无限敏感:若将一个观测值推向无穷,均值也随之趋向无穷。而中位数的影响函数 (Influence Function) 是有界的:
这意味着无论单个观测值多么极端,它对中位数估计的影响始终被限定在有限的范围内。中位数的失效点 (Breakdown Point) 高达 ,即在不超过一半的数据被任意篡改时,中位数仍能保持有界。相比之下,样本均值的失效点为 ——一个异常值即可使其崩溃。这种稳健性使得中位数在收入分布(存在极端富豪)、房价分析(存在豪宅)和金融收益(存在崩盘和暴涨)等实际场景中被广泛使用。
与均值的比较
经验中位数和样本均值是最常用的两种位置度量,各有优劣:
- 效率差异:在正态分布下,中位数的渐近相对效率 (ARE) 相对于均值为 ,即中位数需要大约 1.57 倍于均值所需的样本量才能达到相同精度。然而在拉普拉斯分布(双指数分布)下,中位数是最大似然估计,ARE 约为 2.0——中位数远比均值有效。
- 稳健性差异:中位数的失效点为 50\%,均值为 0\%。在存在重尾或污染数据的场景中,中位数往往提供更可信的中心位置估计。
- 可解释性:中位数直接对应「一半以上/以下」的直观含义,在收入、房价、寿命等偏态分布中往往比均值更具代表意义。例如「人均收入」常被少数高收入者拉高,而「收入中位数」更能反映普通居民的真实水平。
- 数学便利性:均值具有线性性()和与平方损失的最优性,便于解析推导。中位数不具备线性性,但在绝对偏差损失下是最优的(见下文)。
优化解释:绝对偏差最小化
经验中位数不仅是简单的排序取中,它还具有深刻的变分刻画:中位数是最小化绝对偏差之和的解。具体而言, 是如下优化问题的任意解:
这一性质将中位数与最小一乘法 (Least Absolute Deviations, LAD) 联系起来——中位数就是只有一个截距项的 LAD 回归结果。与之对应,样本均值最小化平方误差之和:。这一对偶关系是中位数稳健性的数学根源:平方损失对大偏差加倍惩罚(梯度为 ),而绝对损失对大偏差仅施加常数惩罚(梯度为 ),极端值无法主导优化目标。
基于这一优化视角,经验中位数可以自然地推广到分位数回归 (Quantile Regression) 框架。第 分位数 最小化非对称绝对损失 ,其中 为检查函数 (Check Function)。当 时,,退化为中位数。
置信区间与推断
基于次序统计量可以直接构造总体中位数的非参数置信区间,无需假设任何参数分布。令 为次序统计量,用 和 ()作为置信下限和上限。在总体中位数为 的原假设下,观测值落在 两侧的概率均为 ,因此该区间覆盖 的概率为:
利用二项分布的对称性,可以选取 和 来获得所需置信水平。这一方法完全无分布假设(Distribution-Free),是符号检验 (Sign Test) 和Wilcoxon符号秩检验等非参数推断方法的基石。在大样本下,可利用上述渐近正态性构造基于正态近似的置信区间:
其中 需要通过对样本进行核密度估计来获得 的估计,这涉及比均值推断更复杂的平滑参数选择。
高维与多元推广
在一维数据中最自然的位置排序在多元情形下不再平凡,因为 ()中不存在天然的全序关系。学者们提出了多种多元中位数的推广:
- 空间中位数 (Spatial Median):也称 中位数,最小化到各点的欧氏距离之和——即 。它具有旋转不变性和 50\% 的失效点,但不具备仿射等变性。
- 分量中位数 (Componentwise Median):独立地对每个坐标取中位数。计算简便但失去了旋转不变性——对数据旋转后分量中位数并不等于原分量中位数的旋转。
- Tukey中位数 (Tukey Median / Halfspace Median):在所有方向上半空间深度最大的点,具有仿射等变性但计算复杂度极高。
- Oja中位数:最小化由点和数据张成的单形体积之和,具有仿射等变性但计算同样困难。
多元中位数的选择取决于具体应用对等变性、稳健性和计算成本的权衡。在实际应用中,分量中位数因其简洁性最常用,而空间中位数在稳健多元分析中受到更多理论关注。
应用与注意事项
经验中位数在实际数据分析中有广泛应用场景:
- 偏态分布的中心报告:在收入不平等研究中,各国统计部门通常同时报告平均收入和中位收入,后者更能反映典型居民的经济状况。
- 异常值污染的稳健估计:在金融收益率分析中,少数极端涨跌对均值产生巨大扰动,中位数提供更稳定的中心趋势估计。例如在估计典型日收益率时,中位数对 1987 年股灾或 2008 年金融危机期间的极端值不敏感。
- 非参数检验的基础:Mann-Whitney U检验(Wilcoxon秩和检验)和Kruskal-Wallis检验将多组比较转化为中位数比较,对偏离正态性稳健。
- 箱线图的核心要素:箱线图 (Box Plot) 的中线即为中位数,与四分位数一起提供数据分布的快速可视化。
- 生存分析:Kaplan-Meier估计的中位生存时间——即生存率降至 50\% 的时间——是临床研究中最重要的汇总指标之一。
使用经验中位数时需要注意几点:首先,中位数对样本中间区域的局部波动比均值更敏感——删除或添加中间附近的观测值可能导致中位数跳跃(特别是小样本偶数情形下的插值效应)。其次,中位数的非线性和不可微性使得基于中位数的推断(如 Bootstrap 置信区间)比基于均值的方法需要更精细的理论处理。最后,当总体分布确实是对称且薄尾的(接近正态),使用中位数将牺牲统计效率——此时均值是更优选择。因此,在选择位置度量时,应在效率与稳健性之间基于数据特征做出审慎的权衡。