ARTICLE

经验中位数

经验中位数 (Empirical Median) 经验中位数 (Empirical Median)，也称样本中位数 (Sample Median)，是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本，经验中位数将排序后的数据一分为二：至少一半的观测值不大于它，至少一半的观测值不小于它。与样本均值不同，经验中位数对异常值 (Outliers) 具有

浏览 0 更新 2025-10-26

经验中位数 (Empirical Median)

经验中位数 (Empirical Median)，也称样本中位数 (Sample Median)，是描述性统计中最核心的位置度量之一。给定一组来自总体的观测样本，经验中位数将排序后的数据一分为二：至少一半的观测值不大于它，至少一半的观测值不小于它。与样本均值不同，经验中位数对异常值 (Outliers) 具有天然的稳健性 (Robustness)，因此在非参数统计、稳健估计和实际数据分析中扮演着不可替代的角色。

定义与计算

设 $X_1, X_2, \ldots, X_n$ 为来自某总体的一个简单随机样本，将其按升序排列得到次序统计量 $X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$ 。则经验中位数 $M_n$ 定义为：

M_n = \begin{cases} X_{(\frac{n+1}{2})}, & \text{若 } n \text{ 为奇数}, \\ \displaystyle \frac{X_{(\frac{n}{2})} + X_{(\frac{n}{2}+1)}}{2}, & \text{若 } n \text{ 为偶数}. \end{cases}

换言之，当样本量为奇数时，中位数直接取中间位置的观测值；当样本量为偶数时，中位数取中间两个观测值的算术平均。注意部分软件（如 SAS）定义的下中位数 (Lower Median) 为 $X_{(\lfloor n/2 \rfloor)}$ ，上中位数 (Upper Median) 为 $X_{(\lceil n/2 \rceil)}$ ，但主流教材与 R 语言的默认定义均为上述插值形式。

经验中位数也可以从累积分布函数的角度理解：样本的经验分布函数 (Empirical CDF) 为 $\hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{X_i \leq x\}}$ ，则经验中位数是满足 $\hat{F}_n(x) \geq 1/2$ 的最小 $x$ ，或更精确地， $\hat{F}_n$ 的分位数函数的取值： $M_n = \hat{F}_n^{-1}(1/2)$ 。这一视角将经验中位数纳入分位数回归和M-估计的统一框架。

统计性质

无偏性与一致性

总体中位数为 $\theta$ ，即满足 $P(X \leq \theta) \geq 1/2$ 且 $P(X \geq \theta) \geq 1/2$ 。经验中位数 $M_n$ 是总体中位数 $\theta$ 的相合估计量 (Consistent Estimator)：当 $n \to \infty$ 时， $M_n \xrightarrow{p} \theta$ 。然而，除非总体分布是对称的，否则 $M_n$ 通常不是 $\theta$ 的无偏估计量——有限样本下 $E[M_n] \neq \theta$ ，但偏差随 $n$ 增大而消失，即 $M_n$ 是渐近无偏的。

渐近正态性

经验中位数的渐近分布是非参数统计的经典结论。若总体具有概率密度函数 $f(x)$ ，且 $f(\theta) > 0$ （即在总体中位数处密度为正），则有：

\sqrt{n} (M_n - \theta) \xrightarrow{d} \mathcal{N}\left(0, \frac{1}{4 [f(\theta)]^2}\right).

这一结果揭示了经验中位数精度的关键决定因素：总体中位数处的密度 $f(\theta)$ 越大，中位数的渐近方差越小，估计越精确。对于正态总体 $\mathcal{N}(\mu, \sigma^2)$ ，中位数与均值重合（ $\theta = \mu$ ），密度 $f(\mu) = 1 / (\sigma \sqrt{2\pi})$ ，故中位数的渐近方差为 $\frac{\pi \sigma^2}{2 n}$ ，约为样本均值方差 $\sigma^2 / n$ 的 $\pi/2 \approx 1.571$ 倍——在正态模型下，均值比中位数更有效。

稳健性与影响函数

经验中位数最重要的实用优势在于其稳健性。样本均值对单个极端值的变化无限敏感：若将一个观测值推向无穷，均值也随之趋向无穷。而中位数的影响函数 (Influence Function) 是有界的：

\text{IF}(x; T, F) = \frac{\text{sign}(x - \theta)}{2 f(\theta)},

这意味着无论单个观测值多么极端，它对中位数估计的影响始终被限定在有限的范围内。中位数的失效点 (Breakdown Point) 高达 $1/2$ ，即在不超过一半的数据被任意篡改时，中位数仍能保持有界。相比之下，样本均值的失效点为 $0$ ——一个异常值即可使其崩溃。这种稳健性使得中位数在收入分布（存在极端富豪）、房价分析（存在豪宅）和金融收益（存在崩盘和暴涨）等实际场景中被广泛使用。

与均值的比较

经验中位数和样本均值是最常用的两种位置度量，各有优劣：

效率差异：在正态分布下，中位数的渐近相对效率 (ARE) 相对于均值为 $2/\pi \approx 0.637$ ，即中位数需要大约 1.57 倍于均值所需的样本量才能达到相同精度。然而在拉普拉斯分布（双指数分布）下，中位数是最大似然估计，ARE 约为 2.0——中位数远比均值有效。
稳健性差异：中位数的失效点为 50\%，均值为 0\%。在存在重尾或污染数据的场景中，中位数往往提供更可信的中心位置估计。
可解释性：中位数直接对应「一半以上/以下」的直观含义，在收入、房价、寿命等偏态分布中往往比均值更具代表意义。例如「人均收入」常被少数高收入者拉高，而「收入中位数」更能反映普通居民的真实水平。
数学便利性：均值具有线性性（ $E[aX+bY] = aE[X] + bE[Y]$ ）和与平方损失的最优性，便于解析推导。中位数不具备线性性，但在绝对偏差损失下是最优的（见下文）。

优化解释：绝对偏差最小化

经验中位数不仅是简单的排序取中，它还具有深刻的变分刻画：中位数是最小化绝对偏差之和的解。具体而言， $M_n$ 是如下优化问题的任意解：

M_n = \arg \min_{m \in \mathbb{R}} \sum_{i=1}^{n} |X_i - m|.

这一性质将中位数与最小一乘法 (Least Absolute Deviations, LAD) 联系起来——中位数就是只有一个截距项的 LAD 回归结果。与之对应，样本均值最小化平方误差之和： $\bar{X} = \arg\min_{m} \sum (X_i - m)^2$ 。这一对偶关系是中位数稳健性的数学根源：平方损失对大偏差加倍惩罚（梯度为 $2(X_i - m)$ ），而绝对损失对大偏差仅施加常数惩罚（梯度为 $\pm 1$ ），极端值无法主导优化目标。

基于这一优化视角，经验中位数可以自然地推广到分位数回归 (Quantile Regression) 框架。第 $\tau$ 分位数 $Q(\tau)$ 最小化非对称绝对损失 $\sum \rho_{\tau}(X_i - m)$ ，其中 $\rho_{\tau}(u) = u(\tau - \mathbf{1}_{\{u < 0\}})$ 为检查函数 (Check Function)。当 $\tau = 0.5$ 时， $\rho_{0.5}(u) = |u|/2$ ，退化为中位数。

置信区间与推断

基于次序统计量可以直接构造总体中位数的非参数置信区间，无需假设任何参数分布。令 $X_{(1)} \leq \cdots \leq X_{(n)}$ 为次序统计量，用 $X_{(r)}$ 和 $X_{(s)}$ （ $r < s$ ）作为置信下限和上限。在总体中位数为 $\theta$ 的原假设下，观测值落在 $\theta$ 两侧的概率均为 $1/2$ ，因此该区间覆盖 $\theta$ 的概率为：

P\bigl(X_{(r)} \leq \theta \leq X_{(s)}\bigr) = \sum_{k=r}^{s-1} \binom{n}{k} \left(\frac{1}{2}\right)^n.

利用二项分布的对称性，可以选取 $r$ 和 $s = n - r + 1$ 来获得所需置信水平。这一方法完全无分布假设（Distribution-Free），是符号检验 (Sign Test) 和Wilcoxon符号秩检验等非参数推断方法的基石。在大样本下，可利用上述渐近正态性构造基于正态近似的置信区间：

M_n \pm z_{\alpha/2} \cdot \frac{1}{2 \hat{f}(M_n) \sqrt{n}},

其中 $\hat{f}$ 需要通过对样本进行核密度估计来获得 $f(\theta)$ 的估计，这涉及比均值推断更复杂的平滑参数选择。

高维与多元推广

在一维数据中最自然的位置排序在多元情形下不再平凡，因为 $\mathbb{R}^p$ （ $p > 1$ ）中不存在天然的全序关系。学者们提出了多种多元中位数的推广：

空间中位数 (Spatial Median)：也称 $L_1$ 中位数，最小化到各点的欧氏距离之和——即 $\arg\min_{m \in \mathbb{R}^p} \sum_{i=1}^{n} \|X_i - m\|$ 。它具有旋转不变性和 50\% 的失效点，但不具备仿射等变性。
分量中位数 (Componentwise Median)：独立地对每个坐标取中位数。计算简便但失去了旋转不变性——对数据旋转后分量中位数并不等于原分量中位数的旋转。
Tukey中位数 (Tukey Median / Halfspace Median)：在所有方向上半空间深度最大的点，具有仿射等变性但计算复杂度极高。
Oja中位数：最小化由点和数据张成的单形体积之和，具有仿射等变性但计算同样困难。

多元中位数的选择取决于具体应用对等变性、稳健性和计算成本的权衡。在实际应用中，分量中位数因其简洁性最常用，而空间中位数在稳健多元分析中受到更多理论关注。

应用与注意事项

经验中位数在实际数据分析中有广泛应用场景：

偏态分布的中心报告：在收入不平等研究中，各国统计部门通常同时报告平均收入和中位收入，后者更能反映典型居民的经济状况。
异常值污染的稳健估计：在金融收益率分析中，少数极端涨跌对均值产生巨大扰动，中位数提供更稳定的中心趋势估计。例如在估计典型日收益率时，中位数对 1987 年股灾或 2008 年金融危机期间的极端值不敏感。
非参数检验的基础：Mann-Whitney U检验（Wilcoxon秩和检验）和Kruskal-Wallis检验将多组比较转化为中位数比较，对偏离正态性稳健。
箱线图的核心要素：箱线图 (Box Plot) 的中线即为中位数，与四分位数一起提供数据分布的快速可视化。
生存分析：Kaplan-Meier估计的中位生存时间——即生存率降至 50\% 的时间——是临床研究中最重要的汇总指标之一。

使用经验中位数时需要注意几点：首先，中位数对样本中间区域的局部波动比均值更敏感——删除或添加中间附近的观测值可能导致中位数跳跃（特别是小样本偶数情形下的插值效应）。其次，中位数的非线性和不可微性使得基于中位数的推断（如 Bootstrap 置信区间）比基于均值的方法需要更精细的理论处理。最后，当总体分布确实是对称且薄尾的（接近正态），使用中位数将牺牲统计效率——此时均值是更优选择。因此，在选择位置度量时，应在效率与稳健性之间基于数据特征做出审慎的权衡。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。