ARTICLE
Median
中位数 (Median) 中位数(Median)是统计学中用于描述一组数据集中趋势的度量指标,指将数据按大小顺序排列后位于中间位置的值。与均值(Mean)相比,中位数具有更强的稳健性——它不受极端值或偏态分布的显著影响,因此在处理偏斜分布数据时更能代表数据的典型水平。中位数是分位数(Quantile)的一种特殊情形,即 0.5 分位数(或第 50 百分位数)
中位数 (Median)
中位数(Median)是统计学中用于描述一组数据集中趋势的度量指标,指将数据按大小顺序排列后位于中间位置的值。与均值(Mean)相比,中位数具有更强的稳健性——它不受极端值或偏态分布的显著影响,因此在处理偏斜分布数据时更能代表数据的典型水平。中位数是分位数(Quantile)的一种特殊情形,即 分位数(或第 百分位数)。
定义与计算
设 为一组样本观测值,将其按升序排列为 。样本中位数的定义为:
当样本量为奇数时,中位数即为排序后最中间的那个观测值;当样本量为偶数时,中位数取中间两个观测值的算术平均数。
对于连续型随机变量 ,其总体中位数 定义为使得累积分布函数 的值,即:
当分布关于某点对称(例如正态分布)时,中位数与均值相等;当分布右偏时,中位数小于均值;左偏时,中位数大于均值。
性质与比较
中位数具有以下重要性质:
- 稳健性:中位数的崩溃点(Breakdown Point)为 ,即最多可容忍 的数据被污染而不致无限偏离,远高于均值的崩溃点 。因此中位数是稳健统计(Robust Statistics)中最重要的位置估计量之一。
- 最优性:中位数是使平均绝对偏差(Mean Absolute Deviation, MAD)最小的位置参数,即: \[ \tilde{x} = \arg\min_{c \in \mathbb{R}} \sum_{i=1}^{n} |x_i - c|. \] 而均值则最小化平方偏差之和。
- 尺度等变性:若对数据做线性变换 ,则中位数相应变换为 。
- 抽样分布:样本中位数的渐近分布为: \[ \sqrt{n}(\tilde{x} - m) \xrightarrow{d} N\!\left(0, \frac{1}{4[f(m)]^2}\right), \] 其中 是总体密度函数在中位数处的取值。因此中位数的渐近方差通常大于均值,但效率损失在重尾分布中可忽略甚至逆转。
应用场景
收入与财富分布是使用中位数的经典场景。由于收入分布高度右偏,少数高收入者会将均值拉高,而中位数更能反映"典型个体"的收入水平。例如,基尼系数与中位数和均值之比常联合考察社会不平等程度。
房价指数中,房价中位数比均值更能抵制豪宅交易的干扰,因此各国房屋统计机构普遍使用中位数报告市场价格水平。美国人口普查局(U.S. Census Bureau)报告房价时同时发布中位数和均值,但主要参考中位数。
序数数据的分析也必须依赖中位数。对于无法进行算术运算的序数变量(如"不满意—一般—满意"量表),均值没有意义,而中位数的计算仅依赖排序,天然适用于此类数据。
与其他集中趋势度量的比较
均值对数据的利用效率最高(在正态分布下是充分统计量),但对异常值极度敏感。众数(Mode)适用于分类数据,但可能不唯一。在实际应用中,选择何种指标取决于数据分布特征、是否存在异常值以及研究目的。经济学研究中通常建议同时报告均值和中位数,以提供对数据集中趋势的完备刻画。
在假设检验领域,符号检验(Sign Test)和威尔科克森符号秩检验(Wilcoxon Signed-Rank Test)是基于中位数的非参数检验方法,它们不要求数据满足正态性假定,在样本量较小或分布未知时尤为适用。