ARTICLE
中位数
中位数 (Median) 中位数 (Median) 是描述统计学中的一个核心概念,是一种衡量数据集集中趋势 (Central Tendency) 的重要指标。其定义为将一个数据集按大小顺序排列后,居于最中间位置的那个数值。如果数据集的观测值数量为奇数,中位数就是正中间的那个数;如果为偶数,中位数通常定义为中间两个数的算术平均数。 与平均数 (Mean) 相比
中位数 (Median)
中位数 (Median) 是描述统计学中的一个核心概念,是一种衡量数据集集中趋势 (Central Tendency) 的重要指标。其定义为将一个数据集按大小顺序排列后,居于最中间位置的那个数值。如果数据集的观测值数量为奇数,中位数就是正中间的那个数;如果为偶数,中位数通常定义为中间两个数的算术平均数。
与平均数 (Mean) 相比,中位数最大的优点在于其 稳健性 (Robustness),即它不受数据集中极端值或离群值 (Outliers) 的影响。这使得中位数在处理偏态分布(如收入、财富、房价等)的数据时,能够比平均数更准确地反映一般水平。在经济学和社会学研究中,中位数是报告"典型值"的首选指标。
如何计算中位数
计算中位数的第一步始终是对数据集进行排序(从小到大或从大到小)。设排序后的数据集为 ,其中 是观测值的总数。
\subsubsection*{1. 当观测值数量 为 奇数 时}
中位数是位于正中间位置的数值。该位置的索引可以通过以下公式计算:
中位数就是处于这个位置的数值 。
示例: 假设我们有一组数据:。
- 排序: 。
- 确定位置: 数据集有 个观测值(奇数)。中位数的位置是 。
- 找到中位数: 排序后第3个位置的数是 4。因此,该数据集的中位数为4。
\subsubsection*{2. 当观测值数量 为 偶数 时}
中位数是位于中间的两个数值的平均值。这两个位置分别是:
中位数是这两个位置上数值的算术平均数:
示例: 假设我们有一组数据:。
- 排序: 。
- 确定位置: 数据集有 个观测值(偶数)。中间的两个位置是 和 。
- 找到并计算中位数: 第3个位置的数是 4,第4个位置的数是 7。中位数为这两个数的平均值:。
中位数的主要性质与优点
\subsubsection*{1. 稳健性 (Robustness)}
这是中位数最重要的特性。它对数据集中的极端值不敏感。例如,在计算一个地区的"家庭收入"时,少数亿万富翁的极高收入会极大地拉高平均收入,使其不能代表大多数家庭的真实情况。而中位数收入由于只关注中间位置的数值,不会被这些极端高收入值影响,因此能更好地反映普通家庭的收入水平。这使得中位数成为一种稳健统计量 (Robust Statistic)。在政策分析中,中位数收入的变化通常比平均收入更能反映居民福利的真实变动。
示例: 考虑数据集A:
- 平均数 =
- 中位数 = 30
现在引入一个离群值,得到数据集B:
- 平均数 =
- 中位数 = 30
可以看到,离群值500使平均数从30飙升至120,而中位数保持不变。这一性质使中位数在收入不平等和财富分配研究中具有不可替代的地位。
\subsubsection*{2. 唯一的存在性}
对于任意一个数据集,中位数总是存在且唯一的。即使数据集中存在缺失值或极端值,只要数据可以排序,中位数就能被确定。这一性质与众数形成对比——众数可能不存在(所有值都唯一时)或存在多个(多峰分布时)。
\subsubsection*{3. 最小化绝对离差和}
在统计学中,中位数有一个重要的优化特性。对于一个数据集 ,中位数 是能够使所有数据点到某一个常数 的绝对偏差之和最小化的那个值:
当 取值为中位数时,上式达到最小值。这与平均数形成了鲜明对比——平均数是使平方偏差之和 最小化的值。这个性质是最小绝对离差回归 (Least Absolute Deviations, LAD Regression) 等稳健估计方法的基础,也是计量经济学中处理异常值的重要工具。
中位数、平均数与众数的比较
中位数、平均数 (Mean) 和众数 (Mode) 是三种最常用的集中趋势度量,各有其适用场景和局限性。
\begin{tabular}{|c|c|c|c|} \hline 度量 \& 定义 \& 特点 \& 适用场景 \\ \hline 中位数 (Median) \& 排序后位于中间的数值 \& 不受极端值影响,稳健性高 \& 有离群值或偏态分布的数据,如收入、房价 \\ \hline 平均数 (Mean) \& 所有数值的总和除以数量 \& 利用了所有数据信息,但对极端值敏感 \& 数据分布对称、无显著离群值,如身高、考试分数 \\ \hline 众数 (Mode) \& 出现频率最高的数值 \& 可用于分类数据,可能不存在或多个 \& 最常见类别或数值,如最受欢迎的产品颜色 \\ \hline \end{tabular}
这三者的关系还能反映数据分布的偏度 (Skewness):
- 在 对称分布 (Symmetric Distribution) 中(如正态分布),三者大小非常接近:平均数 中位数 众数。
- 在 右偏分布 (Right-skewed Distribution) 或正偏态中,长尾在右侧,少数较大的值会拉高平均数:平均数 中位数 众数。
- 在 左偏分布 (Left-skewed Distribution) 或负偏态中,长尾在左侧,少数较小的值会拉低平均数:平均数 中位数 众数。
一个经典的现实案例是个人收入分配:几乎所有国家的收入分布都是右偏的——少数高收入者拉高了平均收入,因此各国统计部门在报告居民收入时通常同时报告平均数和中位数,而中位数被视为更能反映"普通人"收入的指标。
中位数在经济学中的应用
\subsubsection*{收入与财富分配}
在发展经济学和公共经济学中,中位数收入是衡量居民生活水平的首选指标。例如,美国人口普查局每年报告家庭收入中位数,作为衡量中产阶级经济状况的核心晴雨表。与之配套的基尼系数 (Gini Coefficient) 则从另一维度刻画收入差距——中位数和平均数的比值(Mean-to-Median Ratio)本身也是判断收入分配偏斜程度的一个快捷指标:比值越大于1,说明分布越右偏,富人拉高平均的程度越大。
\subsubsection*{房地产市场}
在房地产经济学中,房价中位数比平均房价更常用于市场报告。因为高端豪宅的成交会严重扭曲均价,而中位数能更真实地反映典型购房者面对的价格水平。类似逻辑适用于租金、土地价格等所有高度偏态的资产价格。
\subsubsection*{劳动经济学}
在劳动经济学中,工资中位数被广泛用于分析劳动力市场的工资水平和趋势,尤其在不同行业、地区或教育水平之间的比较中。相比平均工资,中位数工资排除了少数极高薪职位(如CEO薪酬)的拉高效应,更能反映普通劳动者的真实报酬状况。
推广与相关概念
\subsubsection*{1. 分位数 (Quantiles)}
中位数是分位数家族的一个特例。分位数是将数据集(或概率分布)划分为等比例部分的切分点。
- 中位数 是将数据一分为二的点,即第50个百分位数 (Percentile)。
- 四分位数 (Quartiles) 是将数据四等分的点。中位数就是第二个四分位数 ()。第一个四分位数 () 和第三个四分位数 () 之间的距离,即四分位距 (Interquartile Range, IQR),是另一个常用的稳健的离散度 (Dispersion) 度量。
- 五分位数 (Quintiles) 和 十分位数 (Deciles) 也常见于经济学报告——例如将家庭按收入高低分为五等分或十等分,比较顶层与底层的收入份额。
\subsubsection*{2. 概率分布中的中位数}
对于一个概率分布,其中位数 是满足以下条件的数值:
对于连续概率分布,其中位数 是使其累积分布函数 (Cumulative Distribution Function, CDF) 值为0.5的点:
这里的 是概率密度函数 (Probability Density Function, PDF)。从几何上看,中位数是垂直于横轴的一条线,它将概率密度曲线下的面积平分为两半。
\subsubsection*{3. 箱线图与中位数}
在数据可视化中,箱线图 (Box Plot) 以中位数为核心元素。箱体从 延伸至 ,中间横线标注中位数位置。通过箱线图,研究者可以直观地识别数据的集中趋势、离散程度(IQR)和偏态方向——中位数线偏向上侧表明左偏,偏向下侧表明右偏。这也是探索性数据分析 (Exploratory Data Analysis, EDA) 中最常用的工具之一。
\subsubsection*{4. 加权中位数与多维推广}
当数据点具有不同权重时,可采用加权中位数 (Weighted Median):将数据排序后,从最小端开始累加权重,找到累积权重首次达到总权重一半的位置。这在抽样调查中有重要应用——当样本并非等概率抽取时,需用抽样权重计算加权中位数以获得总体的无偏估计。
在多维空间或抽象空间中,中位数的概念可推广为几何中位数 (Geometric Median) 或 中位数,即最小化到所有点的欧氏距离之和的点: