知经 KNOWECON · 卓越的经济金融统计数学学习平台

中位数

# 中位数 (Median)

中位数 (Median) 是{{{描述统计学}}}中的一个核心概念,是一种衡量数据集{{{集中趋势}}} (Central Tendency) 的重要指标。其定义为将一个数据集按大小顺序排列后,居于最中间位置的那个数值。如果数据集的观测值数量为奇数,中位数就是正中间的那个数;如果为偶数,中位数通常定义为中间两个数的{{{算术平均数}}}。

与{{{平均数}}} (Mean) 相比,中位数最大的优点在于其 稳健性 (Robustness) ,即它不受数据集中极端值或{{{离群值}}} (Outliers) 的影响。这使得中位数在处理偏态分布(如收入、财富、房价等)的数据时,能够比平均数更准确地反映一般水平。

## 如何计算中位数

计算中位数的第一步始终是对数据集进行排序(从小到大或从大到小)。设排序后的数据集为 $x_1, x_2, \dots, x_n$,其中 $n$ 是观测值的总数。

#### 1. 当观测值数量 $n$ 为 奇数

中位数是位于正中间位置的数值。该位置的索引可以通过以下公式计算: $$ \text{Position} = \frac{n+1}{2} $$ 中位数就是处于这个位置的数值 $x_{(n+1)/2}$。

示例: 假设我们有一组数据:$\{3, 1, 9, 4, 7\}$。 一. 排序: $\{1, 3, 4, 7, 9\}$。 二. 确定位置: 数据集有 $n=5$ 个观测值(奇数)。中位数的位置是 $(5+1)/2 = 3$。 三. 找到中位数: 排序后第3个位置的数是 4。因此,该数据集的中位数为4。

#### 2. 当观测值数量 $n$ 为 偶数

中位数是位于中间的两个数值的平均值。这两个位置分别是: $$ \text{Position 1} = \frac{n}{2} $$ $$ \text{Position 2} = \frac{n}{2} + 1 $$ 中位数是这两个位置上数值的算术平均数: $$ \text{Median} = \frac{x_{n/2} + x_{n/2+1}}{2} $$

示例: 假设我们有一组数据:$\{3, 1, 9, 4, 7, 12\}$。 一. 排序: $\{1, 3, 4, 7, 9, 12\}$。 二. 确定位置: 数据集有 $n=6$ 个观测值(偶数)。中间的两个位置是 $6/2 = 3$ 和 $6/2 + 1 = 4$。 三. 找到并计算中位数: 第3个位置的数是 4,第4个位置的数是 7。中位数为这两个数的平均值:$(4+7)/2 = 5.5$。

## 中位数的主要性质与优点

#### 1. 稳健性 (Robustness) 这是中位数最重要的特性。它对数据集中的极端值不敏感。例如,在计算一个地区的“家庭收入”时,少数亿万富翁的极高收入会极大地拉高{{{平均收入}}},使其不能代表大多数家庭的真实情况。而{{{中位数收入}}}由于只关注中间位置的数值,不会被这些极端高收入值影响,因此能更好地反映普通家庭的收入水平。这使得中位数成为一种{{{稳健统计量}}} (Robust Statistic)。

示例: 考虑数据集A:$\{10, 20, 30, 40, 50\}$ - 平均数 = $(10+20+30+40+50)/5 = 30$ - 中位数 = 30

现在引入一个离群值,得到数据集B:$\{10, 20, 30, 40, 500\}$ - 平均数 = $(10+20+30+40+500)/5 = 120$ - 中位数 = 30

可以看到,离群值500使平均数从30飙升至120,而中位数保持不变。

#### 2. 唯一的存在性 对于任意一个数据集,中位数总是存在且唯一的。

#### 3. 最小化绝对离差和 (Minimization of Sum of Absolute Deviations) 在统计学中,中位数有一个重要的优化特性。对于一个数据集 $\{x_1, x_2, \dots, x_n\}$,中位数 $m$ 是能够使所有数据点到某一个常数 $c$ 的{{{绝对偏差}}}之和最小化的那个值。即: $$ \sum_{i=1}^{n} |x_i - c| $$ 当 $c$ 取值为中位数时,上式达到最小值。这与平均数形成了鲜明对比,平均数是使{{{平方偏差}}}之和 $\sum_{i=1}^{n} (x_i - c)^2$ 最小化的值。这个性质是{{{最小绝对离差回归}}} (Least Absolute Deviations, LAD Regression) 等稳健估计方法的基础。

## 中位数、平均数与众数的比较

中位数、{{{平均数}}} (Mean) 和{{{众数}}} (Mode) 是三种最常用的集中趋势度量。

| 度量 | 定义 | 特点 | 适用场景 | | --- | --- | --- | --- | | 中位数 (Median) | 排序后位于中间的数值 | 不受极端值影响,稳健性高 | 适用于有离群值或{{{偏态分布}}}的数据,如收入、房价。 | | 平均数 (Mean) | 所有数值的总和除以数量 | 利用了所有数据信息,但对极端值敏感 | 适用于数据分布相对对称、无显著离群值的情况,如身高、考试分数。 | | 众数 (Mode) | 数据集中出现频率最高的数值 | 可用于{{{分类数据}}} (Categorical Data),可能不存在或存在多个 | 适用于需要找出最常见类别或数值的场景,如最受欢迎的产品颜色。 |

这三者的关系还能反映数据分布的{{{偏度}}} (Skewness): - 在 对称分布 (Symmetric Distribution) 中(如{{{正态分布}}}),三者大小非常接近:平均数 ≈ 中位数 ≈ 众数。 - 在 右偏分布 (Right-skewed Distribution) 或正偏态中,长尾在右侧,少数较大的值会拉高平均数:平均数 > 中位数 > 众数。 - 在 左偏分布 (Left-skewed Distribution) 或负偏态中,长尾在左侧,少数较小的值会拉低平均数:平均数 < 中位数 < 众数。

## 推广与相关概念

#### 1. 分位数 (Quantiles) 中位数是{{{分位数}}}家族的一个特例。分位数是将数据集(或概率分布)划分为等比例部分的切分点。 - 中位数 是将数据一分为二的点,即第50个{{{百分位数}}} (Percentile)。 - {{{四分位数}}} (Quartiles) 是将数据四等分的点。中位数就是第二个四分位数 ($Q_2$)。第一个四分位数 ($Q_1$) 和第三个四分位数 ($Q_3$) 之间的距离,即{{{四分位距}}} (Interquartile Range, IQR),是另一个常用的稳健的{{{离散度}}} (Dispersion) 度量。

#### 2. 概率分布中的中位数 对于一个{{{概率分布}}},其中位数 $m$ 是满足以下条件的数值: $$ P(X \le m) \ge 0.5 \quad \text{且} \quad P(X \ge m) \ge 0.5 $$ 对于{{{连续概率分布}}},其中位数 $m$ 是使其{{{累积分布函数}}} (Cumulative Distribution Function, CDF) 值为0.5的点: $$ F(m) = \int_{-\infty}^{m} f(x) dx = 0.5 $$ 这里的 $f(x)$ 是{{{概率密度函数}}} (Probability Density Function, PDF)。从几何上看,中位数是垂直于横轴的一条线,它将概率密度曲线下的面积平分为两半。