知经 KNOWECON · 卓越的经济金融统计数学学习平台

百分位数

# 百分位数 (Percentile)

百分位数 (Percentile) 是{{{描述统计学}}}中用于衡量个体在群体中所处相对位置的{{{位置度量}}}。具体而言,第 $k$ 百分位数 ($P_k$) 是一个数值,该数值将一组{{{排序}}}后的观测数据分割开,使得至少有 $k\%$ 的数据小于或等于该值,同时至少有 $(100-k)\%$ 的数据大于或等于该值。

百分位数提供了关于{{{数据分布}}}形态的详细信息,超越了如{{{平均数}}}或{{{标准差}}}等集中趋势和离散程度的度量。它在教育、心理学、经济学、医学等多个领域有着广泛的应用。

## 计算方法

计算百分位数有多种方法,不同的统计软件(如 Excel, Python, R)可能采用略有差异的{{{插值}}}算法。此处介绍一种在入门教材中广泛使用的方法(线性插值法的变体)。

对于一个包含 $N$ 个观测值的数据集,计算其第 $P$ 百分位数 ($P_P$) 的步骤如下:

1. 排序数据:首先,将所有观测值从低到高进行升序排列。我们将排序后的数据集记为 $\{x'_{(1)}, x'_{(2)}, \dots, x'_{(N)}\}$,其中 $x'_{(1)}$ 是最小值,$x'_{(N)}$ 是最大值。

2. 计算位置索引 (Rank):计算百分位数在排序数据集中的位置索引 $L$。公式为: $$ L = \frac{P}{100} \times N $$ 其中 $P$ 是所求的百分位数(例如,求第 75 百分位数,则 $P=75$),$N$ 是数据集中观测值的总数。

3. 确定百分位数值:根据 $L$ 的计算结果来确定最终的百分位数值。

  • 如果 $L$ 不是整数:将 $L$ 的值向上取整得到一个整数 $k$(例如,如果 $L=4.2$,则 $k=5$)。第 $P$ 百分位数的值就是排序数据集中第 $k$ 个位置上的值,即 $P_P = x'_{(k)}$。
  • 如果 $L$ 是整数:第 $P$ 百分位数的值是排序数据集中第 $L$ 个值与第 $(L+1)$ 个值的{{{算术平均值}}}。即: $$ P_P = \frac{x'_{(L)} + x'_{(L+1)}}{2} $$

注意:这种 “取平均值” 的方法是为了确保百分位数的定义得到更平滑的满足。其他方法,例如微软 Excel 使用的 `PERCENTILE.INC` 和 `PERCENTILE.EXC` 函数,采用了不同的线性插值公式,可能会导致计算结果有微小差异。

## 计算示例

假设我们有一组关于学生考试成绩的数据,共 10 个样本 ($N=10$): $$ \{88, 72, 95, 65, 78, 85, 91, 59, 81, 83\} $$

第一步:排序数据 将数据从小到大排序: $$ \{59, 65, 72, 78, 81, 83, 85, 88, 91, 95\} $$ 排序后的数据为 $x'_{(1)}=59, x'_{(2)}=65, \dots, x'_{(10)}=95$。

---

示例一:计算第 40 百分位数 ($P_{40}$)

1. 计算位置索引 $L$: $$ L = \frac{40}{100} \times 10 = 4 $$ 2. 确定数值: 因为 $L=4$ 是一个整数,我们需要取第 4 个值和第 5 个值的平均值。 $$ P_{40} = \frac{x'_{(4)} + x'_{(5)}}{2} = \frac{78 + 81}{2} = 79.5 $$ 因此,该组成绩的第 40 百分位数是 79.5。这意味着大约 40% 的学生分数低于或等于 79.5。

---

示例二:计算第 82 百分位数 ($P_{82}$)

1. 计算位置索引 $L$: $$ L = \frac{82}{100} \times 10 = 8.2 $$ 2. 确定数值: 因为 $L=8.2$ 不是一个整数,我们将其向上取整至 9。 第 82 百分位数的值是排序数据中的第 9 个值。 $$ P_{82} = x'_{(9)} = 91 $$ 因此,该组成绩的第 82 百分位数是 91。这意味着大约 82% 的学生分数低于或等于 91。

## 百分位数的解读与应用

百分位数的核心价值在于提供了一个关于数据“相对位置”的清晰度量。

* 相对表现评估:在{{{教育测量}}}中,标准化考试(如 SAT、GRE)的成绩报告通常会提供百分位数排名。如果一个学生的分数处于第 90 百分位数,这意味着他的分数高于或等于 90% 的考生。 * 理解数据分布:通过观察一系列百分位数(如 $P_{10}, P_{25}, P_{50}, P_{75}, P_{90}$),可以了解{{{数据分布}}}的对称性、{{{偏度}}}和离散程度。例如,如果 $P_{90}-P_{50}$ 的差距远大于 $P_{50}-P_{10}$ 的差距,这可能表明数据呈{{{右偏分布}}}。 * 识别{{{异常值}}} (Outliers):极高(如 $P_{99}$)或极低(如 $P_1$)的百分位数常被用来定义或识别数据集中的{{{异常值}}}或极端值。 * 经济学应用:在分析{{{收入分配}}}或{{{财富分配}}}时,百分位数是关键工具。例如,“收入最高的 1%” 就是指收入水平处于第 99 百分位数以上的人群。 * 医学应用:儿科医生使用生长图表(Growth Charts)来监测儿童的成长,这些图表就是基于身高和体重的百分位数来评估儿童是否发育正常。 * 金融风险管理:{{{风险价值}}} (Value at Risk, VaR) 模型便是一个基于百分位数的概念。例如,一个投资组合的单日 95% VaR 为$100万,意味着在正常市场条件下,有 95% 的把握该投资组合在未来一天的损失不会超过$100万。

## 相关概念

百分位数是一系列分位数 (Quantiles) 中最精细的一种。其他相关的概念包括:

* {{{四分位数}}} (Quartiles):将数据分为四等份的分割点。 * 第一四分位数 (Q1) = 第 25 百分位数 ($P_{25}$) * 第二四分位数 (Q2) = 第 50 百分位数 ($P_{50}$),即{{{中位数}}} (Median) * 第三四分位数 (Q3) = 第 75 百分位数 ($P_{75}$) * {{{四分位距}}} (Interquartile Range, IQR) 被定义为 $Q3 - Q1$,是衡量数据离散程度的稳健统计量。

* {{{十分位数}}} (Deciles):将数据分为十等份的分割点。第一十分位数 ($D_1$) 对应第 10 百分位数 ($P_{10}$),第二十分位数 ($D_2$) 对应第 20 百分位数 ($P_{20}$),以此类推。

* 百分位数 (Percentile) vs. {{{百分位秩}}} (Percentile Rank):这是一个非常容易混淆的概念。 * 百分位数是一个数值。它是数据集中与特定百分比相对应的值(例如,分数 91 是第 82 百分位数)。 * 百分位秩是一个百分比。它指数据集中低于或等于某个特定值的观测值所占的比例(例如,分数 91 的百分位秩是 82%)。