ARTICLE

百分位数

百分位数(Percentile)是描述统计学中用于衡量个体在群体中所处相对位置的重要位置度量。具体而言,第k百分位数(Pₖ)是一个数值,该数值将一组按升序排序后的观测数据分割开,使得至少有k\%的数据小于或等于该值,同时至少有(100−k)\%的数据大于或等于该值。百分位数提供了关于数据分布形态的详细信息,超越了平均数或标准差等集中趋势和离散程度的单一度量。

浏览 142 更新 2026-05-26

百分位数(Percentile)是描述统计学中用于衡量个体在群体中所处相对位置的重要位置度量。具体而言,第k百分位数(Pₖ)是一个数值,该数值将一组按升序排序后的观测数据分割开,使得至少有k\%的数据小于或等于该值,同时至少有(100−k)\%的数据大于或等于该值。百分位数提供了关于数据分布形态的详细信息,超越了平均数或标准差等集中趋势和离散程度的单一度量。它在教育测量、心理学、经济学、医学和金融风险管理等众多领域有着广泛而深入的应用,是理解数据全貌不可或缺的统计工具。百分位数的独特优势在于它不受极端值或偏态分布的过度影响,能够稳健地描述数据在各个位置上的分布特征。

计算方法

计算百分位数存在多种方法,不同统计软件可能采用略有差异的插值算法。此处介绍一种在入门教材中广泛使用的线性插值变体方法。

对于一个包含N个观测值的数据集,计算其第P百分位数的步骤如下。第一步,将数据从小到大排序,记为{x′₁, x′₂, …, x′ₙ}。第二步,计算位置索引L = (P/100) × N。第三步,根据L确定百分位数值:若L不是整数,则向上取整至k,取第k位值;若L是整数,则取第L位和第L+1位的算术平均值。这种取平均的方法能够确保百分位数定义的平滑满足。微软Excel使用的PERCENTILE.INC和PERCENTILE.EXC函数采用了不同的线性插值公式,计算结果可能与此方法存在微小差异。R语言中的quantile函数提供了多达九种不同的分位数计算方法,用户可以根据具体需求选择。理解这些方法差异对于正确使用统计工具和确保研究结果的可重复性至关重要。

计算示例

假设有一组学生考试成绩共10个样本:{88, 72, 95, 65, 78, 85, 91, 59, 81, 83}。排序后为{59, 65, 72, 78, 81, 83, 85, 88, 91, 95}。

计算第40百分位数时,位置索引L = (40/100) × 10 = 4。由于L=4为整数,取第4位值78和第5位值81的平均值,得P₄₀ = 79.5。这意味着大约40\%的学生分数低于或等于79.5分,超过60\%的学生分数高于此值,该成绩处于班级中下水平。

计算第82百分位数时,L = (82/100) × 10 = 8.2。L不是整数,向上取整至9,P₈₂取第9位值91分。这意味着约82\%的学生分数低于或等于91分,仅约18\%的学生分数超过91分,该成绩处于班级较高水平。

百分位数的应用场景

百分位数的核心价值在于提供数据相对位置的清晰度量。在教育测量中,标准化考试的成绩报告通常提供百分位数排名——若一名学生的分数处于第90百分位数,意味着他高于或等于90\%的考生,这比原始分数更能直观反映其相对水平。通过观察一系列百分位数(如P₁₀、P₂₅、P₅₀、P₇₅、P₉₀),可以了解数据分布的对称性、偏度和离散程度。例如,若P₉₀−P₅₀远大于P₅₀−P₁₀,数据可能呈右偏分布,即少数极端大值拉高了均值。极高或极低的百分位数常被用来识别异常值或极端值,在数据清洗和质量控制中发挥重要作用。

在经济学中,分析收入分配或财富分配时百分位数是关键工具——"收入最高的1\%"即指收入水平处于第99百分位数以上的人群,而"收入最低的20\%"指处于第20百分位数以下的群体。政府和研究机构依据这些百分位数制定扶贫政策、设计累进税制和评估收入不平等程度。基尼系数的计算也间接依赖于百分位数所提供的信息。

在金融风险管理中,风险价值模型(Value at Risk, VaR)直接基于百分位数概念。若某投资组合单日95\% VaR为100万美元,意味着有95\%的把握该组合未来一天的损失不超过此数额。VaR已成为银行和金融机构风险管理的国际标准,巴塞尔银行监管委员会将其作为计算资本充足率的核心参数之一。在医学领域,儿科医生使用基于身高和体重百分位数的生长图表评估儿童发育状况。若一名儿童的体重持续处于第5百分位数以下,可能需要进一步检查是否存在营养不良或发育迟缓问题。世界卫生组织发布的国际生长标准正是基于大规模人群的身高和体重百分位数数据制定的。

相关概念辨析

百分位数是一系列分位数(Quantiles)中最精细的一种。四分位数将数据分为四等份:第一四分位数Q₁对应第25百分位数,第二四分位数Q₂对应第50百分位数即中位数,第三四分位数Q₃对应第75百分位数。四分位距定义为Q₃−Q₁,是衡量数据离散程度的稳健统计量,不受极端值影响,常用于箱线图的绘制。十分位数将数据分为十等份,第一十分位数D₁对应第10百分位数,第五十分位数D₅对应中位数。

百分位数与百分位秩是容易混淆的两个重要概念。百分位数是一个具体的数值,它是数据集中与特定百分比相对应的值。百分位秩则是一个百分比,它表示数据集中低于或等于某个特定值的观测值所占的比例。举例而言,在一次考试中,分数91是第82百分位数(数值),而分数91的百分位秩是82\%(比例)。理解二者的区别对于正确解读统计报告和研究结果至关重要,尤其是在比较不同测试或不同年份的考试成绩时。掌握百分位数的概念也是深入学习统计推断、非参数统计和探索性数据分析的基础。

参考文献

  1. Hyndman, R. J., \& Fan, Y. (1996). Sample quantiles in statistical packages. *The American Statistician*, 50(4), 361–365.
  2. Tukey, J. W. (1977). *Exploratory Data Analysis*. Addison-Wesley.
  3. Wilks, S. S. (1938). The large-sample distribution of the likelihood ratio for testing composite hypotheses. *The Annals of Mathematical Statistics*, 9(1), 60–62.