ARTICLE

箱线图

箱线图 (Box Plot) 箱线图(Box Plot,又称盒须图、箱形图)是由美国统计学家John Tukey于1977年在《Exploratory Data Analysis》中首次系统提出的一种数据可视化方法。它利用数据的五个概括统计量——最小值、第一四分位数(Q_1)、中位数(Q_2)、第三四分位数(Q_3)和最大值——紧凑地展示单变量分布的集中趋势

浏览 0 更新 2025-11-08

箱线图 (Box Plot)

箱线图(Box Plot,又称盒须图、箱形图)是由美国统计学家John Tukey于1977年在《Exploratory Data Analysis》中首次系统提出的一种数据可视化方法。它利用数据的五个概括统计量——最小值、第一四分位数(Q1Q_1)、中位数(Q2Q_2)、第三四分位数(Q3Q_3)和最大值——紧凑地展示单变量分布的集中趋势、离散程度和偏态信息。箱线图的核心理念属于Tukey所倡导的探索性数据分析(EDA)范式:在建模之前,先用图形直观揭示数据的内在结构、异常值和分布形态,而非直接诉诸参数假设检验。

构造方法与统计原理

箱线图的"箱"覆盖从 Q1Q_1Q3Q_3 的区间,箱内以一条横线标出中位数。箱体的高度即为四分位距(Interquartile Range, IQR = Q3Q1Q_3 - Q_1),涵盖了数据中间50\%的观测值,是衡量离散程度的稳健度量——与标准差不同,IQR不受极端值影响。

"须"从箱体两端延伸至非异常值范围内的最远端观测。Tukey 最初设定了经典的 1.5×IQR1.5 \times \text{IQR} 规则来确定异常值的边界:

下边缘=Q11.5×IQR,上边缘=Q3+1.5×IQR\text{下边缘} = Q_1 - 1.5 \times \text{IQR}, \quad \text{上边缘} = Q_3 + 1.5 \times \text{IQR}

落在此范围之外的数据点被视为潜在异常值,通常以散点形式单独绘制。对于严重异常值,部分文献采用 3×IQR3 \times \text{IQR} 作为更严格的阈值。须的末端连接到边缘范围内实际存在的最远数据点,而非边缘线本身——因此上须和下须的长度本身就反映了分布的偏态方向。

偏态与分布的图形解读

箱线图的一大优势是能够直观判断分布的偏态。若中位数不在箱体的几何中心,则数据不对称:中位数偏向下四分位数时数据右偏(正偏),偏向上四分位数时左偏(负偏)。上下须的长度差异也提供了一致的偏态信号——须较长的一侧通常对应分布的长尾。在经济数据中,收入分布常呈现显著的右偏结构,箱线图可以在一张图上同时展示中位收入、收入离散度和高收入异常值的丰富信息。

变体与扩展

常见的变体包括:凹口箱线图(Notched Box Plot),在中位数周围添加一个凹口,宽度约为 ±1.58×IQR/n\pm 1.58 \times \text{IQR} / \sqrt{n},用于比较不同组中位数的统计显著性——若两组凹口不重叠,则中位数在约5\%水平上显著不同。变宽箱线图(Variable-Width Box Plot)中箱体的宽度与各组样本量的平方根成比例,使读者一眼能识别样本量差异。此外,小提琴图(Violin Plot)将箱线图的核心信息与核密度估计叠加,已广泛应用于劳动经济学发展经济学中的组间分布比较。

在经济与金融中的应用

实证经济学中,箱线图常用于多组对比分析,如比较不同国家或地区的收入分布、不同年份的政策效果差异、或不同行业的集中度指标。金融计量中,资产收益率的箱线图能快速识别肥尾特征和极端收益事件——金融危机时期的日收益率箱线图往往呈现极长的下须和多发的下侧异常点,与正态假设形成鲜明对比。在随机对照试验(RCT)的报告规范中,箱线图被推荐为展示处理组与对照组基线特征和结果变量的标准工具。

与其他可视化方法的比较

直方图相比,箱线图丢失了分布的多峰性和局部密度细节,但具有极高的信息密度——无需选择组距参数,不受直方图组距选择导致的视觉误导。与核密度曲线相比,箱线图不依赖平滑带宽选择,也不假设数据来自连续分布,对尾部行为的呈现更加诚实直接。在样本量较小(如 n<30n < 30)时,箱线图仍然稳健可用,而直方图和密度估计的可靠性则大打折扣。正因如此,箱线图在数据质量参差不齐的经济统计实践中具有独特的实用价值——它以最少的参数假设提供了对分布关键特征的稳健概览。