ARTICLE
箱形图
箱形图(Box Plot),又称箱线图(Box-and-Whisker Plot),是描述统计学中用于可视化数据分布的一种标准化图形工具,由美国统计学家约翰·图基(John Tukey)于1970年在其著作《探索性数据分析》(Exploratory Data Analysis)中首次系统阐述。箱形图基于五数概括法(Five-Number Summary),以
箱形图(Box Plot),又称箱线图(Box-and-Whisker Plot),是描述统计学中用于可视化数据分布的一种标准化图形工具,由美国统计学家约翰·图基(John Tukey)于1970年在其著作《探索性数据分析》(Exploratory Data Analysis)中首次系统阐述。箱形图基于五数概括法(Five-Number Summary),以简洁的图形形式同时展现数据的中心趋势、离散程度、偏度及异常值,在探索性数据分析和组间比较中具有独特优势。与直方图相比,箱形图不依赖于分箱数选择,且能更直观地显示异常值,因此在初步数据分析阶段被广泛应用。其设计思想体现了图基所倡导的"让数据说话"的理念——通过可视化手段揭示数据中隐藏的模式,而不依赖严格的概率假设。
1. 箱形图的构成要素
标准箱形图由以下核心部件组成,每个部件对应特定的样本统计量:
1.1 五数概括法
五数概括法构成箱形图的数据基础,包含五个关键数值:最小值(除去异常值后的最小观测值)、第一四分位数(25\%分位数,将数据中较小25\%与其余75\%分开)、中位数(50\%分位数,代表数据的中心水平)、第三四分位数(75\%分位数,将数据中较大25\%与其余75\%分开)和最大值(除去异常值后的最大观测值)。这五个统计量从不同维度刻画了数据分布的全貌。与均值加标准差的方法相比,基于分位数的五数概括法对异常值具有天然的稳健性,因此在处理重尾分布或含有异常值的数据时更为可靠。
1.2 箱体与中位数线
箱体以为下边界、为上边界,其高度(垂直箱形图)或宽度(水平箱形图)反映四分位距(Interquartile Range, IQR),计算公式为。箱体容纳了分布中间50\%的数据,长度越大说明数据主体部分的离散程度越高。中位数线位于箱体内部,其位置可提供偏度线索:若中位数线位于箱体中央,表明中间数据的分布大致对称;偏向提示右偏分布(数据集中在低值区,有少数高值拉长尾部);偏向提示左偏分布。
1.3 箱须与异常值
箱须从箱体两端延伸至"内限"(Inner Fences)以内的最远数据点。上内限为,下内限为。上箱须端点是不超过上内限的最大观测值,下箱须端点是不低于下内限的最小观测值。需要强调的是,箱须端点并非数据的最小值和最大值,而是经过异常值筛选后的延展边界。异常值是落在内限之外的观测值,通常以单独的点(圆点、星号等)标示。一个观测值被视为异常值的判定条件为或。识别异常值是箱形图的重要功能,它提示分析者注意这些可能由测量误差、录入错误或真实极端事件产生的数据点。部分实现还支持使用界定"极端异常值",形成两层异常值识别体系。
2. 箱形图的解读方法
通过观察箱形图的形态特征,可以快速提取以下分布信息:
中心趋势由中位数线位置直接指示,是对数据集中趋势的稳健估计。离散程度由IQR(箱体长度)和箱须长度共同反映:箱体越长,中间50\%数据的波动越大;箱须越长,数据尾部的延展越广。当上下箱须长度相差悬殊时,往往提示分布具有不对称的尾部。
偏度判断可从两方面入手:一是箱内对称性——中位数偏离箱体中心的程度和方向;二是箱须对称性——上箱须明显长于下箱须通常提示右偏分布,反之则提示左偏分布。前者反映中间50\%数据的对称性,后者反映尾部数据的延展方向,两者结合可提供偏度的全面判断。
尾部特征通过异常值的数量和位置得以呈现。异常值数量多且远离箱体,说明分布具有厚尾特征;异常值仅出现在一侧,则提示单侧尾部存在极端观测。
3. 应用与优势
箱形图最重要的应用场景之一是跨组比较。将多个箱形图并排放置于同一坐标轴上,可直观对比不同组别在中心水平、离散程度、偏斜方向和极端值模式上的差异。例如,比较多所学校的学生成绩时,各校箱体的中位数线反映成绩水平差异,箱体长度反映组内分化程度,异常值数量则揭示极端表现的存在情况。这一特性使箱形图在实验设计、质量检验和金融风险分析中得到广泛应用。
此外,箱形图还具有以下优势:不受极端值影响(基于分位数而非均值),对分布形态无参数假设,可同时展示多个分布特征,且在不同数据集之间具有可比性。
4. 计算示例
考虑一组学生考试成绩(已排序):
样本量。中位数为第6和第7个值的平均值:。下半部分的中位数。上半部分的中位数。。上内限,下内限。上箱须端点为不超过109.75的最大值100,下箱须端点为不低于47.75的最小值55。所有数据点均落在内限范围内,因此无异常值。五数概括为:下端点=55, , , , 上端点=100。
5. 局限性
箱形图的主要局限在于过度简化。它无法显示分布的峰值数量——例如,一个双峰分布与单峰分布可能具有完全相同的五数概括但形状截然不同。箱形图也不反映样本量大小,这在比较不同规模的数据组时可能造成误导。此外,标准箱形图不支持数据聚类结构和时间序列特征的展示。当需要观察分布详细形态时,直方图或核密度估计图是更优选择;当样本量较小时,散点图或带状图能提供更完整的信息。在实际应用中,箱形图应作为探索性分析的第一步工具,之后结合其他图形和统计方法进行深入分析。