ARTICLE
茎叶图
茎叶图 (Stem-and-Leaf Plot) 茎叶图(Stem-and-Leaf Plot),又称枝叶图,是由著名统计学家约翰·图基(John Tukey)在20世纪70年代提出的一种用于展示定量数据分布的图形工具。它属于探索性数据分析(EDA)的范畴,其巧妙之处在于既能像直方图一样展示数据的分布形状,又能保留所有原始数据点的精确数值,这使得茎叶图在初步
茎叶图 (Stem-and-Leaf Plot)
茎叶图(Stem-and-Leaf Plot),又称枝叶图,是由著名统计学家约翰·图基(John Tukey)在20世纪70年代提出的一种用于展示定量数据分布的图形工具。它属于探索性数据分析(EDA)的范畴,其巧妙之处在于既能像直方图一样展示数据的分布形状,又能保留所有原始数据点的精确数值,这使得茎叶图在初步数据分析中尤为实用。
核心结构与构建方法
茎叶图将每个数据点拆分为两个部分:茎(Stem)通常是数据点的高位数值(除最后一位数字以外的所有数字),叶(Leaf)总是数据点的最低位数值(最后一位数字)。茎和叶由一条垂直线分隔,所有茎在上到下按升序排列,叶在水平方向从左到右按升序排列在对应茎的旁边。
以一组考试成绩数据为例。第一步确定茎的范围:数据从62到99,十位数为茎,从6到9垂直列出。第二步将每个数据的个位数(叶)放置到对应十位数(茎)的右侧并排序。完成后茎叶图如下:茎6对应叶2、4、6、8;茎7对应叶1、3、5、6、6、8;茎8对应叶0、1、5、5、5、8;茎9对应叶2、3、5、9。原始数据可通过组合茎和叶精确恢复(如茎6叶2恢复为62,茎9叶9恢复为99)。
适用性与优缺点
茎叶图最适用于中等规模的定量数据集——数据点数量通常在15到150之间最佳。数据量过小时直方图更为简洁,数据量过大时茎叶图会因叶片太多而丧失可读性。当数据范围跨度过大或需要更高精度时,可通过将茎划分为更细的区间(如每个十位数分为两个或五个子区间)来构建扩展茎叶图。
茎叶图的主要优点包括:保留所有原始数据信息无信息损失;同时展示分布的集中趋势、离散程度和偏态方向;构建过程简单快捷适合初步数据探索;便于识别中位数、四分位数和众数等关键统计量。例如从示例数据中可直观读取中位数位于茎8叶1的位置(即81),数据呈轻微负偏(茎9叶片较多表明高分段集中),分布大致均匀无显著离群点。
茎叶图的主要局限在于:不适用于非数值型数据;对于极大数据集或精确到多位小数的连续数据不够高效;在统计软件普及的今天其手工构造的优势减弱,但作为理解数据分布概念的教学工具仍有重要价值。茎叶图与直方图、箱线图和点图共同构成了探索性数据分析的图形工具箱,在描述统计学和数据可视化中占据独特地位。