ARTICLE
histogram
直方图 (Histogram) 直方图 (Histogram) 是一种用于展示数值型数据分布情况的统计图形。它将数据的取值范围划分为若干个连续的区间(称为 组 或 箱子,Bins),并以每个区间内数据点的个数(频数)或所占比例(频率)为高度绘制一系列相邻的矩形条。直方图是探索性数据分析 (Exploratory Data Analysis, EDA) 中最基
直方图 (Histogram)
直方图 (Histogram) 是一种用于展示数值型数据分布情况的统计图形。它将数据的取值范围划分为若干个连续的区间(称为 组 或 箱子,Bins),并以每个区间内数据点的个数(频数)或所占比例(频率)为高度绘制一系列相邻的矩形条。直方图是探索性数据分析 (Exploratory Data Analysis, EDA) 中最基础、最常用的工具之一,能够直观地揭示数据的集中趋势、离散程度、偏态形状以及是否存在异常值或多峰分布等特征。
直方图的构建方法
绘制一幅直方图需要确定两个关键要素:分组边界 (Bin Boundaries) 和 纵轴刻度 (Vertical Scale)。
确定组数与组距
设样本数据为 ,其最小值为 ,最大值为 。将数据的取值范围 划分为 个连续的、互不相交的子区间(组)。每个区间的宽度称为 组距 (Bin Width),记为 。组数 与组距 的选择直接影响直方图的信息呈现效果:组数过少会掩盖数据分布的细节,组数过多则会引入过多噪声。常用的经验规则包括:
- Sturges 规则:。该规则假设数据近似服从正态分布,在样本量适中时效果较好。
- Freedman-Diaconis 规则:,其中 IQR 为数据的四分位距。该方法对异常值具有稳健性,适用于非正态分布数据。
- Scott 规则:,其中 为样本标准差。该规则以最小化均方积分误差 (MISE) 为目标。
在实际应用中,可尝试多种分组方案并选择最能揭示数据结构特征的直方图。
频数直方图与频率直方图
直方图的纵轴可以表示不同的统计量:
- 频数直方图 (Frequency Histogram):纵轴表示每个区间内数据点的个数 。第 个矩形的面积为 ,所有矩形的面积之和等于样本总量 。
- 频率直方图 (Relative Frequency Histogram):纵轴表示每个区间内数据点的比例 。所有矩形的面积之和等于 1。
- 密度直方图 (Density Histogram):纵轴表示概率密度的估计值,即 。此时所有矩形的面积之和等于 1,且密度直方图可作为总体概率密度函数 (PDF) 的非参数估计——即直方图估计。
直方图的解读要点
形状 (Shape)
直方图的整体形态可以揭示数据分布的特征:
- 对称分布 (Symmetric):直方图左右大致对称,常见于正态分布或t分布。
- 左偏分布 (Left-skewed / Negatively Skewed):左侧尾部较长,均值小于中位数,常见于收入分配等右有上界的数据。
- 右偏分布 (Right-skewed / Positively Skewed):右侧尾部较长,均值大于中位数,常见于房价、股票收益率等有下界的数据。
- 单峰 (Unimodal) 与 多峰 (Multimodal):一个明显的峰值表明数据集中在一个中心区域;多个峰值则暗示数据可能来自不同的子群体,需要进一步分层分析。
- 厚尾 (Heavy Tails):直方图两端尾部较厚,表明极端值出现概率高于正态分布。
中心位置 (Center) 与散布 (Spread)
直方图可以直观地定位数据的中心(如均值或中位数的大致位置)以及数据的离散程度(如极差和方差的大小)。
异常值 (Outliers)
如果直方图中出现孤立于主体数据分布之外的矩形条,这可能指示数据中存在异常值,需要排查数据采集、记录或编码过程中的错误。
直方图与相关图形的比较
直方图与条形图
初学者常混淆直方图与条形图 (Bar Chart)。两者的本质区别在于:
- 数据类型:条形图适用于分类数据 (Categorical Data) 或定序数据 (Ordinal Data),各条形之间有空隙;直方图适用于数值型数据 (Numerical Data),各矩形之间紧密相连,不留空隙。
- 坐标轴含义:条形图的横轴表示类别,纵轴表示计数或比例,类别顺序可以任意调换;直方图的横轴表示数值变量的取值范围,具有天然的数学顺序。
- 面积意义:直方图中矩形面积具有统计意义(代表频数或密度),而条形图中仅高度有意义。
直方图与核密度估计图
核密度估计 (Kernel Density Estimation, KDE) 可以看作直方图的平滑版本。KDE 使用连续的核函数(如高斯核)对数据进行平滑,避免了直方图因组边界选择而导致的"跳跃感"。但 KDE 同样需要选择带宽 (Bandwidth) 参数,其作用类似于直方图的组距。
直方图与茎叶图
茎叶图 (Stem-and-Leaf Display) 可以视为一种保留原始数据精度的"文本版直方图"。它在展示分布形状的同时保留了每个观测值的数值,适合小样本数据的展示;而直方图更适合大样本数据的可视化。
直方图的局限性
- 对分组参数敏感:不同的组距或起始点可能导致截然不同的视觉印象,产生误导性的解读。这是直方图最广为人知的缺陷。
- 不适合高维数据:直方图仅能展示单个变量的分布。对于多个变量的联合分布,需要借助散点图矩阵 (Scatter Plot Matrix) 或二维直方图 (2D Histogram / Heatmap)。
- 小样本表现不佳:当样本量较小时,直方图的形状对个别数据点非常敏感,难以可靠地反映总体分布特征。
直方图的历史
直方图的概念最早可追溯到 17 世纪,但现代直方图的命名与普及归功于英国统计学家 卡尔·皮尔逊 (Karl Pearson),他在 1895 年的一系列讲座中首次使用了 "histogram" 一词。皮尔逊在设计直方图时,旨在替代传统的统计表格,使分布特征一目了然。随着计算机图形学的发展,直方图已成为数据分析软件和编程语言(如 R 语言和 Python 的 Matplotlib 库)中最基本的绘图功能之一。
应用实例
以下是一个简单的应用实例。假设某班级 50 名学生的期末考试成绩(百分制)数据如下:
若采用 Scott 规则计算组距(假设 ),则 ,可取组距 10。从 55 分起始,得到以下分组:
- :4 人
- :8 人
- :20 人
- :14 人
- :4 人
该直方图呈近似对称的单峰分布,峰值出现在 75--85 分段,表明大多数学生的成绩集中在中等偏上水平,分布较为均衡。
总结
直方图是统计学中最基本、最直观的数据可视化工具之一。它以简洁的方式揭示了数据的分布特征,是进行描述性统计分析和后续推断性统计分析的重要前提。理解直方图的构建原理、解读方法以及其局限性,有助于数据分析者从数据中提取有价值的信息,避免因可视化参数选择不当而产生的误导。