ARTICLE
直方图
直方图 (Histogram) 直方图 (Histogram) 是统计学中可视化数值型数据分布的基础图形工具。它将数据分组到连续、不重叠的区间(称为"箱"或 bin),以矩形条高度表示各区间内数据出现的频率或频数,是探索性数据分析 (Exploratory Data Analysis, EDA)的核心手段。直方图由 Karl Pearson 于 1895 年
直方图 (Histogram)
直方图 (Histogram) 是统计学中可视化数值型数据分布的基础图形工具。它将数据分组到连续、不重叠的区间(称为"箱"或 bin),以矩形条高度表示各区间内数据出现的频率或频数,是探索性数据分析 (Exploratory Data Analysis, EDA)的核心手段。直方图由 Karl Pearson 于 1895 年首次引入,至今仍是描述统计中使用最广泛的图表之一。
直方图能揭示数据集的四个关键特征:
- 中心趋势:数据的典型值或集中区域,对应众数的直观位置。
- 离散程度:数据分布的广度与变异性,反映标准差与方差的大小。
- 分布形状:对称性、偏斜方向、峰态数量,是判断分布类型的第一手依据。
- 潜在异常值 (Outliers):远离主体的极端观测,可能预示测量误差或重要极端事件。
直方图与条形图 (Bar Chart)有本质区别:直方图展示连续型变量(或可视为连续的离散变量)的分布,x 轴为连续数值标度,矩形条之间无间隙,条的面积(而非仅高度)承载信息;条形图则用于比较分类变量,x 轴项目互不连续,条间有固定间隙。
构建步骤
设数据集 , 为观测总数。
步骤 1:确定范围。 计算 。
步骤 2:确定箱数 。 这是最关键且最具主观性的步骤。箱数过少会掩盖真实形状(过度平滑),过多则引入噪声(过度拟合)。常用法则:
- 平方根法:,最简单常用。
- 斯特奇斯公式 (Sturges):,适用于近似正态分布的数据。
- 莱斯法则 (Rice):。
- 弗里德曼-戴康尼斯法则 (Freedman-Diaconis):基于四分位数间距 (IQR),对异常值稳健,直接计算箱宽: \[ h = 2 \frac{\text{IQR}(X)}{n^{1/3}}, \quad k = \frac{R}{h} \]
实践中,通常以多种法则为参考,结合数据特征与展示目的灵活调整,过少或过多的箱都会扭曲对分布的认知。
步骤 3:确定箱宽。 ,通常取整为"好看"的数值(如 0.5、1、5、10 的倍数)以便阅读。标准直方图中所有箱宽必须保持一致,否则面积将与频率不成比例,导致视觉误导。
步骤 4:创建频率表。 界定箱边界(如 ),统计落入各箱的观测数。边界约定(左闭右开或左开右闭)需统一,生成频率分布表。
步骤 5:绘图。 在笛卡尔坐标系中,x 轴为取值区间,y 轴为频率(或密度),各箱上方绘制高度对应频率的矩形,条块相邻无间隙。
解读方法
分布形状
- 对称分布:左右大致对称,呈钟形。典型为正态分布 (Normal Distribution),此时均值、中位数、众数近似重合。
- 偏态分布: \begin{itemize}
- 右偏(正偏):长尾向右延伸,大部分数据集中于左侧。如个人收入、房价、企业规模等分布,满足 均值 > 中位数 > 众数。右偏数据常通过对数变换使其更接近对称。
- 左偏(负偏):长尾向左延伸。如简单考试中多数高分、少数低分的分数分布,或寿命数据中的死亡年龄(在低龄有长尾时),满足 均值 < 中位数 < 众数。
\item 峰态:
- 单峰:一个主峰值,数据有一个最常见的取值区间,是最普遍的形态。
- 双峰:两个峰值,强烈暗示数据来自两个不同总体(如混合男女性别的身高数据,或两个不同生产批次的零件尺寸)。发现双峰时通常应追溯数据来源,考虑分层分析。
- 多峰:两个以上峰值,暗示多个子总体的混合。
- 均匀分布:无明显峰值,各区频率大致相等,图形平坦。
\end{itemize}
离散程度与异常值
直方图的横向延展直接反映离散程度:狭窄图形表示标准差和方差较小,数据高度集中;宽阔图形表示变异性大。远离主体的孤立条块可能代表异常值,需逐一审视——它们可能是数据录入错误、测量仪器故障,也可能是具有重要经济意义的"黑天鹅"事件。
直方图类型
按 y 轴标度区分:
- 频率直方图:y 轴为落入各箱的原始计数(绝对频率),最直观常见。缺点是无法直接比较样本量不同的数据集。
- 相对频率直方图:y 轴为比例(频率 ),条块高度之和为 1。适合比较不同样本量的分布形态。
- 密度直方图:y 轴经调整使所有条块总面积等于 1。各条高度为: \[ \text{密度} = \frac{\text{相对频率}}{\text{箱宽}} = \frac{\text{频率} / n}{h} \] 密度直方图的核心优势在于它直接估计概率密度函数 (PDF)。当样本量增大且箱宽缩小时,密度直方图的顶边轮廓收敛于真实密度曲线。这一性质使之成为核密度估计 (Kernel Density Estimation)等非参数方法的基础。
经济与金融应用
- 金融学:分析股票或投资组合的收益率分布,评估风险特征。若收益率呈"肥尾 (Fat tails)"(尾部厚于正态分布,极端涨跌概率更高,对应高峰度 (Kurtosis)),则基于正态假设的 VaR 模型将系统性低估尾部风险。2008 年金融危机后,监管机构日益强调通过直方图等工具直观审视收益分布。
- 经济学:研究收入或财富分配。收入直方图通常呈显著右偏——少数人拥有极高收入,大多数人聚集在中低收入区间——这是理解基尼系数与收入不平等的出发点。跨时期或跨国比较收入直方图可揭示分配结构的演变。
- 计量经济学:回归分析后检验残差 (Residuals)是否满足正态性假设是标准诊断步骤。残差直方图的对称性与钟形程度可直观判断模型是否适配;严重偏斜或多峰的残差分布通常意味着遗漏变量、模型设定错误或异方差性等需要修正的问题。
- 劳动经济学:工资分布直方图常用于识别最低工资政策的"截断效应"——在最低工资线附近出现频率堆积,而在其下方几乎无观测。
常见误区与注意事项
- 箱宽不一致:非等宽箱会导致面积与频率不成比例,严重误导读者。若必须使用非等宽箱,y 轴必须采用密度标度以确保面积正确。
- 箱数选择随意:建议尝试多种箱数并比较图形的稳健性。同一数据在不同箱数下可能呈现截然不同的"故事"。
- 忽略边界效应:箱边界位置的变化(如从 变为 )可能显著改变图形外观,这称为"箱偏移敏感性"。
- 对样本量过于自信:小样本下的直方图形状不稳定,难以可靠推断总体分布特征。通常建议 以上再使用直方图。