知经 KNOWECON · 卓越的经济金融统计数学学习平台

直方图

# 直方图 (Histogram)

直方图 (Histogram) 是一种在{{{统计学}}}中常用的图形表示方法,用于可视化数值型{{{数据}}}的{{{分布}}}情况。它是一种条形图的特殊形式,其将数据分组到连续的、不重叠的区间(称为“箱”或“bin”)内,并绘制每个区间中数据出现的{{{频率}}}或频数。直方图是{{{探索性数据分析 (Exploratory Data Analysis, EDA)}}}中一种基础且强大的工具。

直方图的核心作用是揭示数据集的以下几个关键特征:

1. 数据的中心趋势:数据集中在哪里,即数据的典型值。 2. 数据的变异性或离散程度:数据的分布范围有多广。 3. 数据的分布形状:分布是对称的还是偏斜的,是单峰、双峰还是多峰。 4. 潜在的{{{异常值 (Outliers)}}}:是否存在远离数据主体的极端值。

需要特别注意的是,直方图与{{{条形图 (Bar Chart)}}}有本质区别。直方图用于展示 连续型变量 或可被视为连续的 离散型变量 的分布,其x轴是连续的数值标度;而条形图则用于比较 分类变量 的数量,其x轴上的项目是相互独立的类别。

## 直方图的构建

构建一个直方图通常遵循以下步骤。假设我们有一组数值型数据 $X = \{x_1, x_2, \dots, x_n\}$,其中 $n$ 是观测值的总数。

步骤 1:确定数据的范围 (Range) 计算数据集的最大值 ($X_{\max}$) 和最小值 ($X_{\min}$)。范围 $R = X_{\max} - X_{\min}$。

步骤 2:确定箱数 (Number of Bins) 选择将数据分割成的区间数量,即“箱”的数量,用 $k$ 表示。这是构建直方图中最关键且带有一定主观性的步骤。箱数太少会掩盖分布的真实形状(过度平滑),箱数太多则会产生过多噪声,使基本模式难以辨认(过度拟合)。

常用的确定箱数 $k$ 的经验法则包括:

* 平方根法 (Square-root choice):一个简单且常用的方法。 $$ k = \sqrt{n} $$ * 斯特奇斯公式 (Sturges' formula):适用于数据大致呈{{{正态分布}}}的情况。 $$ k = 1 + \log_2(n) $$ * 莱斯法则 (Rice Rule): $$ k = 2n^{1/3} $$ * 弗里德曼-戴康尼斯法则 (Freedman-Diaconis rule):该方法基于{{{四分位数间距 (Interquartile Range, IQR)}}},对异常值不敏感,较为稳健。它直接计算箱宽 (Bin Width, $h$)。 $$ h = 2 \frac{\text{IQR}(X)}{n^{1/3}} $$ 然后通过 $k = \frac{R}{h}$ 得到箱数。

步骤 3:确定箱宽 (Bin Width) 一旦确定了箱数 $k$,箱宽 $h$ 通常被设定为均等宽度: $$ h \approx \frac{\text{范围 (R)}}{k} $$ 为了方便读取和解释,通常会将计算出的箱宽取整为一个方便的数值。所有箱的宽度在标准直方图中应保持一致。

步骤 4:创建频率表 确定每个箱的边界(例如,第一个箱为 $[X_{\min}, X_{\min}+h)$,第二个为 $[X_{\min}+h, X_{\min}+2h)$,以此类推),然后统计落入每个箱内的数据点数量。这个过程会生成一个{{{频率分布表}}}。

步骤 5:绘制图形 在笛卡尔坐标系中,x轴表示数据的取值区间(即各个箱),y轴表示频率。在每个箱的上方绘制一个矩形,其高度代表该箱的频率。因为x轴代表连续的区间,所以所有矩形条块都是彼此相邻的,中间没有间隙。

## 如何解读直方图

通过观察直方图的形状,我们可以对数据的底层分布有一个直观的认识。

### 1. 分布形状 (Shape)

* 对称分布 (Symmetric):图形左右大致对称,类似一个钟形。最典型的例子是{{{正态分布 (Normal Distribution)}}}。在这种情况下,数据的{{{均值 (Mean)}}}、{{{中位数 (Median)}}}和{{{众数 (Mode)}}}大致相等。 * 偏态分布 (Skewed): * 右偏态 (Right-skewed)正偏态 (Positively skewed):图形有一个向右延伸的长尾。大部分数据集中在左侧,但有少数较大的值拉高了均值。例如,个人收入分布通常是右偏的。此时,一般有 均值 > 中位数 > 众数 的关系。 * 左偏态 (Left-skewed)负偏态 (Negatively skewed):图形有一个向左延伸的长尾。大部分数据集中在右侧,但有少数较小的值拉低了均值。例如,在一个非常简单的考试中,大多数学生得分很高,少数学生得分很低,分数分布就是左偏的。此时,一般有 均值 < 中位数 < 众数 的关系。 * 峰态 (Modality): * 单峰分布 (Unimodal):只有一个明显的峰值,表示数据有一个最常见的取值区间。 * 双峰分布 (Bimodal):有两个明显的峰值。这通常暗示着数据可能来自两个不同的总体。例如,成年人的身高数据如果混合了男性和女性,可能会呈现双峰分布。 * 多峰分布 (Multimodal):有两个以上的峰值。 * 均匀分布 (Uniform):没有明显的峰值,所有区间的频率大致相等,图形看起来相对平坦。

### 2. 集中趋势 (Central Tendency)

直方图的峰值所在位置指示了数据的{{{众数}}}。对于对称分布,数据的中心({{{均值}}}和{{{中位数}}})也位于峰值附近。对于偏态分布,可以通过观察偏斜方向来推断均值和中位数的大致关系。

### 3. 离散程度 (Dispersion)

直方图的横向延展范围反映了数据的{{{离散程度}}}或{{{变异性}}}。 * 一个 狭窄 的直方图表示数据点彼此非常接近,{{{标准差 (Standard Deviation)}}}和{{{方差 (Variance)}}}较小。 * 一个 宽阔 的直方图表示数据点分布范围很广,具有较大的标准差和方差。

### 4. 异常值 (Outliers)

在直方图上,远离主体数据分布的、孤立的条块可能代表了{{{异常值}}}。这些值在数据分析中需要特别关注,因为它们可能是测量错误,也可能代表了重要的真实极端事件。

## 直方图的类型

根据y轴的标度不同,直方图可以分为几种类型:

* 频率直方图 (Frequency Histogram):最常见的形式,y轴表示落入每个箱的原始数据点数量(绝对频率)。 * 相对频率直方图 (Relative Frequency Histogram):y轴表示每个箱中数据点数量占总数量的比例(`频率 / n`)。所有条块的高度之和为 1。这种形式便于比较不同样本量的数据集。 * 密度直方图 (Density Histogram):y轴被调整,使得 所有条块的总面积等于 1。每个条块的高度计算公式为: $$ \text{密度} = \frac{\text{相对频率}}{\text{箱宽}} = \frac{\text{频率} / n}{h} $$ 密度直方图的一个重要特性是,它直接对应于{{{概率密度函数 (Probability Density Function, PDF)}}}的图形化估计。这使得它在概率论和高级统计推断中尤为重要。当样本量足够大且箱宽足够小时,密度直方图的轮廓会逼近数据的真实概率密度曲线。

## 在经济与金融中的应用

* 金融学:分析股票或投资组合的{{{收益率}}}分布。通过收益率的直方图,投资者可以评估其{{{风险}}}。例如,如果收益率分布呈现“{{{肥尾 (Fat tails)}}}”(即尾部比正态分布更厚,意味着极端事件的发生概率更高,也称为高{{{峰度 (Kurtosis)}}}),则意味着该资产的风险可能被传统模型低估。 * 经济学:研究收入或财富的分配。一个国家收入分布的直方图通常是右偏的,显示少数人拥有极高收入,而大多数人收入较低。这对于理解{{{收入不平等}}}至关重要。 * 计量经济学:在进行{{{回归分析}}}后,检验模型{{{残差 (Residuals)}}}是否符合正态分布的假设是标准步骤之一。绘制残差的直方图是一种直观的检验方法。