知经 KNOWECON · 卓越的经济金融统计数学学习平台

众数

# 众数 (Mode)

众数 (Mode) 是{{{描述统计学}}}中一个重要的{{{集中趋势}}}度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量(如{{{算术平均数}}}和{{{中位数}}})相比,众数的一个独特优势在于它既可以用于{{{数值型数据}}} (Numerical Data),也可以用于{{{分类型数据}}} (Categorical Data)。

一个数据集可能有一个众数,称为 单峰分布 (Unimodal);可能有两个众数,称为 双峰分布 (Bimodal);可能有多个众数,称为 多峰分布 (Multimodal);也可能没有众数,即所有数值出现的频率都相同。

## 众数的计算方法

众数的计算方法根据数据是未分组还是已分组而有所不同。

### 1. 未分组数据 (Ungrouped Data)

对于未分组的原始数据,众数是最容易确定的集中趋势度量。只需计算每个数值或类别出现的次数(即{{{频率}}}),频率最高的那个就是众数。

示例 1: 单峰数值数据 数据集:{2, 3, 5, 5, 6, 6, 6, 7, 9} 在这个数据集中,数字 6 出现了 3 次,比其他任何数字都多。因此,该数据集的众数是 6。

示例 2: 双峰数值数据 数据集:{1, 2, 2, 2, 4, 5, 7, 7, 7, 8} 在这个数据集中,数字 2 和 7 都出现了 3 次,且这个频率是最高的。因此,该数据集有两个众数:2 和 7。这是一个双峰数据集。

示例 3: 无众数的数据 数据集:{10, 20, 30, 40, 50, 60} 在这个数据集中,每个数字都只出现了一次。由于没有一个数值的出现频率高于其他数值,所以该数据集没有众数。

示例 4: 分类型数据 假设一项调查询问学生最喜欢的交通工具,得到以下结果: {自行车, 公交车, 地铁, 公交车, 地铁, 地铁, 步行, 自行车, 地铁} 通过计数,我们发现“地铁”出现了 4 次,频率最高。因此,该数据集的众数是“地铁”。这是{{{平均数}}}和{{{中位数}}}无法处理的情况。

### 2. 分组数据 (Grouped Data)

当数据以{{{频率分布表}}} (Frequency Distribution Table) 的形式呈现时,我们首先要找到 众数组 (Modal Class),即频率最高的那个组。然后,可以使用以下公式来估算众数的精确值:

$$ \text{Mode} \approx L + \frac{d_1}{d_1 + d_2} \times w $$

其中: * $L$ 是众数组的下限 (Lower boundary of the modal class)。 * $f_m$ 是众数组的频率。 * $f_{m-1}$ 是众数组前一个组的频率。 * $f_{m+1}$ 是众数组后一个组的频率。 * $d_1 = f_m - f_{m-1}$ ,即众数组频率与前一组频率之差。 * $d_2 = f_m - f_{m+1}$ ,即众数组频率与后一组频率之差。 * $w$ 是众数组的组距 (Width of the modal class interval)。

这个公式的逻辑是,众数在众数组内的具体位置,取决于其相邻两组的频率大小。如果前一组的频率更低(意味着众数组的频率优势更大),则众数会更偏向该组边界;反之亦然。

示例: 计算分组数据的众数 假设某班级学生的身高数据如下表所示:

| 身高 (cm) | 频率 (学生人数) | | :---: | :---: | | 150-155 | 5 | | 155-160 | 8 | | 160-165 | 12 | | 165-170 | 9 | | 170-175 | 4 |

1. 确定众数组: 频率最高的组是“160-165”,其频率为 12。所以这是众数组。 2. 确定各参数值: * $L = 160$ (众数组的下限) * $f_m = 12$ (众数组的频率) * $f_{m-1} = 8$ (前一组的频率) * $f_{m+1} = 9$ (后一组的频率) * $w = 165 - 160 = 5$ (组距) 3. 计算 $d_1$ 和 $d_2$: * $d_1 = f_m - f_{m-1} = 12 - 8 = 4$ * $d_2 = f_m - f_{m+1} = 12 - 9 = 3$ 4. 代入公式计算众数: $$ \text{Mode} \approx 160 + \frac{4}{4 + 3} \times 5 = 160 + \frac{4}{7} \times 5 \approx 160 + 2.86 = 162.86 $$ 因此,该班级学生身高的众数估计约为 162.86 cm。

## 众数的优缺点

优点: 1. 易于理解和计算:对于未分组数据,众数的概念直观,计算简单。 2. 适用于所有数据类型:是唯一可用于{{{名义数据}}} (Nominal Data) 等分类型数据的集中趋势度量。 3. 不受{{{异常值}}} (Outliers) 影响:数据集中的极端值不会改变众数的值,这使其在存在异常值时比{{{算术平均数}}}更稳健。 4. 代表最典型值:众数描述了数据集中最常见、最“典型”的情况,在某些情境下比平均值更有意义(如服装店老板关心卖得最多的尺码)。

缺点: 1. 不唯一或不存在:数据集可能没有众数,也可能有多个众数,这使得解释变得复杂。 2. 不稳定性:对于分组数据,众数的计算结果会受到分组方式(如组距的选择)的显著影响。 3. 信息利用不充分:众数的计算只考虑了频率最高的值,忽略了数据集中其他所有值的信息。 4. 数学性质较差:众数不便于进行代数运算,因此在更高级的{{{统计推断}}} (Statistical Inference) 中应用较少。

## 众数、中位数与平均数的关系

在分析数据{{{分布}}}的形态时,{{{众数}}} (Mode)、{{{中位数}}} (Median) 和{{{算术平均数}}} (Mean) 之间的关系尤为重要。

* 在完全对称的 {{{对称分布}}} (Symmetrical Distribution),如{{{正态分布}}}中,三者相等。 $$ \text{Mean} = \text{Median} = \text{Mode} $$ * 在 {{{正偏态分布}}} (Positively Skewed Distribution) 或右偏分布中,数据分布的“长尾”在右侧。异常的高值会将平均数向右拉动。 $$ \text{Mode} < \text{Median} < \text{Mean} $$ * 在 {{{负偏态分布}}} (Negatively Skewed Distribution) 或左偏分布中,数据分布的“长尾”在左侧。异常的低值会将平均数向左拉动。 $$ \text{Mean} < \text{Median} < \text{Mode} $$

理解这三者之间的关系,有助于我们仅通过这几个统计量就能大致判断出数据集的分布形状,这是数据分析中的一项重要技能。