ARTICLE

众数

众数 (Mode) 众数 (Mode) 是描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量(如算术平均数和中位数)相比,众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data),也可以用于分类型数据 (Categorical

浏览 115 更新 2025-10-26

众数 (Mode)

众数 (Mode)描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量(如算术平均数中位数)相比,众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data),也可以用于分类型数据 (Categorical Data)。

一个数据集可能有一个众数,称为 单峰分布 (Unimodal);可能有两个众数,称为 双峰分布 (Bimodal);可能有多个众数,称为 多峰分布 (Multimodal);也可能没有众数,即所有数值出现的频率都相同。

众数的计算方法

众数的计算方法根据数据是未分组还是已分组而有所不同。

1. 未分组数据 (Ungrouped Data)

对于未分组的原始数据,众数是最容易确定的集中趋势度量。只需计算每个数值或类别出现的次数(即频率),频率最高的那个就是众数。

示例 1: 单峰数值数据 数据集:{2, 3, 5, 5, 6, 6, 6, 7, 9} 在这个数据集中,数字 6 出现了 3 次,比其他任何数字都多。因此,该数据集的众数是 6。

示例 2: 双峰数值数据 数据集:{1, 2, 2, 2, 4, 5, 7, 7, 7, 8} 在这个数据集中,数字 2 和 7 都出现了 3 次,且这个频率是最高的。因此,该数据集有两个众数:2 和 7。这是一个双峰数据集。

示例 3: 无众数的数据 数据集:{10, 20, 30, 40, 50, 60} 在这个数据集中,每个数字都只出现了一次。由于没有一个数值的出现频率高于其他数值,所以该数据集没有众数。

示例 4: 分类型数据 假设一项调查询问学生最喜欢的交通工具,得到以下结果: {自行车, 公交车, 地铁, 公交车, 地铁, 地铁, 步行, 自行车, 地铁} 通过计数,我们发现“地铁”出现了 4 次,频率最高。因此,该数据集的众数是“地铁”。这是平均数中位数无法处理的情况。

2. 分组数据 (Grouped Data)

当数据以频率分布表 (Frequency Distribution Table) 的形式呈现时,我们首先要找到 众数组 (Modal Class),即频率最高的那个组。然后,可以使用以下公式来估算众数的精确值:

ModeL+d1d1+d2×w\text{Mode} \approx L + \frac{d_1}{d_1 + d_2} \times w

其中:

  • LL 是众数组的下限 (Lower boundary of the modal class)。
  • fmf_m 是众数组的频率。
  • fm1f_{m-1} 是众数组前一个组的频率。
  • fm+1f_{m+1} 是众数组后一个组的频率。
  • d1=fmfm1d_1 = f_m - f_{m-1} ,即众数组频率与前一组频率之差。
  • d2=fmfm+1d_2 = f_m - f_{m+1} ,即众数组频率与后一组频率之差。
  • ww 是众数组的组距 (Width of the modal class interval)。

这个公式的逻辑是,众数在众数组内的具体位置,取决于其相邻两组的频率大小。如果前一组的频率更低(意味着众数组的频率优势更大),则众数会更偏向该组边界;反之亦然。

示例: 计算分组数据的众数 假设某班级学生的身高数据如下表所示:

  1. 确定众数组: 频率最高的组是“160-165”,其频率为 12。所以这是众数组。
  2. 确定各参数值:
  3. L=160L = 160 (众数组的下限)
  4. fm=12f_m = 12 (众数组的频率)
  5. fm1=8f_{m-1} = 8 (前一组的频率)
  6. fm+1=9f_{m+1} = 9 (后一组的频率)
  7. w=165160=5w = 165 - 160 = 5 (组距)
  8. 计算 d1d_1d2d_2:
  9. d1=fmfm1=128=4d_1 = f_m - f_{m-1} = 12 - 8 = 4
  10. d2=fmfm+1=129=3d_2 = f_m - f_{m+1} = 12 - 9 = 3
  11. 代入公式计算众数:
Mode160+44+3×5=160+47×5160+2.86=162.86\text{Mode} \approx 160 + \frac{4}{4 + 3} \times 5 = 160 + \frac{4}{7} \times 5 \approx 160 + 2.86 = 162.86

因此,该班级学生身高的众数估计约为 162.86 cm。

众数的优缺点

优点:

  1. 易于理解和计算:对于未分组数据,众数的概念直观,计算简单。
  2. 适用于所有数据类型:是唯一可用于名义数据 (Nominal Data) 等分类型数据的集中趋势度量。
  3. 不受异常值 (Outliers) 影响:数据集中的极端值不会改变众数的值,这使其在存在异常值时比算术平均数更稳健。
  4. 代表最典型值:众数描述了数据集中最常见、最“典型”的情况,在某些情境下比平均值更有意义(如服装店老板关心卖得最多的尺码)。

缺点:

  1. 不唯一或不存在:数据集可能没有众数,也可能有多个众数,这使得解释变得复杂。
  2. 不稳定性:对于分组数据,众数的计算结果会受到分组方式(如组距的选择)的显著影响。
  3. 信息利用不充分:众数的计算只考虑了频率最高的值,忽略了数据集中其他所有值的信息。
  4. 数学性质较差:众数不便于进行代数运算,因此在更高级的统计推断 (Statistical Inference) 中应用较少。

众数、中位数与平均数的关系

在分析数据分布的形态时,众数 (Mode)、中位数 (Median) 和算术平均数 (Mean) 之间的关系尤为重要。

Mean=Median=Mode\text{Mean} = \text{Median} = \text{Mode}
Mode<Median<Mean\text{Mode} < \text{Median} < \text{Mean}
Mean<Median<Mode\text{Mean} < \text{Median} < \text{Mode}

理解这三者之间的关系,有助于我们仅通过这几个统计量就能大致判断出数据集的分布形状,这是数据分析中的一项重要技能。