ARTICLE

众数

众数 (Mode) 众数 (Mode) 是描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量（如算术平均数和中位数）相比，众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data)，也可以用于分类型数据 (Categorical

浏览 115 更新 2025-10-26

众数 (Mode)

众数 (Mode) 是描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量（如算术平均数和中位数）相比，众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data)，也可以用于分类型数据 (Categorical Data)。

一个数据集可能有一个众数，称为 单峰分布 (Unimodal)；可能有两个众数，称为 双峰分布 (Bimodal)；可能有多个众数，称为 多峰分布 (Multimodal)；也可能没有众数，即所有数值出现的频率都相同。

众数的计算方法

众数的计算方法根据数据是未分组还是已分组而有所不同。

1. 未分组数据 (Ungrouped Data)

对于未分组的原始数据，众数是最容易确定的集中趋势度量。只需计算每个数值或类别出现的次数（即频率)，频率最高的那个就是众数。

示例 1: 单峰数值数据 数据集：{2, 3, 5, 5, 6, 6, 6, 7, 9} 在这个数据集中，数字 6 出现了 3 次，比其他任何数字都多。因此，该数据集的众数是 6。

示例 2: 双峰数值数据 数据集：{1, 2, 2, 2, 4, 5, 7, 7, 7, 8} 在这个数据集中，数字 2 和 7 都出现了 3 次，且这个频率是最高的。因此，该数据集有两个众数：2 和 7。这是一个双峰数据集。

示例 3: 无众数的数据 数据集：{10, 20, 30, 40, 50, 60} 在这个数据集中，每个数字都只出现了一次。由于没有一个数值的出现频率高于其他数值，所以该数据集没有众数。

示例 4: 分类型数据 假设一项调查询问学生最喜欢的交通工具，得到以下结果： {自行车, 公交车, 地铁, 公交车, 地铁, 地铁, 步行, 自行车, 地铁} 通过计数，我们发现“地铁”出现了 4 次，频率最高。因此，该数据集的众数是“地铁”。这是平均数和中位数无法处理的情况。

2. 分组数据 (Grouped Data)

当数据以频率分布表 (Frequency Distribution Table) 的形式呈现时，我们首先要找到 众数组 (Modal Class)，即频率最高的那个组。然后，可以使用以下公式来估算众数的精确值：

\text{Mode} \approx L + \frac{d_1}{d_1 + d_2} \times w

其中：

$L$ 是众数组的下限 (Lower boundary of the modal class)。
$f_m$ 是众数组的频率。
$f_{m-1}$ 是众数组前一个组的频率。
$f_{m+1}$ 是众数组后一个组的频率。
$d_1 = f_m - f_{m-1}$ ，即众数组频率与前一组频率之差。
$d_2 = f_m - f_{m+1}$ ，即众数组频率与后一组频率之差。
$w$ 是众数组的组距 (Width of the modal class interval)。

这个公式的逻辑是，众数在众数组内的具体位置，取决于其相邻两组的频率大小。如果前一组的频率更低（意味着众数组的频率优势更大），则众数会更偏向该组边界；反之亦然。

示例: 计算分组数据的众数 假设某班级学生的身高数据如下表所示：

确定众数组: 频率最高的组是“160-165”，其频率为 12。所以这是众数组。
确定各参数值:
$L = 160$ (众数组的下限)
$f_m = 12$ (众数组的频率)
$f_{m-1} = 8$ (前一组的频率)
$f_{m+1} = 9$ (后一组的频率)
$w = 165 - 160 = 5$ (组距)
计算 $d_1$ 和 $d_2$ :
$d_1 = f_m - f_{m-1} = 12 - 8 = 4$
$d_2 = f_m - f_{m+1} = 12 - 9 = 3$
代入公式计算众数:

\text{Mode} \approx 160 + \frac{4}{4 + 3} \times 5 = 160 + \frac{4}{7} \times 5 \approx 160 + 2.86 = 162.86

因此，该班级学生身高的众数估计约为 162.86 cm。

众数的优缺点

优点:

易于理解和计算：对于未分组数据，众数的概念直观，计算简单。
适用于所有数据类型：是唯一可用于名义数据 (Nominal Data) 等分类型数据的集中趋势度量。
不受异常值 (Outliers) 影响：数据集中的极端值不会改变众数的值，这使其在存在异常值时比算术平均数更稳健。
代表最典型值：众数描述了数据集中最常见、最“典型”的情况，在某些情境下比平均值更有意义（如服装店老板关心卖得最多的尺码）。

缺点:

不唯一或不存在：数据集可能没有众数，也可能有多个众数，这使得解释变得复杂。
不稳定性：对于分组数据，众数的计算结果会受到分组方式（如组距的选择）的显著影响。
信息利用不充分：众数的计算只考虑了频率最高的值，忽略了数据集中其他所有值的信息。
数学性质较差：众数不便于进行代数运算，因此在更高级的统计推断 (Statistical Inference) 中应用较少。

众数、中位数与平均数的关系

在分析数据分布的形态时，众数 (Mode)、中位数 (Median) 和算术平均数 (Mean) 之间的关系尤为重要。

在完全对称的 \textbf{对称分布} (Symmetrical Distribution)，如正态分布中，三者相等。

\text{Mean} = \text{Median} = \text{Mode}

在 \textbf{正偏态分布} (Positively Skewed Distribution) 或右偏分布中，数据分布的“长尾”在右侧。异常的高值会将平均数向右拉动。

\text{Mode} < \text{Median} < \text{Mean}

在 \textbf{负偏态分布} (Negatively Skewed Distribution) 或左偏分布中，数据分布的“长尾”在左侧。异常的低值会将平均数向左拉动。

\text{Mean} < \text{Median} < \text{Mode}

理解这三者之间的关系，有助于我们仅通过这几个统计量就能大致判断出数据集的分布形状，这是数据分析中的一项重要技能。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。