ARTICLE
众数
众数 (Mode) 众数 (Mode) 是描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量(如算术平均数和中位数)相比,众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data),也可以用于分类型数据 (Categorical
众数 (Mode)
众数 (Mode) 是描述统计学中一个重要的集中趋势度量 (Measure of Central Tendency)。它被定义为一个数据集中出现频率最高的数值或类别。与其他集中趋势度量(如算术平均数和中位数)相比,众数的一个独特优势在于它既可以用于数值型数据 (Numerical Data),也可以用于分类型数据 (Categorical Data)。
一个数据集可能有一个众数,称为 单峰分布 (Unimodal);可能有两个众数,称为 双峰分布 (Bimodal);可能有多个众数,称为 多峰分布 (Multimodal);也可能没有众数,即所有数值出现的频率都相同。
众数的计算方法
众数的计算方法根据数据是未分组还是已分组而有所不同。
1. 未分组数据 (Ungrouped Data)
对于未分组的原始数据,众数是最容易确定的集中趋势度量。只需计算每个数值或类别出现的次数(即频率),频率最高的那个就是众数。
示例 1: 单峰数值数据 数据集:{2, 3, 5, 5, 6, 6, 6, 7, 9} 在这个数据集中,数字 6 出现了 3 次,比其他任何数字都多。因此,该数据集的众数是 6。
示例 2: 双峰数值数据 数据集:{1, 2, 2, 2, 4, 5, 7, 7, 7, 8} 在这个数据集中,数字 2 和 7 都出现了 3 次,且这个频率是最高的。因此,该数据集有两个众数:2 和 7。这是一个双峰数据集。
示例 3: 无众数的数据 数据集:{10, 20, 30, 40, 50, 60} 在这个数据集中,每个数字都只出现了一次。由于没有一个数值的出现频率高于其他数值,所以该数据集没有众数。
示例 4: 分类型数据 假设一项调查询问学生最喜欢的交通工具,得到以下结果: {自行车, 公交车, 地铁, 公交车, 地铁, 地铁, 步行, 自行车, 地铁} 通过计数,我们发现“地铁”出现了 4 次,频率最高。因此,该数据集的众数是“地铁”。这是平均数和中位数无法处理的情况。
2. 分组数据 (Grouped Data)
当数据以频率分布表 (Frequency Distribution Table) 的形式呈现时,我们首先要找到 众数组 (Modal Class),即频率最高的那个组。然后,可以使用以下公式来估算众数的精确值:
其中:
- 是众数组的下限 (Lower boundary of the modal class)。
- 是众数组的频率。
- 是众数组前一个组的频率。
- 是众数组后一个组的频率。
- ,即众数组频率与前一组频率之差。
- ,即众数组频率与后一组频率之差。
- 是众数组的组距 (Width of the modal class interval)。
这个公式的逻辑是,众数在众数组内的具体位置,取决于其相邻两组的频率大小。如果前一组的频率更低(意味着众数组的频率优势更大),则众数会更偏向该组边界;反之亦然。
示例: 计算分组数据的众数 假设某班级学生的身高数据如下表所示:
- 确定众数组: 频率最高的组是“160-165”,其频率为 12。所以这是众数组。
- 确定各参数值:
- (众数组的下限)
- (众数组的频率)
- (前一组的频率)
- (后一组的频率)
- (组距)
- 计算 和 :
- 代入公式计算众数:
因此,该班级学生身高的众数估计约为 162.86 cm。
众数的优缺点
优点:
- 易于理解和计算:对于未分组数据,众数的概念直观,计算简单。
- 适用于所有数据类型:是唯一可用于名义数据 (Nominal Data) 等分类型数据的集中趋势度量。
- 不受异常值 (Outliers) 影响:数据集中的极端值不会改变众数的值,这使其在存在异常值时比算术平均数更稳健。
- 代表最典型值:众数描述了数据集中最常见、最“典型”的情况,在某些情境下比平均值更有意义(如服装店老板关心卖得最多的尺码)。
缺点:
- 不唯一或不存在:数据集可能没有众数,也可能有多个众数,这使得解释变得复杂。
- 不稳定性:对于分组数据,众数的计算结果会受到分组方式(如组距的选择)的显著影响。
- 信息利用不充分:众数的计算只考虑了频率最高的值,忽略了数据集中其他所有值的信息。
- 数学性质较差:众数不便于进行代数运算,因此在更高级的统计推断 (Statistical Inference) 中应用较少。
众数、中位数与平均数的关系
在分析数据分布的形态时,众数 (Mode)、中位数 (Median) 和算术平均数 (Mean) 之间的关系尤为重要。
- 在完全对称的 \textbf{对称分布} (Symmetrical Distribution),如正态分布中,三者相等。
- 在 \textbf{正偏态分布} (Positively Skewed Distribution) 或右偏分布中,数据分布的“长尾”在右侧。异常的高值会将平均数向右拉动。
- 在 \textbf{负偏态分布} (Negatively Skewed Distribution) 或左偏分布中,数据分布的“长尾”在左侧。异常的低值会将平均数向左拉动。
理解这三者之间的关系,有助于我们仅通过这几个统计量就能大致判断出数据集的分布形状,这是数据分析中的一项重要技能。