ARTICLE

样本众数

样本众数 (Sample Mode) 样本众数 (Sample Mode) 是从总体中抽取的样本中出现频率最高的观测值。作为众数在样本层面的对应概念,样本众数既是描述统计学中刻画样本集中趋势的直观工具,也可作为推断统计学中总体众数的一个估计量。与样本均值和样本中位数不同,样本众数对数据的测量尺度要求最低——它适用于名义数据、顺序数据及数值型数据,是唯一可处理

浏览 4 更新 2026-01-16

样本众数 (Sample Mode)

样本众数 (Sample Mode) 是从总体中抽取的样本中出现频率最高的观测值。作为众数在样本层面的对应概念,样本众数既是描述统计学中刻画样本集中趋势的直观工具,也可作为推断统计学中总体众数的一个估计量。与样本均值样本中位数不同,样本众数对数据的测量尺度要求最低——它适用于名义数据顺序数据数值型数据,是唯一可处理无顺序分类变量的集中趋势度量。

定义与计算

给定一个容量为 nn 的样本 {X1,X2,,Xn}\{X_1, X_2, \ldots, X_n\},样本众数定义为使得样本频率函数达到最大的取值。对于离散型数据或分类数据,寻找样本众数只需计算每个值或类别的频数,频数最高者即为样本众数。对于连续型数据,通常先构造频率分布表,以频数最高的组(众数组)的中值或由插值公式估算的值作为样本众数。

若样本中多个值同时达到最高频率,则样本为多峰的,可存在两个或更多样本众数。若所有观测值均出现一次,则样本众数不存在。

样本众数作为总体众数的估计量

在推断统计学的框架下,样本众数可视为总体众数 θ\theta 的一个估计量 θ^n\hat{\theta}_n。与样本均值不同,样本众数的统计性质较为复杂。

一致性:当总体分布是离散分布且众数唯一时,样本众数是总体众数的一个一致估计量。即当样本量 nn \to \infty 时,样本众数以概率收敛于总体众数。直观而言,随着样本量增大,每个可能取值的样本频率将依概率收敛于其真实概率(由大数定律保证),其中真实概率最大的那个取值最终将以最高频率出现。然而,对于连续分布,根据分组方式的不同,一致性的成立条件需更仔细地讨论。

有偏性:样本众数通常是总体众数的有偏估计量,在小样本下尤其明显。原因在于,样本频率只是真实概率的随机实现,当真实概率彼此接近时(例如两个最高概率的取值仅相差一个很小的量),样本众数可能在两者之间摆动,倾向于选择与真实众数不同的值。这种"误选"的概率不对称,导致了估计偏差。随着样本量的增大,偏差会逐渐减小,但收敛速度通常慢于样本均值对总体均值的收敛。

缺乏可加性与中心极限性质:与样本均值不同,样本众数不具备与总体参数的简单线性关系,也不适用中心极限定理。因此,无法像构造均值的置信区间那样方便地为样本众数构造渐近正态的置信区间。在实际应用中,常使用Bootstrap方法或其它非参数方法来评估样本众数的抽样变异性。

样本众数的标准误

设总体为含 KK 个类别的多项分布,各类别概率为 p1,p2,,pKp_1, p_2, \ldots, p_K。令 p(1)>p(2)p(K)p_{(1)} > p_{(2)} \ge \cdots \ge p_{(K)} 为从大到小排序后的概率,且假设 p(1)p_{(1)} 严格大于 p(2)p_{(2)}(即总体众数唯一)。记 nn 为样本容量,f(1)f_{(1)} 为样本中频率最高的那一类的样本比例。当 nn 较大时,f(1)f_{(1)} 近似服从正态分布:

n(f(1)p(1))N(0, p(1)(1p(1)))\sqrt{n}(f_{(1)} - p_{(1)}) \approx N\left(0, \ p_{(1)}(1 - p_{(1)})\right)

这提供了一个评估样本众数频率精度的近似依据。值得注意的是,即使该频率的估计精度较高——即样本中最常见类别的比例已较为精确——如果 p(1)p_{(1)}p(2)p_{(2)} 差距极小(接近多峰情形),对“哪一个是真正的众数”这一问题的统计推断仍然面临较大不确定性。因此,单独汇报样本频率而忽略其相邻频率的相对位置,可能给出误导性的结论。

应用与局限性

应用场景:样本众数在市场调查、消费者偏好分析、流行病学中具有重要地位。例如,在消费者品牌选择调查中,样本众数告诉我们最受欢迎的品牌;在疾病分型研究中,样本众数指示最常见的疾病亚型。这类场景中,均值和中位数往往没有实际意义。

局限性

  1. 信息损失严重:样本众数仅利用频率排序信息,丢弃了全部数值信息,因此不适合精细的定量推断。
  2. 不唯一性问题:双峰或多峰样本使得单一概括性统计量的意义大打折扣。
  3. 抽样变异性大:相较于样本均值,样本众数在不同样本间波动更大,稳定性较差。
  4. 理论工具匮乏:由于缺乏类似中心极限定理的强力渐近结果,基于样本众数的正式统计推断手段(如假设检验、置信区间)远不如基于样本均值的丰富。
  5. 与分组方式的依赖:对于连续数据,分组方式(组距、起始点)的改变可能导致样本众数发生显著变化,这与分组数据的处理方式高度相关。

因此,样本众数更适合作为探索性数据分析定性描述的工具,而非精确统计推断的首选。在需要严格推断的场合,研究者通常优先使用样本均值或样本中位数,仅在数据的测量尺度或研究目标使然时,才以样本众数作为核心统计量。

与样本均值、样本中位数的比较

在样本统计量的选择中,三种集中趋势度量各有其适用范围。样本均值对异常值敏感,但具备最优的数学性质(无偏性、最小方差、渐近正态性),是参数推断的首选。样本中位数对异常值稳健,适用于偏态分布或存在极端观测值的场合,且其渐近分布同样可用。样本众数则完全不依赖数值大小,仅依赖频率排序,这使得它在线性模型和最大似然估计等主流推断框架中难以直接嵌入。三种度量的选择应基于数据的测量层次、分布形态及研究问题的实质:对于可量化的对称数据应优先选择均值;对于有偏或含离群值的数据应优先选择中位数;对于以"最典型类别"为核心关注点的名义或顺序数据,样本众数则是唯一合理的选择。