ARTICLE

Mode

众数 (Mode) 众数（Mode）是描述统计学中与均值（Mean）和中位数（Median）并列的三大集中趋势度量之一。众数被定义为一个数据集中出现频率最高的数值，即一组数据中重复次数最多的观察值。与均值的代数计算、中位数的排序定位不同，众数直接反映数据的"多数"特征——它回答的问题是："哪个值最典型？"在经济学中，众数广泛应用于收入分布分析、消费者偏好调查

浏览 5 更新 2025-10-26

众数 (Mode)

众数（Mode）是描述统计学中与均值（Mean）和中位数（Median）并列的三大集中趋势度量之一。众数被定义为一个数据集中出现频率最高的数值，即一组数据中重复次数最多的观察值。与均值的代数计算、中位数的排序定位不同，众数直接反映数据的"多数"特征——它回答的问题是："哪个值最典型？"在经济学中，众数广泛应用于收入分布分析、消费者偏好调查和市场细分研究。

定义与分类

给定一个数据集 $X = \{x_1, x_2, \ldots, x_n\}$ ，众数 $M_o$ 定义为满足以下条件的取值：

f(M_o) = \max_{x} f(x)

其中 $f(x)$ 为取值 $x$ 的频数。根据频数分布的形状，众数可以有不同的表现：

单峰分布（Unimodal）： 数据中出现一个显著的"峰值"，存在唯一众数。例如某班级考试成绩中 75 分出现 12 次，远高于其他分数，则 75 即为众数。大多数自然和社会现象呈单峰分布。

双峰分布（Bimodal）： 数据中存在两个不同的高频取值（两者频数相等或极为接近）。例如某城市居民的通勤时间可能集中在 25 分钟（市中心居民）和 60 分钟（郊区居民）两个峰值附近，揭示出两组不同的群体。双峰分布往往暗示总体由两个具有不同特征的子群体混合而成。

多峰分布（Multimodal）： 存在三个或以上峰值。多峰性是异质性（Heterogeneity）强烈的信号，提示研究者应对总体进行分组分析而非笼统概括。

无众数： 当所有取值出现次数相同（如均匀分布）时，严格意义上不存在众数。另外，在连续型分布中，如果每个值出现的概率密度均不相同且无局部最大值，则众数定义需借助概率密度函数的最大值点。

分组数据的众数

对于分组数据（如收入区间、年龄组别），众数不能直接从原始值读取，而需要通过众数公式进行插值估算。假设众数所在组为频数最高的组别，则该组的众数近似为：

M_o = L + \left( \frac{f_m - f_{m-1}}{(f_m - f_{m-1}) + (f_m - f_{m+1})} \right) \times w

其中：

$L$ 为众数所在组的下限（Lower limit）
$f_m$ 为众数所在组的频数
$f_{m-1}$ 为众数所在组前一组的频数
$f_{m+1}$ 为众数所在组后一组的频数
$w$ 为组距（Class width）

该公式基于相似三角形原理，假设频数在组内近似线性变化，将众数位置向相邻较高频数一侧倾斜。例如，某地区家庭月收入调查中，5000-8000 元组频数为 240，8000-11000 元组频数为 360（最高），11000-14000 元组频数为 200，组距为 3000 元。则：

M_o = 8000 + \left( \frac{360 - 240}{(360 - 240) + (360 - 200)} \right) \times 3000 = 8000 + \frac{120}{120 + 160} \times 3000 \approx 9286 \text{ 元}

与均值、中位数的关系

三大集中趋势度量在对称分布（如正态分布）中三者重合：均值 = 中位数 = 众数。但在偏态分布中，三者呈现系统性偏离，这一关系本身即为诊断分布形态的依据。

正偏（右偏）分布： 在收入分布中极为常见——少数高收入者拉高均值，而大多数人的收入集中在较低水平。此时：

\text{众数} < \text{中位数} < \text{均值}

均值被右侧长尾牵引至最右侧，众数保持在峰值处，中位数居中。这一不等式模式被归纳为卡尔·皮尔逊（Karl Pearson）的经验公式：

\text{均值} - \text{众数} \approx 3(\text{均值} - \text{中位数})

该公式在中等偏度的单峰分布中提供了众数、均值和中位数之间的近似数量关系。

负偏（左偏）分布： 例如考试分数分布中，少数极低分将均值拖向左下方：

\text{均值} < \text{中位数} < \text{众数}

在经济学中的应用

收入分布分析： 收入数据通常呈正偏分布，众数低于均值。以美国 2022 年家庭收入数据为例，收入均值约为 10.6 万美元，而收入众数约在 2.5-3 万美元区间。均值被顶层高收入群体拉高，众数更准确地反映"普通家庭"的典型收入水平。正因如此，收入不平等研究更常引用中位数和众数而非均值。

消费者偏好研究： 在市场调查中，对"最喜欢的颜色"或"首选品牌"等类别变量（Nominal variable），均值和中位数毫无意义，众数是唯一可行的集中趋势度量。"最多消费者选择的品牌"即品牌偏好分布中的众数。

劳动力市场分析： 工资分布中，最低工资政策的影响常通过观察工资分布的低端众数变化来评估——最低工资上调后，工资分布在最低工资线附近是否出现"堆积"（spike），即新的众数。

拍卖与博弈论： 在一级价格密封拍卖中，投标者的出价策略常以一个"常见出价"（common bid）聚集，该出价即出价分布中的众数，反映参与者的共同估值预期。

优点与局限

优点：

直观易懂，不受极端值影响。当数据中存在离群值（Outlier）时，众数完全不受干扰，而均值可能严重失真。
适用于类别型数据（名义变量），是唯一可用于定性数据的集中趋势度量。
始终是数据集中实际存在的值（对于离散数据而言），具有物理可解释性——"确实有人拿这个工资"。

局限：

可能不存在（均匀分布），也可能不唯一（双峰或多峰），影响其作为集中趋势单一代表的有效性。
对数据的微小变动可能极为敏感：仅需略微调整频数，众数就可能从一个值跳跃到另一个值。
未利用所有数据信息，仅依赖频数排序，在大样本统计推断中不如均值高效。
分组数据的众数估算是近似值，受分组方案（组距和组界）的显著影响。

连续分布中的众数

对于连续型随机变量，众数定义为概率密度函数（PDF） $f(x)$ 取得全局最大值的点 $x^*$ ：

x^* = \arg\max_{x} f(x)

若只有一个最大值点，则为单峰分布；若存在多个局部最大值，则为多峰分布。例如，正态分布 $N(\mu, \sigma^2)$ 的众数等于其均值 $\mu$ （同时也是中位数）；指数分布 $f(x) = \lambda e^{-\lambda x}$ （ $x \ge 0$ ）的众数为 $x = 0$ ；贝塔分布 $\text{Beta}(\alpha, \beta)$ 当 $\alpha > 1, \beta > 1$ 时，众数为 $\frac{\alpha - 1}{\alpha + \beta - 2}$ 。

在计量经济学中，分布的众数（而非均值）对于理解"典型个体"的行为具有重要意义。例如，在分析某项政策对不同收入群体的异质性影响时，识别收入分布的多个众数有助于界定政策受益者和受损者的边界，这是均值和分位数回归难以独立完成的任务。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。