ARTICLE
Mode
众数 (Mode) 众数(Mode)是描述统计学中与均值(Mean)和中位数(Median)并列的三大集中趋势度量之一。众数被定义为一个数据集中出现频率最高的数值,即一组数据中重复次数最多的观察值。与均值的代数计算、中位数的排序定位不同,众数直接反映数据的"多数"特征——它回答的问题是:"哪个值最典型?"在经济学中,众数广泛应用于收入分布分析、消费者偏好调查
众数 (Mode)
众数(Mode)是描述统计学中与均值(Mean)和中位数(Median)并列的三大集中趋势度量之一。众数被定义为一个数据集中出现频率最高的数值,即一组数据中重复次数最多的观察值。与均值的代数计算、中位数的排序定位不同,众数直接反映数据的"多数"特征——它回答的问题是:"哪个值最典型?"在经济学中,众数广泛应用于收入分布分析、消费者偏好调查和市场细分研究。
定义与分类
给定一个数据集 ,众数 定义为满足以下条件的取值:
其中 为取值 的频数。根据频数分布的形状,众数可以有不同的表现:
单峰分布(Unimodal): 数据中出现一个显著的"峰值",存在唯一众数。例如某班级考试成绩中 75 分出现 12 次,远高于其他分数,则 75 即为众数。大多数自然和社会现象呈单峰分布。
双峰分布(Bimodal): 数据中存在两个不同的高频取值(两者频数相等或极为接近)。例如某城市居民的通勤时间可能集中在 25 分钟(市中心居民)和 60 分钟(郊区居民)两个峰值附近,揭示出两组不同的群体。双峰分布往往暗示总体由两个具有不同特征的子群体混合而成。
多峰分布(Multimodal): 存在三个或以上峰值。多峰性是异质性(Heterogeneity)强烈的信号,提示研究者应对总体进行分组分析而非笼统概括。
无众数: 当所有取值出现次数相同(如均匀分布)时,严格意义上不存在众数。另外,在连续型分布中,如果每个值出现的概率密度均不相同且无局部最大值,则众数定义需借助概率密度函数的最大值点。
分组数据的众数
对于分组数据(如收入区间、年龄组别),众数不能直接从原始值读取,而需要通过众数公式进行插值估算。假设众数所在组为频数最高的组别,则该组的众数近似为:
其中:
- 为众数所在组的下限(Lower limit)
- 为众数所在组的频数
- 为众数所在组前一组的频数
- 为众数所在组后一组的频数
- 为组距(Class width)
该公式基于相似三角形原理,假设频数在组内近似线性变化,将众数位置向相邻较高频数一侧倾斜。例如,某地区家庭月收入调查中,5000-8000 元组频数为 240,8000-11000 元组频数为 360(最高),11000-14000 元组频数为 200,组距为 3000 元。则:
与均值、中位数的关系
三大集中趋势度量在对称分布(如正态分布)中三者重合:均值 = 中位数 = 众数。但在偏态分布中,三者呈现系统性偏离,这一关系本身即为诊断分布形态的依据。
正偏(右偏)分布: 在收入分布中极为常见——少数高收入者拉高均值,而大多数人的收入集中在较低水平。此时:
均值被右侧长尾牵引至最右侧,众数保持在峰值处,中位数居中。这一不等式模式被归纳为卡尔·皮尔逊(Karl Pearson)的经验公式:
该公式在中等偏度的单峰分布中提供了众数、均值和中位数之间的近似数量关系。
负偏(左偏)分布: 例如考试分数分布中,少数极低分将均值拖向左下方:
在经济学中的应用
收入分布分析: 收入数据通常呈正偏分布,众数低于均值。以美国 2022 年家庭收入数据为例,收入均值约为 10.6 万美元,而收入众数约在 2.5-3 万美元区间。均值被顶层高收入群体拉高,众数更准确地反映"普通家庭"的典型收入水平。正因如此,收入不平等研究更常引用中位数和众数而非均值。
消费者偏好研究: 在市场调查中,对"最喜欢的颜色"或"首选品牌"等类别变量(Nominal variable),均值和中位数毫无意义,众数是唯一可行的集中趋势度量。"最多消费者选择的品牌"即品牌偏好分布中的众数。
劳动力市场分析: 工资分布中,最低工资政策的影响常通过观察工资分布的低端众数变化来评估——最低工资上调后,工资分布在最低工资线附近是否出现"堆积"(spike),即新的众数。
拍卖与博弈论: 在一级价格密封拍卖中,投标者的出价策略常以一个"常见出价"(common bid)聚集,该出价即出价分布中的众数,反映参与者的共同估值预期。
优点与局限
优点:
- 直观易懂,不受极端值影响。当数据中存在离群值(Outlier)时,众数完全不受干扰,而均值可能严重失真。
- 适用于类别型数据(名义变量),是唯一可用于定性数据的集中趋势度量。
- 始终是数据集中实际存在的值(对于离散数据而言),具有物理可解释性——"确实有人拿这个工资"。
局限:
- 可能不存在(均匀分布),也可能不唯一(双峰或多峰),影响其作为集中趋势单一代表的有效性。
- 对数据的微小变动可能极为敏感:仅需略微调整频数,众数就可能从一个值跳跃到另一个值。
- 未利用所有数据信息,仅依赖频数排序,在大样本统计推断中不如均值高效。
- 分组数据的众数估算是近似值,受分组方案(组距和组界)的显著影响。
连续分布中的众数
对于连续型随机变量,众数定义为概率密度函数(PDF) 取得全局最大值的点 :
若只有一个最大值点,则为单峰分布;若存在多个局部最大值,则为多峰分布。例如,正态分布 的众数等于其均值 (同时也是中位数);指数分布 ()的众数为 ;贝塔分布 当 时,众数为 。
在计量经济学中,分布的众数(而非均值)对于理解"典型个体"的行为具有重要意义。例如,在分析某项政策对不同收入群体的异质性影响时,识别收入分布的多个众数有助于界定政策受益者和受损者的边界,这是均值和分位数回归难以独立完成的任务。