ARTICLE

集中趋势

集中趋势 (Central Tendency) 集中趋势 (Central Tendency),又称 中央趋势,是描述统计学 (Descriptive Statistics) 中的一个核心概念。它旨在通过单一的数值来概括和描述一个数据集 (dataset) 的"中心"位置或"典型"值。这个数值代表了数据分布中最具代表性的点,让我们能够快速理解数据集的整体水平

浏览 172 更新 2025-10-26

集中趋势 (Central Tendency)

集中趋势 (Central Tendency),又称 中央趋势,是描述统计学 (Descriptive Statistics) 中的一个核心概念。它旨在通过单一的数值来概括和描述一个数据集 (dataset) 的"中心"位置或"典型"值。这个数值代表了数据分布中最具代表性的点,让我们能够快速理解数据集的整体水平。

集中趋势是描述数据特征的三个主要维度之一,另外两个是离散趋势 (dispersion or variability) 和分布形态 (shape of the distribution)。在进行任何深入的统计分析之前,理解数据的集中趋势是至关重要的第一步。

最常用的集中趋势测度包括三种:算术平均数 (Arithmetic Mean)中位数 (Median)众数 (Mode)

主要的集中趋势测度

一. 算术平均数 (Arithmetic Mean)

算术平均数,通常简称为 均值 (Mean),是应用最广泛的集中趋势测度。它的计算方法是将数据集中所有数值相加,然后除以数值的个数。

根据数据来源是样本 (sample) 还是总体 (population),均值的符号和公式略有不同:

  • 样本均值 (xˉ \bar{x} ):从总体中抽取的一部分数据的均值。
xˉ=i=1nxin=x1+x2++xnn\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}

其中,xi x_i 代表样本中的第 i i 个观测值,n n 样本容量 (sample size)。

  • 总体均值 (μ \mu ):数据集中所有可能观测值的均值。
μ=i=1NxiN=x1+x2++xNN\mu = \frac{\sum_{i=1}^{N} x_i}{N} = \frac{x_1 + x_2 + \cdots + x_N}{N}

其中,xi x_i 代表总体中的第 i i 个观测值,N N 总体容量 (population size)。

特点与应用场景:

  • 利用全部信息:均值的计算包含了数据集中的每一个数值,能够全面反映数据信息。
  • 异常值敏感:这是均值最显著的缺点。一个或几个极端值(过大或过小)会极大地影响均值的结果,使其偏离大部分数据的中心。
  • 数学性质优良:均值在数理统计中具有良好的代数性质,使其成为许多高级统计方法(如方差标准差回归分析等)的基础。
  • 适用性:最适用于对称分布 (symmetric distributions),如正态分布 (Normal Distribution),且数据中没有极端异常值的情况。

示例: 假设一组学生的身高(厘米)数据为:{165,168,170,172,175} \{165, 168, 170, 172, 175\} 。 其均值为:xˉ=165+168+170+172+1755=8505=170 \bar{x} = \frac{165 + 168 + 170 + 172 + 175}{5} = \frac{850}{5} = 170 厘米。

如果数据集中出现一个异常值,例如:{165,168,170,172,210} \{165, 168, 170, 172, 210\} 。 新的均值为:xˉ=165+168+170+172+2105=8855=177 \bar{x} = \frac{165 + 168 + 170 + 172 + 210}{5} = \frac{885}{5} = 177 厘米。可见,仅仅一个异常值就将均值拉高了7厘米,使其不再能很好地代表大多数学生的身高。

二. 中位数 (Median)

中位数是将数据集按大小顺序排列后,位于最中间位置的那个数值。它将数据集平分为两个部分,一半的数值比中位数小,另一半比中位数大。

计算方法:

  1. 首先,将所有数据按从小到大(或从大到小)的顺序排列。
  2. 如果数据集的观测值数量 n n 是奇数,中位数是位于第 (n+1)/2 (n+1)/2 位置的数值。
  3. 如果数据集的观测值数量 n n 是偶数,中位数是位于中间的两个数值(即第 n/2 n/2 和第 (n/2)+1 (n/2)+1 位置的数)的平均值。

特点与应用场景:

  • 稳健性 (Robustness):中位数最大的优点是不受数据集中极端异常值的影响。它只取决于数值的排列顺序,而非其具体大小。
  • 适用性:对于偏态分布 (skewed distributions) 的数据,如个人收入、房价等,中位数是比均值更合适的集中趋势测度。
  • 适用数据类型:可用于数值型数据 (numerical data) 和有序数据 (ordinal data)。

示例: 对于数据集 {165,168,170,172,175} \{165, 168, 170, 172, 175\} ,数据个数为5(奇数),中位数是第 (5+1)/2=3 (5+1)/2 = 3 个数,即 170。 对于含有异常值的数据集 {165,168,170,172,210} \{165, 168, 170, 172, 210\} ,排序后,中位数仍然是第3个数,即 170。这清晰地展示了中位数对异常值的稳健性。

对于偶数个数的数据集 {165,168,170,172} \{165, 168, 170, 172\} ,中位数是中间两个数(168和170)的平均值:168+1702=169 \frac{168 + 170}{2} = 169

三. 众数 (Mode)

众数是数据集中出现频率最高的数值。

特点与应用场景:

  • 多重性:一个数据集可以没有众数(所有值出现频率相同)、有一个众数(单峰分布 Unimodal)、两个众数(双峰分布 Bimodal)或多个众数(多峰分布 Multimodal)。
  • 适用数据类型:众数是唯一可用于分类数据 (categorical data, or nominal data) 的集中趋势测度。当然,它也适用于数值型数据。
  • 稳定性:众数不受异常值影响,但在样本数据中可能不稳定,微小的数据变动可能导致众数发生较大改变。
  • 应用:常用于描述"最流行"的选项,例如最受欢迎的品牌、最常见的血型等。

示例:

  • 数值数据集 {1,2,2,3,4,5,5,5,6} \{1, 2, 2, 3, 4, 5, 5, 5, 6\} 的众数是 5,因为它出现了3次,比其他任何数都多。
  • 分类数据集"学生最喜爱的水果":{苹果, 香蕉, 橙子, 香蕉, 橙子, 橙子} 的众数是 橙子
  • 数据集 {1,1,2,3,4,4,5} \{1, 1, 2, 3, 4, 4, 5\} 有两个众数:14,这是一个双峰分布。

如何选择合适的集中趋势测度

选择哪种测度取决于数据的类型和分布形态。

| 测度 | 适用数据类型 | 优点 | 缺点 | 最佳应用场景 | | :--- | :--- | :--- | :--- | :--- | | 均值 (Mean) | 数值型数据 (定距/定比) | 数学性质好,利用所有数据 | 对异常值敏感 | 数据对称分布(如正态分布),无异常值 | | 中位数 (Median) | 有序数据, 数值型数据 | 对异常值稳健 | 计算相对复杂,未利用所有数据值大小 | 数据为偏态分布,或存在异常值 | | 众数 (Mode) | 所有类型, 包括定类数据 | 概念简单,可用于分类数据 | 可能不存在或不唯一,不稳定 | 描述分类数据的集中趋势或寻找最常见值 |

分布形态与集中趋势测度的关系

  • 对称分布 (Symmetric Distribution):在一个完美的对称分布(如正态分布)中,均值 = 中位数 = 众数
  • 右偏态分布 (Right-skewed Distribution):也称正偏态,分布的"尾巴"拖向右侧(高值区)。此时,均值 > 中位数 > 众数。少数的极端高值将均值向右拉动。例如,个人收入分布。
  • 左偏态分布 (Left-skewed Distribution):也称负偏态,分布的"尾巴"拖向左侧(低值区)。此时,均值 < 中位数 < 众数。少数的极端低值将均值向左拉动。例如,人类寿命分布(多数人活到高龄,少数人早逝)。

其他集中趋势测度

除了上述三种主要测度外,还存在一些在特定领域使用的测度:

  • 几何平均数 (Geometric Mean): 用于计算比率、增长率等乘性数据的平均值,如投资回报率G=x1x2xnn G = \sqrt[n]{x_1 \cdot x_2 \cdots x_n}
  • 调和平均数 (Harmonic Mean): 用于计算速率或比率的平均值,如计算往返过程中的平均速度。H=ni=1n1xi H = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}
  • 加权平均数 (Weighted Mean): 当数据集中各数值的重要性不同时使用,为每个数值分配一个权重。例如,计算课程的总成绩(期末考权重更高)或消费者价格指数 (CPI)。

总结

集中趋势是理解任何数据集的第一步,它提供了一个"典型"值的快照。然而,任何单一的测度都无法完整描绘数据的全貌。在实践中,分析师通常会同时报告均值和中位数,并结合标准差 (Standard Deviation) 或四分位距 (Interquartile Range) 等离散趋势的测度,以及通过直方图 (Histogram) 等可视化工具来考察数据的整体分布,从而获得对数据的全面、准确的理解。