ARTICLE

中心趋势

中心趋势 (Central Tendency) 中心趋势 (Central Tendency),也称为 集中趋势 或 中央趋势,是描述统计学中的一个核心概念。它指的是一个数据集 (Data Set) 或概率分布 (Probability Distribution) 中,数据点向某个中心值聚集的程度和位置。简单来说,中心趋势度量值是一个能够代表整个数据集典型水

浏览 40 更新 2025-10-26

中心趋势 (Central Tendency)

中心趋势 (Central Tendency),也称为 集中趋势中央趋势,是描述统计学中的一个核心概念。它指的是一个数据集 (Data Set) 或概率分布 (Probability Distribution) 中,数据点向某个中心值聚集的程度和位置。简单来说,中心趋势度量值是一个能够代表整个数据集典型水平、中心位置或最常见情况的概括性单一数值。它是理解和总结数据特征的第一步,为后续的统计分析(如离散程度分析和推断统计学)提供了重要基础。

最常用的中心趋势度量指标包括平均数 (Mean)、中位数 (Median) 和众数 (Mode)。

主要的集中趋势度量

不同的度量方法从不同角度描述数据的中心,适用于不同类型的数据和分布形态。

一. 平均数 (Mean)

平均数 是最常用、最广为人知的中心趋势度量。它考虑了数据集中的每一个数值。最常见的平均数是算术平均数

1. 算术平均数 (Arithmetic Mean) 算术平均数是一组数值的总和除以这组数值的个数。它在计算上分为总体平均数和样本平均数。

  • 总体平均数 (Population Mean),用希腊字母 μ \mu 表示。当数据集包含研究对象的所有个体时使用。
μ=i=1NxiN=x1+x2++xNN\mu = \frac{\sum_{i=1}^{N} x_i}{N} = \frac{x_1 + x_2 + \cdots + x_N}{N}

其中,N N 是总体中的个体总数,xi x_i 是每个个体的值。

  • 样本平均数 (Sample Mean),用 xˉ \bar{x} (读作 "x-bar") 表示。当数据集只是从总体中抽取的一部分时使用。
xˉ=i=1nxin=x1+x2++xnn\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}

其中,n n 是样本中的个体数量。

示例:假设一个班级有5名学生,他们的期末考试成绩分别为 85, 92, 78, 88, 90。这个班级的平均成绩(样本平均数)为:

xˉ=85+92+78+88+905=4335=86.6\bar{x} = \frac{85 + 92 + 78 + 88 + 90}{5} = \frac{433}{5} = 86.6

特性与缺点

  • 优点:计算简单,利用了所有数据信息,数学性质优良,是许多高级统计方法(如方差回归分析)的基础。
  • 缺点:极易受到 离群值 (Outliers) 或极端值的影响。例如,如果上述成绩中加入一个低分 20,新的平均数会变为 433+20675.5 \frac{433+20}{6} \approx 75.5 ,这个数值远低于大部分学生的水平,其代表性会受到质疑。

2. 其他类型的平均数 在特定场景下,还会使用其他类型的平均数,例如:

  • 几何平均数 (Geometric Mean):常用于计算比率或增长率的平均值,如投资回报率。
  • 调和平均数 (Harmonic Mean):常用于计算平均速率或比率的倒数。

二. 中位数 (Median)

中位数 是将数据集按大小顺序排列后,位于最中间位置的数值。它将数据分为数量相等的两部分,一半的数值比它大,一半的数值比它小。

计算方法

  1. 首先,将所有数据按升序或降序排列。
  2. 如果数据集的观测值数量 n n 奇数,中位数就是位于 n+12 \frac{n+1}{2} 位置的那个数。
  3. 如果数据集的观测值数量 n n 偶数,中位数是位于中间的两个数(即第 n2 \frac{n}{2} 位和第 n2+1 \frac{n}{2}+1 位)的算术平均数。

示例

  • 奇数个数据:对于数据集 {78, 85, 88, 90, 92},数据个数 n=5 n=5 是奇数。中位数是第 5+12=3 \frac{5+1}{2}=3 个数,即 88。
  • 偶数个数据:对于数据集 {20, 78, 85, 88, 90, 92},数据个数 n=6 n=6 是偶数。中位数是中间两个数(第3位和第4位)的平均值,即 85+882=86.5 \frac{85 + 88}{2} = 86.5

特性与优点

  • 稳健性 (Robustness):中位数最大的优点是不受极端离群值的影响。在上面的例子中,即使有20这个低分,中位数 86.5 仍然能较好地反映数据的主体趋势。因此,在收入、房价等容易出现极端值的领域,中位数是比平均数更好的中心趋势度量。
  • 适用于有序数据 (Ordinal Data)。

三. 众数 (Mode)

众数 是数据集中出现频数 (Frequency) 最高的数值。一个数据集可以没有众数,也可以有一个或多个众数。

  • 无众数:所有数值出现的次数都相同。
  • 单众数 (Unimodal):有一个众数。
  • 双众数 (Bimodal):有两个众数。
  • 多众数 (Multimodal):有两个以上的众数。

示例

  • 在数据集 {红, 蓝, 蓝, 绿, 蓝, 红} 中,"蓝" 出现了3次,最多。因此众数是 "蓝"。
  • 在数据集 {1, 2, 2, 3, 4, 4, 5} 中,2 和 4 都出现了两次,因此有两个众数:2 和 4。
  • 在数据集 {1, 2, 3, 4, 5} 中,没有众数。

特性与优点

  • 适用范围广:众数是唯一可用于 名义数据 (Nominal Data)(如颜色、类别)的中心趋势度量。
  • 直观易懂:它直接指出了数据中最常见的情况。
  • 不受极端值影响。
  • 对于离散变量或经过分组的连续变量,众数可以很好地反映峰值所在。

度量选择:平均数、中位数与众数的比较

选择哪种中心趋势度量取决于数据的类型(测量尺度)和其分布的形状。

数据分布形态的影响

数据的分布形态,特别是 偏度 (Skewness),对这三个度量值之间的关系有显著影响。

  1. 对称分布 (Symmetrical Distribution)

在理想的对称分布中(如正态分布),数据均匀地分布在中心两侧。此时,平均数 = 中位数 = 众数

  1. 正偏态分布 (Positively Skewed Distribution)右偏分布

分布的尾部向右侧(数值大的方向)延伸。少数极大的值会将平均数向右拉动。此时,平均数 > 中位数 > 众数。例如,个人收入分布通常是正偏态,少数极高收入者会显著拉高平均收入。

  1. 负偏态分布 (Negatively Skewed Distribution)左偏分布

分布的尾部向左侧(数值小的方向)延伸。少数极小的值会将平均数向左拉动。此时,平均数 < 中位数 < 众数。例如,某些简单任务的完成时间可能呈负偏态,大多数人很快完成,少数人耗时极长。

数据测量尺度的影响

  • 名义数据 (Nominal):只能使用 众数。例如,调查最受欢迎的汽车品牌。
  • 有序数据 (Ordinal):可以使用 众数中位数。例如,对服务满意度(不满意、一般、满意)进行排序,可以找到中位数和众数,但计算平均数没有意义。
  • 区间数据 (Interval)比率数据 (Ratio):可以使用 平均数、中位数和众数。选择哪个取决于分布的偏度和是否存在离群值。

| 度量 | 优点 | 缺点 | 适用情况 | | :------- | :--------------------------------------- | :----------------------------- | :-------------------------------------- | | 平均数 | 利用所有数据,数学性质好,稳定 | 易受极端值影响 | 对称、无极端值的区间/比率数据 | | 中位数 | 不受极端值影响,稳健统计中的重要指标 | 未利用所有数据信息 | 有极端值或偏态的区间/比率数据,有序数据 | | 众数 | 唯一可用于名义数据,直观 | 可能不存在或不唯一,不稳定 | 名义数据,或需要了解最常见数值时 |

数学性质

  • 平均数
  • 一个数据集的偏差之和为零,即 i=1n(xixˉ)=0 \sum_{i=1}^{n} (x_i - \bar{x}) = 0
  • 平均数是使离差平方和 i=1n(xic)2 \sum_{i=1}^{n} (x_i - c)^2 最小化的中心值 c c
  • 中位数
  • 中位数是使绝对离差和 i=1nxic \sum_{i=1}^{n} |x_i - c| 最小化的中心值 c c

总结

中心趋势是概括性地描述一个数据集核心特征的关键工具。平均数、中位数和众数分别从不同角度揭示了数据的“中心”所在。在进行任何数据分析时,理解这些度量值的含义、计算方法、优缺点以及适用场景,是做出正确判断和解释的第一步。通常,同时考察多个中心趋势度量值,并结合离散趋势(如标准差或四分位距)的分析,能够更全面地理解数据。