ARTICLE

中心趋势

中心趋势 (Central Tendency) 中心趋势 (Central Tendency)，也称为集中趋势或中央趋势，是描述统计学中的一个核心概念。它指的是一个数据集 (Data Set) 或概率分布 (Probability Distribution) 中，数据点向某个中心值聚集的程度和位置。简单来说，中心趋势度量值是一个能够代表整个数据集典型水

浏览 40 更新 2025-10-26

中心趋势 (Central Tendency)

中心趋势 (Central Tendency)，也称为 集中趋势 或 中央趋势，是描述统计学中的一个核心概念。它指的是一个数据集 (Data Set) 或概率分布 (Probability Distribution) 中，数据点向某个中心值聚集的程度和位置。简单来说，中心趋势度量值是一个能够代表整个数据集典型水平、中心位置或最常见情况的概括性单一数值。它是理解和总结数据特征的第一步，为后续的统计分析（如离散程度分析和推断统计学）提供了重要基础。

最常用的中心趋势度量指标包括平均数 (Mean)、中位数 (Median) 和众数 (Mode)。

主要的集中趋势度量

不同的度量方法从不同角度描述数据的中心，适用于不同类型的数据和分布形态。

一. 平均数 (Mean)

平均数 是最常用、最广为人知的中心趋势度量。它考虑了数据集中的每一个数值。最常见的平均数是算术平均数。

1. 算术平均数 (Arithmetic Mean) 算术平均数是一组数值的总和除以这组数值的个数。它在计算上分为总体平均数和样本平均数。

总体平均数 (Population Mean)，用希腊字母 $\mu$ 表示。当数据集包含研究对象的所有个体时使用。

\mu = \frac{\sum_{i=1}^{N} x_i}{N} = \frac{x_1 + x_2 + \cdots + x_N}{N}

其中， $N$ 是总体中的个体总数， $x_i$ 是每个个体的值。

样本平均数 (Sample Mean)，用 $\bar{x}$ (读作 "x-bar") 表示。当数据集只是从总体中抽取的一部分时使用。

\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n}

其中， $n$ 是样本中的个体数量。

示例：假设一个班级有5名学生，他们的期末考试成绩分别为 85, 92, 78, 88, 90。这个班级的平均成绩（样本平均数）为：

\bar{x} = \frac{85 + 92 + 78 + 88 + 90}{5} = \frac{433}{5} = 86.6

特性与缺点：

优点：计算简单，利用了所有数据信息，数学性质优良，是许多高级统计方法（如方差和回归分析）的基础。
缺点：极易受到 离群值 (Outliers) 或极端值的影响。例如，如果上述成绩中加入一个低分 20，新的平均数会变为 $\frac{433+20}{6} \approx 75.5$ ，这个数值远低于大部分学生的水平，其代表性会受到质疑。

2. 其他类型的平均数 在特定场景下，还会使用其他类型的平均数，例如：

几何平均数 (Geometric Mean)：常用于计算比率或增长率的平均值，如投资回报率。
调和平均数 (Harmonic Mean)：常用于计算平均速率或比率的倒数。

二. 中位数 (Median)

中位数 是将数据集按大小顺序排列后，位于最中间位置的数值。它将数据分为数量相等的两部分，一半的数值比它大，一半的数值比它小。

计算方法：

首先，将所有数据按升序或降序排列。
如果数据集的观测值数量 $n$ 是奇数，中位数就是位于 $\frac{n+1}{2}$ 位置的那个数。
如果数据集的观测值数量 $n$ 是偶数，中位数是位于中间的两个数（即第 $\frac{n}{2}$ 位和第 $\frac{n}{2}+1$ 位）的算术平均数。

示例：

奇数个数据：对于数据集 {78, 85, 88, 90, 92}，数据个数 $n=5$ 是奇数。中位数是第 $\frac{5+1}{2}=3$ 个数，即 88。
偶数个数据：对于数据集 {20, 78, 85, 88, 90, 92}，数据个数 $n=6$ 是偶数。中位数是中间两个数（第3位和第4位）的平均值，即 $\frac{85 + 88}{2} = 86.5$ 。

特性与优点：

稳健性 (Robustness)：中位数最大的优点是不受极端离群值的影响。在上面的例子中，即使有20这个低分，中位数 86.5 仍然能较好地反映数据的主体趋势。因此，在收入、房价等容易出现极端值的领域，中位数是比平均数更好的中心趋势度量。
适用于有序数据 (Ordinal Data)。

三. 众数 (Mode)

众数是数据集中出现频数 (Frequency) 最高的数值。一个数据集可以没有众数，也可以有一个或多个众数。

无众数：所有数值出现的次数都相同。
单众数 (Unimodal)：有一个众数。
双众数 (Bimodal)：有两个众数。
多众数 (Multimodal)：有两个以上的众数。

示例：

在数据集 {红, 蓝, 蓝, 绿, 蓝, 红} 中，"蓝" 出现了3次，最多。因此众数是 "蓝"。
在数据集 {1, 2, 2, 3, 4, 4, 5} 中，2 和 4 都出现了两次，因此有两个众数：2 和 4。
在数据集 {1, 2, 3, 4, 5} 中，没有众数。

特性与优点：

适用范围广：众数是唯一可用于 名义数据 (Nominal Data)（如颜色、类别）的中心趋势度量。
直观易懂：它直接指出了数据中最常见的情况。
不受极端值影响。
对于离散变量或经过分组的连续变量，众数可以很好地反映峰值所在。

度量选择：平均数、中位数与众数的比较

选择哪种中心趋势度量取决于数据的类型（测量尺度）和其分布的形状。

数据分布形态的影响

数据的分布形态，特别是 偏度 (Skewness)，对这三个度量值之间的关系有显著影响。

对称分布 (Symmetrical Distribution)：

在理想的对称分布中（如正态分布），数据均匀地分布在中心两侧。此时，平均数 = 中位数 = 众数。

正偏态分布 (Positively Skewed Distribution) 或 右偏分布：

分布的尾部向右侧（数值大的方向）延伸。少数极大的值会将平均数向右拉动。此时，平均数 > 中位数 > 众数。例如，个人收入分布通常是正偏态，少数极高收入者会显著拉高平均收入。

负偏态分布 (Negatively Skewed Distribution) 或 左偏分布：

分布的尾部向左侧（数值小的方向）延伸。少数极小的值会将平均数向左拉动。此时，平均数 < 中位数 < 众数。例如，某些简单任务的完成时间可能呈负偏态，大多数人很快完成，少数人耗时极长。

数据测量尺度的影响

名义数据 (Nominal)：只能使用众数。例如，调查最受欢迎的汽车品牌。
有序数据 (Ordinal)：可以使用众数和 中位数。例如，对服务满意度（不满意、一般、满意）进行排序，可以找到中位数和众数，但计算平均数没有意义。
区间数据 (Interval) 和 比率数据 (Ratio)：可以使用 平均数、中位数和众数。选择哪个取决于分布的偏度和是否存在离群值。

度量	优点	缺点	适用情况
平均数	利用所有数据，数学性质好，稳定	易受极端值影响	对称、无极端值的区间/比率数据
中位数	不受极端值影响，稳健统计中的重要指标	未利用所有数据信息	有极端值或偏态的区间/比率数据，有序数据
众数	唯一可用于名义数据，直观	可能不存在或不唯一，不稳定	名义数据，或需要了解最常见数值时

数学性质

平均数：
一个数据集的偏差之和为零，即 $\sum_{i=1}^{n} (x_i - \bar{x}) = 0$ 。
平均数是使离差平方和 $\sum_{i=1}^{n} (x_i - c)^2$ 最小化的中心值 $c$ 。

中位数：
中位数是使绝对离差和 $\sum_{i=1}^{n} |x_i - c|$ 最小化的中心值 $c$ 。

总结

中心趋势是概括性地描述一个数据集核心特征的关键工具。平均数、中位数和众数分别从不同角度揭示了数据的“中心”所在。在进行任何数据分析时，理解这些度量值的含义、计算方法、优缺点以及适用场景，是做出正确判断和解释的第一步。通常，同时考察多个中心趋势度量值，并结合离散趋势（如标准差或四分位距）的分析，能够更全面地理解数据。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。