ARTICLE

mean

均值 (Mean) 均值 (Mean)，在统计学中也常称平均数 (Average)，是描述数据集 (Data Set) 集中趋势 (Central Tendency) 最常用的统计量之一。均值定义为所有观测值之和除以观测值的个数，其数学表达式为：公式其中公式为样本观测值，公式为样本量，公式为样本均值。在总体 (Population) 层

浏览 0 更新 2026-07-11

均值 (Mean)

均值 (Mean)，在统计学中也常称 平均数 (Average)，是描述数据集 (Data Set) 集中趋势 (Central Tendency) 最常用的统计量之一。均值定义为所有观测值之和除以观测值的个数，其数学表达式为：

\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

其中 $x_1, x_2, \dots, x_n$ 为样本观测值， $n$ 为样本量， $\bar{x}$ 为样本均值。在总体 (Population) 层面，总体均值通常记作 $\mu$ 。

算术均值 (Arithmetic Mean)

上述公式定义的正是 算术均值，也是最广为人知的均值形式。它适用于数值型数据（定距尺度以上），且对极端值 (Outliers) ——极端大或极端小的数值——较为敏感。例如，在一组收入数据 $\{3000, 3500, 4000, 5000, 100000\}$ 中，均值为 $22900$ ，远高于大多数个体的实际收入，这正反映了均值对极端值的拉偏效应。因此，当数据呈偏态分布 (Skewed Distribution) 或存在明显极端值时，中位数 (Median) 常被推荐作为补充或替代。

几何均值 (Geometric Mean)

几何均值 定义为 $n$ 个正数的乘积的 $n$ 次方根：

G = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}

几何均值广泛应用于增长率、收益率等比率数据的平均计算。例如，一项资产连续三年的收益率分别为 $+10\%$ 、 $-5\%$ 、 $+15\%$ ，则年均收益率应采用几何均值而非算术均值： $G = \sqrt[3]{1.10 \times 0.95 \times 1.15} - 1 \approx 6.37\%$ ，这准确反映了实际累积收益。算术均值在此时会高估真实增长率，这一现象在金融学 (Finance) 和投资学 (Investment) 中至关重要。几何均值永远不大于算术均值，当且仅当所有观测值相等时两者相等。

调和均值 (Harmonic Mean)

调和均值 定义为观测值倒数的算术平均的倒数：

H = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}

调和均值适用于平均比率或平均速率的情境。典型的例子是平均速度：若某人以 $60\text{ km/h}$ 行驶一段路程，再以 $40\text{ km/h}$ 原路返回，则全程平均速度既不是 $50\text{ km/h}$ （算术均值），亦非几何均值，而是调和均值 $H = \frac{2}{\frac{1}{60} + \frac{1}{40}} = 48\text{ km/h}$ 。在机器学习 (Machine Learning) 中，调和均值也常用于 F1分数 (F1 Score) 的计算——F1分数是精确率 (Precision) 和召回率 (Recall) 的调和均值，旨在平衡两者。调和均值不大于几何均值，几何均值不大于算术均值，三者构成著名的 均值不等式 (Inequality of Means)。

总体均值与样本均值

在推断统计学 (Inferential Statistics) 中，区分 总体均值 $\mu$ 和 样本均值 $\bar{x}$ 至关重要。总体均值是描述总体分布特征的参数 (Parameter)，而样本均值是由样本数据计算的统计量 (Statistic)。根据大数定律 (Law of Large Numbers)，当样本量增大时，样本均值以概率收敛于总体均值。中心极限定理 (Central Limit Theorem) 进一步表明，无论总体分布形态如何，当样本量足够大时，样本均值的抽样分布 (Sampling Distribution) 近似服从正态分布 (Normal Distribution)，这一性质是许多参数检验 (Parametric Test) 和置信区间 (Confidence Interval) 的理论基础。

样本均值也是总体均值的无偏估计量 (Unbiased Estimator)，即 $\mathbb{E}[\bar{X}] = \mu$ 。它的方差 (Variance) 为 $\sigma^2 / n$ ，其中 $\sigma^2$ 为总体方差，表明增大样本量可提高估计精度。

截尾均值 (Trimmed Mean)

为克服算术均值对极端值的敏感性，截尾均值 在排序后去除一定比例的最大值和最小值，再对剩余数据计算均值。例如， $10\%$ 截尾均值剔除两端各 $10\%$ 的数据。截尾均值在稳健统计 (Robust Statistics) 中占有一席之地，是兼顾均值效率与中位数稳健性的折中方案。体育评分（如体操、跳水）中常见的"去掉一个最高分、去掉一个最低分"的做法，本质上即截尾均值的特例。

加权均值 (Weighted Mean)

当各观测值的权重不同时，采用 加权均值：

\bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}

加权均值在调查统计 (Survey Statistics) 中用于处理分层抽样 (Stratified Sampling) 中的不等概率，在指数编制（如消费者物价指数 CPI）中用于将不同商品价格按消费权重汇总，也在教育评价中用于计算加权平均分 (Weighted Grade Point Average)。普通算术均值可视为加权均值的特例——当所有 $w_i = 1$ 时两者等价。

均值的数学性质

均值作为统计量具备若干重要的数学性质。首先，所有观测值与均值的离差之和为零： $\sum_{i=1}^{n} (x_i - \bar{x}) = 0$ ，这意味着均值是数据的"平衡点"。其次，均值使离差平方和最小化：对于任意常数 $c$ ，有 $\sum (x_i - \bar{x})^2 \le \sum (x_i - c)^2$ ，这一性质直接构成了最小二乘法 (Ordinary Least Squares) 的理论基础。第三，均值具有线性变换性质：若 $y_i = a + bx_i$ ，则 $\bar{y} = a + b\bar{x}$ ，这一性质极大简化了数据标准化与尺度变换后的计算。

均值与其他集中趋势度量

均值、中位数 (Median) 和众数 (Mode) 是描述集中趋势的三大统计量。在对称分布 (Symmetric Distribution) 中三者相等；在右偏分布 (Right-Skewed Distribution) 中均值大于中位数大于众数；在左偏分布 (Left-Skewed Distribution) 中则相反。这一关系可通过 皮尔逊偏度系数 (Pearson's Skewness Coefficient) 量化： $\text{Skewness} = 3(\bar{x} - \text{Median}) / s$ 。均值利用全部数据信息，效率最高但对极端值敏感；中位数仅依赖排序位置，稳健但效率较低；众数适用于名义尺度数据。实际应用中需根据数据特征与分析目的合理选择。

在描述统计学 (Descriptive Statistics) 的五数概括法 (Five-Number Summary) 中，中位数与四分位数组合呈现数据的分布形态，而均值则常与标准差 (Standard Deviation) 配对使用，以均值±标准差的形式反映数据的集中与离散程度。

均值在经济学与金融学中的应用

在经济学 (Economics) 中，预期值 (Expected Value) 本质上就是概率加权均值。马科维茨投资组合理论 (Markowitz Portfolio Theory) 用资产收益率 (Asset Return) 的均值衡量预期收益，将其与方差 (Variance) 一同作为投资决策的核心维度。在行为经济学 (Behavioral Economics) 中，前景理论 (Prospect Theory) 发现个体在决策中对均值（预期值）的参考权重可能与客观概率存在偏差，体现了决策权重 (Decision Weight) 的非线性特征。

在回归分析 (Regression Analysis) 中，最小二乘法 (Least Squares Method) 的本质是寻找使残差 (Residual) 均值最小化的参数估计，即条件均值函数 $\mathbb{E}[Y|X]$ 的估计。方差分析 (ANOVA) 的核心则是比较不同组别间的均值差异是否显著大于组内变异。

均值的局限与替代

尽管均值是使用最广泛的统计量，但其局限性不可忽视：

对极端值敏感：单一个极端值即可大幅改变均值，使结果失实。
不适用于名义数据：对分类变量（如性别、职业）计算均值无意义。
对偏态分布的代表性差：收入数据常呈右偏态，中位数往往更能代表"典型"个体。

因此，实际数据分析中常将均值与中位数、众数 (Mode)、标准差 (Standard Deviation) 及四分位数 (Quartile) 结合报告，以全面刻画数据分布特征。

均值的计算与编程实现

在实际数据分析中，均值可通过多种工具快速计算。在 Python 中可使用 \texttt{numpy.mean()} 或 \texttt{statistics.mean()}；在 R语言 (R Language) 中直接调用 \texttt{mean()} 函数；在 Excel 中使用 \texttt{AVERAGE()} 函数。对于大型数据集，分布式计算框架如 MapReduce 也可高效计算均值。值得注意的是，浮点数求和时的数值精度 (Numerical Precision) 问题在大规模数据中不可忽视，可选择 \texttt{math.fsum()} 等精确求和函数或采用卡汉求和算法 (Kahan Summation Algorithm) 降低舍入误差。

综上，均值是统计学中最基本、最重要的概念之一，从基础描述到高级推断均扮演核心角色。理解各类均值的适用条件及其与中位数、众数的区别，是正确开展数据分析的起点。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。