ARTICLE

算术平均值

算术平均值 (Arithmetic Mean) 算术平均值 (Arithmetic Mean) 是一组数值之和除以数值个数的结果，是描述数据集中趋势最基本、最常用的统计量。在数学和统计学中，算术平均值通常简称为均值 (Mean)。对于一组观测值 x_1, x_2, , x_n，其算术平均值定义为：这一简洁的定义背后蕴含着丰富的数学内涵和广泛的实际应用。算

浏览 5 更新 2025-10-26

算术平均值 (Arithmetic Mean)

算术平均值 (Arithmetic Mean) 是一组数值之和除以数值个数的结果，是描述数据集中趋势最基本、最常用的统计量。在数学和统计学中，算术平均值通常简称为均值 (Mean)。对于一组观测值 $x_1, x_2, \ldots, x_n$ ，其算术平均值定义为：

\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i

这一简洁的定义背后蕴含着丰富的数学内涵和广泛的实际应用。

算术平均值与数学期望

在概率论中，数学期望 (Expectation) 是随机变量取值按概率的加权平均，而算术平均值则可以视为样本版本的"经验期望"。两者之间通过大数定律紧密联系：当样本容量趋于无穷时，样本算术平均值以概率收敛于总体的数学期望。这一桥梁关系使得算术平均值成为统计推断中最核心的工具之一。

对于离散型随机变量 $X$ ，若其取值 $x_1, x_2, \ldots, x_k$ 对应的概率分别为 $p_1, p_2, \ldots, p_k$ ，则数学期望为：

\mathbb{E}[X] = \sum_{i=1}^{k} x_i p_i

当从该分布中独立抽取 $n$ 个样本时，样本均值 $\bar{X}_n$ 满足：

\mathbb{E}[\bar{X}_n] = \mu, \quad \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}

其中 $\mu$ 和 $\sigma^2$ 分别为总体的均值和方差。这表明算术平均值是总体均值的无偏估计量，且其方差随样本量增大而减小。

算术平均值的最优性

在参数估计理论中，对于独立同分布样本，算术平均值具有多种最优性质。Gauss-Markov定理指出，在满足经典线性回归假设的条件下，样本均值是总体均值的最佳线性无偏估计量 (BLUE)，即在所有线性无偏估计量中方差最小。此外，如果总体服从正态分布，则样本均值同时也是一致最小方差无偏估计 (UMVUE)。

从极大似然估计的角度看，对于正态分布 $N(\mu, \sigma^2)$ ，样本均值恰好是参数 $\mu$ 的极大似然估计量。这进一步强化了算术平均值在统计理论中的核心地位。

算术平均值的抽样分布

中心极限定理 (Central Limit Theorem) 揭示了算术平均值的另一个深刻性质：无论原始数据的分布形态如何，只要样本容量 $n$ 足够大，样本均值的抽样分布近似于正态分布。更精确地：

\sqrt{n}(\bar{X}_n - \mu) \xrightarrow{d} N(0, \sigma^2) \quad \text{当 } n \to \infty

这一性质是统计推断的基石，它为假设检验和置信区间的构造提供了理论依据。例如，在总体方差已知的情况下，总体均值 $\mu$ 的 $95\%$ 置信区间为：

\bar{x} \pm z_{0.025} \cdot \frac{\sigma}{\sqrt{n}}

算术平均值在指数编制中的应用

在经济统计中，算术平均值被广泛应用于各类价格指数和经济指标的编制。例如，消费者价格指数 (CPI) 的计算中使用的拉氏指数 (Laspeyres Index) 和帕氏指数 (Paasche Index) 本质上是价格变动的加权算术平均值。道琼斯工业平均指数 (Dow Jones Industrial Average) 最初的计算方式就是成分股价格的简单算术平均值。

在国民经济核算中，人均 GDP、人均收入等指标均以算术平均值计算，这些指标是衡量国家经济发展水平的重要参考。但需要特别注意，当数据分布严重偏斜（如收入分布）时，算术平均值可能无法很好地代表"典型"个体的状况，此时中位数往往更具参考价值。

算术平均值与最小二乘法

算术平均值与最小二乘法 (Method of Least Squares) 之间存在深刻的数学联系。考虑寻找一个数值 $c$ 使得误差平方和最小化的问题：

\min_{c} \sum_{i=1}^{n} (x_i - c)^2

求解一阶条件可得：

\frac{\partial}{\partial c}\sum_{i=1}^{n}(x_i - c)^2 = -2\sum_{i=1}^{n}(x_i - c) = 0

解得 $c = \frac{1}{n}\sum_{i=1}^{n} x_i = \bar{x}$ 。也就是说，算术平均值是使得平方损失之和最小的点，这正是最小二乘法的核心思想。这一性质将算术平均值与回归分析紧密联系起来——在简单线性回归模型中，回归系数的估计本质上就是寻找使得残差平方和最小的参数，而截距项的估计量恰好包含被解释变量的算术平均值。

算术平均值在机器学习中的应用

在机器学习中，算术平均值同样是许多算法的核心组成部分。在 extbf{集成学习} (Ensemble Learning) 中， extbf{Bagging} 方法（如随机森林）通过对多个基学习器的预测结果取算术平均值来降低方差、提升泛化性能。对于回归问题，集成模型的最终输出正是各基模型预测值的算术平均：

\hat{f}_{\text{ensemble}}(x) = \frac{1}{M}\sum_{m=1}^{M} \hat{f}_m(x)

其中 $M$ 为基学习器的数量。这一做法的理论依据是：若各基学习器的预测误差不相关，则平均后的误差方差降低至原来的 $1/M$ 。

在 extbf{模型评估}中，交叉验证 (Cross-Validation) 的最终性能指标通常报告为各折验证结果的平均值。例如， $k$ 折交叉验证的误差估计为：

\text{CV}_{(k)} = \frac{1}{k}\sum_{i=1}^{k} E_i

其中 $E_i$ 为第 $i$ 折的验证误差。此外，在 extbf{梯度下降} (Gradient Descent) 的 extbf{小批量} (Mini-batch) 版本中，每次参数更新使用的梯度是批量样本梯度的算术平均值，这一估计是真实梯度的无偏估计。

算术平均值的局限性与替代选择

尽管算术平均值应用广泛，但在以下场景中需要谨慎使用：

偏态分布：在收入分配、财富分布等呈现右偏特征的数据中，算术平均值会被少数高值拉高，不能反映大多数人的水平。
存在离群值：即使数据量较大，个别极端值也会对算术平均值造成不可忽视的影响。此时可以改用截尾均值 (Trimmed Mean) 或温索化均值 (Winsorized Mean) 作为稳健替代。
比率与增长率：在计算平均增长率或平均比率时，几何平均数 (Geometric Mean) 优于算术平均值。例如，若某资产三年收益率分别为 $10\%, -5\%, 15\%$ ，其复合年增长率 (CAGR) 应使用几何平均数计算： \[ \bar{r}_g = \sqrt[3]{(1+0.10)(1-0.05)(1+0.15)} - 1 \approx 6.2\% \] 而算术平均值为 $(10\% - 5\% + 15\%) / 3 \approx 6.7\%$ ，高估了实际回报。
有序数据与名义数据：对于定序数据或名义数据，算术平均值没有数学意义，应使用中位数或众数。

广义的算术平均值

算术平均值可以推广到更一般的数学框架中。在函数空间中，函数 $f(x)$ 在区间 $[a, b]$ 上的积分平均值定义为：

\bar{f} = \frac{1}{b-a}\int_{a}^{b} f(x) \, dx

这是离散算术平均值在连续情形下的自然推广。在泛函分析中，这一概念与幂平均 (Power Mean) 或广义平均 (Generalized Mean) 相联系，后者定义为：

M_p(x_1, \ldots, x_n) = \left(\frac{1}{n}\sum_{i=1}^{n} x_i^p\right)^{1/p}

当 $p = 1$ 时即为算术平均值；当 $p \to 0$ 时趋近于几何平均数；当 $p = -1$ 时即为调和平均数。这一统一框架揭示了不同类型平均数之间的内在联系与层次结构。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。