# 算术平均数 (Arithmetic Mean)
算术平均数 (Arithmetic Mean),通常简称为 平均数 (Mean) 或 均值,是{{{统计学}}}中最基本、最常用的{{{中心趋势}}} (Central Tendency) 的度量。它描述了一组数据的“平均水平”或“中心位置”,通过将数据集中所有数值相加,然后除以数值的个数得到。
在日常语言中,当我们提到“平均”时,通常指的就是算术平均数。例如,计算一个班级的平均成绩,或者一个月的平均开销。
## 定义与公式
算术平均数的计算需要区分是针对{{{总体}}} (Population) 还是{{{样本}}} (Sample)。
一. {{{总体均值}}} (Population Mean) 总体均值是指一个完整数据集合(总体)的算术平均数。它是一个描述总体特征的固定参数,通常用希腊字母 $\mu$ (mu) 表示。 假设一个有限总体包含 $N$ 个观测值,分别为 $x_1, x_2, \ldots, x_N$,其总体均值的计算公式为: $$ \mu = \frac{\sum_{i=1}^{N} x_i}{N} = \frac{x_1 + x_2 + \cdots + x_N}{N} $$
二. {{{样本均值}}} (Sample Mean) 在实际研究中,我们往往无法获取总体所有的数据,因此会从总体中抽取一个子集,即样本。样本均值是这个样本的算术平均数,用 $\bar{x}$ ("x-bar") 表示。它是对总体均值 $\mu$ 的一个{{{点估计}}} (Point Estimate)。 假设一个样本包含 $n$ 个观测值,分别为 $x_1, x_2, \ldots, x_n$,其样本均值的计算公式为: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{x_1 + x_2 + \cdots + x_n}{n} $$ 这里的 $\sum$ 是{{{求和符号}}},表示将所有观测值相加。
### 计算示例
假设一名学生在五次数学测验中的得分分别为:85, 92, 78, 95, 88。 为了计算他的平均分(样本均值),我们执行以下步骤: 1. 加总所有数值:$85 + 92 + 78 + 95 + 88 = 438$ 2. 计算数值的个数:共有 5 次测验,所以 $n=5$。 3. 将总和除以个数: $$ \bar{x} = \frac{438}{5} = 87.6 $$ 因此,该学生这五次测验的算术平均分是 87.6 分。
## 算术平均数的主要性质
算术平均数具有几个重要的数学和统计性质,这使其在理论和应用中都至关重要。
1. {{{离差}}}之和为零 (Sum of Deviations is Zero) 每个数据点与均值之间的差异称为“离差” ($x_i - \bar{x}$)。所有数据点的离差之和恒等于零。 $$ \sum_{i=1}^{n} (x_i - \bar{x}) = 0 $$ 证明: $$ \sum_{i=1}^{n} (x_i - \bar{x}) = \sum_{i=1}^{n} x_i - \sum_{i=1}^{n} \bar{x} = (n \cdot \bar{x}) - (n \cdot \bar{x}) = 0 $$ 这个性质表明,均值是数据的“平衡点”。
2. 最小化平方离差和 (Minimizes Sum of Squared Deviations) 算术平均数是唯一能够使数据集中各数值与其的平方离差之和达到最小的值。也就是说,对于任意常数 $c$,$\sum_{i=1}^{n} (x_i - c)^2$ 在 $c = \bar{x}$ 时取得最小值。 这个性质是{{{最小二乘法}}} (Method of Least Squares) 的理论基础,该方法在{{{回归分析}}}等领域中被广泛使用。均值是对于这组数据而言,在平方损失下的“最佳”代表。
3. 线性变换性质 (Property of Linear Transformation) 如果对一组数据 $X = \{x_1, x_2, \ldots, x_n\}$ 进行线性变换,得到一组新数据 $Y = \{y_1, y_2, \ldots, y_n\}$,其中 $y_i = a x_i + b$($a$ 和 $b$ 为常数),那么新的均值 $\bar{y}$ 与原均值 $\bar{x}$ 之间也存在同样的关系: $$ \bar{y} = a \bar{x} + b $$ 示例:将一组摄氏度温度数据转换为华氏度。转换公式为 $F = \frac{9}{5}C + 32$。如果平均温度为 $\bar{C} = 20$ 摄氏度,那么平均华氏度可以直接计算为 $\bar{F} = \frac{9}{5}(20) + 32 = 36 + 32 = 68$ 华氏度。
4. 对{{{离群值}}} (Outliers) 敏感 这是算术平均数最显著的弱点。一个或几个极端值(过大或过小)会显著地影响均值的大小,使其偏离数据的主体部分,从而可能无法准确反映数据的中心趋势。 示例:五位员工的年薪(单位:$)分别为:$50,000, $52,000, $48,000, $55,000, $500,000。 其算术平均数为: $$ \bar{x} = \frac{50000+52000+48000+55000+500000}{5} = \frac{705000}{5} = $141,000 $$ 这个平均值 $141,000 远高于其中四名员工的薪水,因为它被 $500,000 这个离群值严重拉高了。在这种情况下,{{{中位数}}} (Median) 可能是更好的中心趋势度量。
## 与其他中心趋势度量的比较
* {{{中位数}}} (Median):将数据排序后的中间值。与算术平均数不同,中位数不受离群值的影响,因此对于偏态分布或含有极端值的数据集,中位数通常能更好地代表其中心位置。 * {{{众数}}} (Mode):数据集中出现频率最高的值。它适用于任何类型的数据(包括{{{名义数据}}}),但可能不存在或存在多个。 * {{{几何平均数}}} (Geometric Mean):主要用于计算比率、增长率或利率的平均值。例如,计算多年投资的平均回报率。 * {{{调和平均数}}} (Harmonic Mean):主要用于计算速率或比率的平均值,例如平均速度。
## 加权算术平均数 (Weighted Arithmetic Mean)
在某些情况下,数据集中的每个数值具有不同的重要性或权重。此时,应使用加权算术平均数。 其计算公式为: $$ \bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} $$ 其中 $w_i$ 是第 $i$ 个观测值 $x_i$ 的{{{权重}}} (Weight)。
示例:一门课程的最终成绩由三部分构成:平时作业(占20%),期中考试(占30%),期末考试(占50%)。某学生这三部分的分数分别为80、75和85。 其加权平均分为: $$ \bar{x}_w = \frac{(0.20 \times 80) + (0.30 \times 75) + (0.50 \times 85)}{0.20 + 0.30 + 0.50} = \frac{16 + 22.5 + 42.5}{1} = 81 $$ 该学生的最终加权平均分为 81 分。如果使用简单算术平均数,结果将是 $(80+75+85)/3 \approx 80$,这未能反映出期末考试的更高重要性。 {{{金融学}}}中计算{{{投资组合}}}的预期回报率也是加权平均数的一个典型应用。