ARTICLE

几何平均数

几何平均数 (Geometric Mean) 几何平均数 (Geometric Mean) 是一种衡量集中趋势 (Central Tendency) 的平均数,特别适用于处理那些本质上具有乘法关系或指数增长特性的数据集,例如增长率、比率或复利。它通过将 n 个数值的乘积开 n 次方根来计算。 与更为人熟知的算术平均数 (Arithmetic Mean) 不同

浏览 30 更新 2025-10-26

几何平均数 (Geometric Mean)

几何平均数 (Geometric Mean) 是一种衡量集中趋势 (Central Tendency) 的平均数,特别适用于处理那些本质上具有乘法关系或指数增长特性的数据集,例如增长率比率复利。它通过将 n n 个数值的乘积n n 次方根来计算。

与更为人熟知的算术平均数 (Arithmetic Mean) 不同,后者通过加总所有数值然后除以其个数来计算,几何平均数关注的是数据间的比例关系。因此,在金融学、经济学、生物学等领域中,当分析随时间变化的百分比或增长因子时,几何平均数是更为恰当的度量。

定义与计算

对于一组包含 n n 个正数的数据集 x1,x2,,xn x_1, x_2, \ldots, x_n ,其几何平均数 G G 的计算公式为:

G=x1x2xnn=(i=1nxi)1nG = \sqrt[n]{x_1 \cdot x_2 \cdot \ldots \cdot x_n} = \left(\prod_{i=1}^{n} x_i\right)^{\frac{1}{n}}

需要特别注意,这个定义要求所有 xi x_i 均为正数。如果数据集中包含0,几何平均数将为0。如果包含负数,则可能导致结果为虚数或无定义,因此几何平均数通常不用于包含负值的数据集。

对数形式

在实际计算中,尤其是当数值非常大或非常小时,直接计算乘积可能会导致数值溢出。此时,利用对数 (Logarithm) 的性质可以极大地简化计算。几何平均数的对数等于数据集中各数值对数的算术平均数。

ln(G)=ln((i=1nxi)1n)=1nln(i=1nxi)=1ni=1nln(xi)\ln(G) = \ln\left(\left(\prod_{i=1}^{n} x_i\right)^{\frac{1}{n}}\right) = \frac{1}{n} \ln\left(\prod_{i=1}^{n} x_i\right) = \frac{1}{n} \sum_{i=1}^{n} \ln(x_i)

因此,我们可以先计算各数值对数的算术平均值,然后取其反对数(指数)来得到几何平均数:

G=exp(1ni=1nln(xi))G = \exp\left(\frac{1}{n} \sum_{i=1}^{n} \ln(x_i)\right)

这种对数关系揭示了几何平均数的本质:它将一个乘法问题转化为一个加法问题进行处理。

应用场景与释义

几何平均数的核心应用在于其能够正确地平均"比率"。下面通过一个典型的投资回报率例子来说明其重要性。

场景:计算平均年化投资回报率

假设一项初始投资为 $100,000。

  • 第一年,投资增值 20\% (增长因子为 1.20),年末价值变为 $120,000。
  • 第二年,投资贬值 10\% (增长因子为 0.90),年末价值变为 $108,000。
  • 第三年,投资增值 15\% (增长因子为 1.15),年末价值变为 $124,200。

错误的计算方式:使用算术平均数

如果我们用算术平均数来计算年均增长率:

算术平均增长率=20%+(10%)+15%3=25%38.33%\text{算术平均增长率} = \frac{20\% + (-10\%) + 15\%}{3} = \frac{25\%}{3} \approx 8.33\%

根据这个结果,三年的最终价值应为 $100,000 ×(1.0833)3 \times (1.0833)^3 \approx $127,122,这与实际的最终价值 $124,200 不符。因此,算术平均数给出了一个被高估的、误导性的结果。

正确的计算方式:使用几何平均数

我们应该对增长因子(1+回报率)使用几何平均数来找到恒定的年均增长因子。

几何平均增长因子=1.20×0.90×1.153=1.24231.0749\text{几何平均增长因子} = \sqrt[3]{1.20 \times 0.90 \times 1.15} = \sqrt[3]{1.242} \approx 1.0749

这个结果意味着,平均而言,这项投资每年以 7.49\% 的速度增长。我们可以验证这个结果:

最终价值=100,000×(1.0749)3100,000×1.242=124,200\text{最终价值} = \text{$}100,000 \times (1.0749)^3 \approx \text{$}100,000 \times 1.242 = \text{$}124,200

这个结果与实际的最终价值完全吻合。因此,几何平均数准确地反映了在整个投资期间,能够产生相同最终结果的恒定年度投资回报率 (Return on Investment)。

其他重要应用场景包括:

  • 计算通货膨胀率:在计算多年的平均通货膨胀率时。
  • 构建金融指数:一些市场指数,特别是等权重指数,会使用几何平均法来计算。
  • 科学与工程:在处理物理或生物过程中具有指数变化规律的数据时,例如细胞增长、放射性衰变等。

主要性质

  1. 与算术平均数的关系:算术-几何平均数不等式

对于任何一组非负实数,其算术平均数总是大于或等于其几何平均数。等号成立的唯一情况是当且仅当数据集中所有数值都相等时。这被称为算术-几何平均数不等式 (AM-GM Inequality)。

x1+x2++xnnx1x2xnn\frac{x_1 + x_2 + \ldots + x_n}{n} \geq \sqrt[n]{x_1 x_2 \ldots x_n}

这个不等式意味着,对于波动的数据集,算术平均数会比几何平均数更大。数据的波动性越大,两者之间的差距也越大。

  1. 对异常值的敏感性

与算术平均数相比,几何平均数对极大异常值 (Outlier) 的敏感度较低。例如,对于数据集 {2, 4, 8, 256},其算术平均数为 67.5,而几何平均数为 819249.51 \sqrt[4]{8192} \approx 9.51 。几何平均数更好地反映了数据的中心位置。 然而,几何平均数对接近零的数值极其敏感。只要数据集中有一个值为0,无论其他值多大,几何平均数都将为0。

  1. 标度不变性

如果将数据集中的每个数值都乘以一个正常数 c c ,那么新的几何平均数将是原几何平均数乘以 c c

G(cx1,cx2,,cxn)=cG(x1,x2,,xn)G(cx_1, cx_2, \ldots, cx_n) = c \cdot G(x_1, x_2, \ldots, x_n)

与其他平均数的比较

统计学中,选择哪种平均数取决于数据的性质和分析的目的。

  • 算术平均数 (Arithmetic Mean):适用于数据呈加法关系或大致对称分布的情况。它回答了"如果所有值都相等,它们会是多少才能得到相同的总和?"的问题。
  • 几何平均数 (Geometric Mean):适用于数据呈乘法关系、比率、或指数增长的情况。它回答了"如果每个时期的增长率都相同,它会是多少才能得到相同的最终结果?"的问题。
  • 调和平均数 (Harmonic Mean):适用于平均速率、速度或其他比率的倒数有意义的情况。

总而言之,几何平均数是数据分析工具箱中一个不可或缺的工具,尤其是在处理随时间变化的百分比和金融回报时,它提供了比算术平均数更精确和有意义的度量。

使用注意事项

使用几何平均数时需要注意以下几点:

  • 数据必须为正数:几何平均数要求所有数据点均为正数。若含有零值,则结果为零而失去意义;若含有负值,则可能得到复数结果,无法解释。
  • 与算术平均数的差距反映波动性:对于同一组数据,几何平均数不会大于算术平均数。两者差距越大,说明数据波动越剧烈,此时几何平均数是更可靠的集中趋势度量。
  • 适用于乘法过程:几何平均数本质上是为乘法关系设计的——当问题涉及复合增长率、连乘比率或指数变化时,应优先考虑使用几何平均数而非算术平均数。
  • 大数计算用对数形式:当数据量很大或数值范围极广时,直接连乘可能导致数值溢出,务必使用对数变换后的公式进行计算。