ARTICLE

加权平均值

加权平均值(weighted average / weighted mean)是对一组数据点赋予不同重要性权重后求得的平均值。它是算术平均值在最基本方向上的推广——当各数据点重要性不同时,简单相加除以个数会扭曲真实中心趋势,加权平均通过权重系统纠正这一偏差。 定义 设有 n 个数据点 x_1, x_2, , x_n ,对应正权重 w_1, w_2, , w_

浏览 0 更新 2025-10-26

加权平均值(weighted average / weighted mean)是对一组数据点赋予不同重要性权重后求得的平均值。它是算术平均值在最基本方向上的推广——当各数据点重要性不同时,简单相加除以个数会扭曲真实中心趋势,加权平均通过权重系统纠正这一偏差。

定义

设有 n n 个数据点 x1,x2,,xn x_1, x_2, \ldots, x_n ,对应正权重 w1,w2,,wn>0 w_1, w_2, \ldots, w_n > 0 ,则加权算术平均值为:

xˉw=i=1nwixii=1nwi\bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}

pi=wi/wj p_i = w_i / \sum w_j 为归一化权重(满足 pi=1 \sum p_i = 1 ),公式简化为:

xˉw=i=1npixi\bar{x}_w = \sum_{i=1}^{n} p_i x_i

这是后续所有加权平均变体的核心形式——权重归一化后,加权平均即数据点关于权重分布的数学期望

核心性质

1. 退化:算术平均

当所有权重相等(w1=w2==wn w_1 = w_2 = \cdots = w_n )时,加权平均退化为算术平均:

xˉw=1ni=1nxi\bar{x}_w = \frac{1}{n}\sum_{i=1}^{n} x_i

这意味着算术平均是加权平均在「等权重假设」下的特例。

2. 线性性与凸组合

归一化权重下,xˉw \bar{x}_w 是数据点的凸组合(convex combination)。其值必落在数据点的最小值和最大值之间:

min{xi}xˉwmax{xi}\min\{x_i\} \leq \bar{x}_w \leq \max\{x_i\}

这保证加权平均始终作为「代表值」存在。与简单算术平均不同,加权平均可以向高权重数据点「倾斜」。

3. 线性变换

对数据做线性变换 yi=axi+b y_i = a x_i + b ,加权平均同步变换:

yˉw=axˉw+b\bar{y}_w = a \bar{x}_w + b

该性质确保了度量单位的无关性(如摄氏转华氏后加权平均可对应转换)。

4. 权重的尺度不变性

权重同乘常数 c>0 c > 0 不改变加权平均值——因为分子分母同时缩放,结果抵消。只有相对权重有意义。

权重选择的常见模式

频数权重

最常见情形:数据本身含重复值。若值 xi x_i 出现 fi f_i 次,以频数为权重:

xˉ=fixifi\bar{x} = \frac{\sum f_i x_i}{\sum f_i}

这等价于将原始未聚合数据做简单算术平均。考试分数按学分加权也是同一逻辑——学分即「重要性的频数」。

倒数权重(精度加权)

在物理测量与统计学中,对精度不同的观测值取加权平均时,权重的标准取法为各观测方差的倒数:

wi=1σi2w_i = \frac{1}{\sigma_i^2}

其数学依据是:此权重使加权平均的方差最小化(BLUE——最佳线性无偏估计)。精度越高的测量(方差越小)越值得信赖,权重自然越大。

时间衰减权重

时间序列分析中,近期数据的参考价值通常高于远期数据。令权重呈指数衰减:

wt=λTt,0<λ<1w_t = \lambda^{T-t}, \quad 0 < \lambda < 1

其中 T T 为当前时刻。λ \lambda 越接近 0,远期数据被遗忘得越快。这在金融技术分析(如指数移动平均 EMA)中广泛使用。

典型例子

| 场景 | 数据 xi x_i | 权重 wi w_i | 加权平均含义 | |------|-----------|-----------|-------------| | GPA 绩点 | 各科绩点 | 各科学分 | 学科学分权重综合成绩 | | 投资组合收益率 | 各资产收益率 | 各资产持仓市值 | 组合整体收益 | | 综合物价指数 | 各商品价格变动率 | 各商品消费支出占比 | 居民感受的「平均通胀」 | | 问卷调查 | 各选项得分 | 各选项被选频次 | 反映分布结构的均分 |

加权几何平均

当数据本质是比率或增长率时,乘法逻辑取代加法逻辑,加权几何平均更为恰当:

Gw=(i=1nxiwi)1/wi=i=1nxipiG_w = \left(\prod_{i=1}^{n} x_i^{w_i}\right)^{1/\sum w_i} = \prod_{i=1}^{n} x_i^{p_i}

对数视角下,加权几何平均即对数数据的加权算术平均取指数:

lnGw=i=1npilnxi\ln G_w = \sum_{i=1}^{n} p_i \ln x_i

典型应用:投资多年复合收益率。若三年收益率分别为 +10% +10\% 5% -5\% +20% +20\% ,对应增长因子为 1.10,0.95,1.20 1.10, 0.95, 1.20 ,等权几何平均为:

G=(1.10×0.95×1.20)1/31.079G = (1.10 \times 0.95 \times 1.20)^{1/3} \approx 1.079

即年均复合增长率约 7.9% 7.9\% 。若错误地使用算术平均 (10%5%+20%)/3=8.33% (10\% - 5\% + 20\%) / 3 = 8.33\% ,会高估真实收益——这是算术平均忽略「复利叠加效应」的经典陷阱。

加权调和平均

对「比率」类数据(速度、密度、单位价格等),调和平均能正确处理分母变化:

Hw=wi(wi/xi)=1pi/xiH_w = \frac{\sum w_i}{\sum (w_i / x_i)} = \frac{1}{\sum p_i / x_i}

经典例子:汽车以 60 60 km/h 行驶前半程,以 40 40 km/h 行驶后半程,平均速度并非 50 50 km/h,而是:

H=2160+140=48 km/hH = \frac{2}{\frac{1}{60} + \frac{1}{40}} = 48 \text{ km/h}

原因在于:时间消耗与速度成反比,调和平均等价于「以时间为权重的速度加权平均」。时间权重比距离权重大,而时间恰恰取决于速度本身——调和平均内在地完成了这种循环校正。

三种均值的序关系

对同一组正数 xi x_i 和正权重 wi w_i ,恒有:

HwGwxˉwH_w \leq G_w \leq \bar{x}_w

等号成立当且仅当所有 xi x_i 完全相等。该不等式是幂平均(power mean)单调性的推论:指数越小,均值越小。调和、几何、算术分别对应幂次 1,0,1 -1, 0, 1

在概率论与经济学的联系

期望即加权平均

离散随机变量 X X 的数学期望本质上就是以概率为权重的加权平均:

E[X]=ipixi\mathbb{E}[X] = \sum_{i} p_i x_i

连续情形则推广为积分形式 xf(x)dx \int x f(x) dx ——以概率密度为权重。大数定律保证了样本均值向这一加权中心收敛。由此,整个概率论的中心趋势描述都建立在加权平均的框架之上。

价格指数理论

CPI、GDP 平减指数等宏观经济指标的核心构造就是加权平均。Laspeyres 指数以基期消费量为权重,Paasche 指数以现期消费量为权重:

Laspeyres: PL=ptq0p0q0,Paasche: PP=ptqtp0qt\text{Laspeyres: } P_L = \frac{\sum p_t q_0}{\sum p_0 q_0}, \quad \text{Paasche: } P_P = \frac{\sum p_t q_t}{\sum p_0 q_t}

两者的差异(通常 Laspeyres 偏高、Paasche 偏低)反映了消费者替代偏误——这正是权重选择敏感性的宏观例证。Fisher 理想指数取两者的几何平均,试图折中这一偏误。

投资组合优化

Markowitz 均值-方差框架中,组合期望收益率即各资产期望收益率的持仓加权平均:

E[Rp]=iwiE[Ri]\mathbb{E}[R_p] = \sum_{i} w_i \mathbb{E}[R_i]

但组合风险(方差)不是各资产风险的加权平均——它涉及协方差项 ijwiwjσij \sum_i \sum_j w_i w_j \sigma_{ij} 。这是加权平均「线性聚合」能力的边界:它能完美聚合一阶矩,但无法直接聚合二阶及以上矩。

> 加权平均本质上是对「不同重要性」的形式化编码。权重的选择决定了「平均」的语义——是「人人平等」(等权)还是「按贡献度量」(频数权重),是「信任精度」(倒数权重)还是「活在当下」(时间衰减权重)。在经济学中,权重的选择往往比数据本身更耐人寻味:CPI 的「一篮子商品」权重争议、GDP 中各产业的贡献权重演替——这些权重背后是价值判断与政治博弈。数据告诉你世界是什么,而权重暗示你世界应该看重什么。