知经 KNOWECON · 卓越的经济金融统计数学学习平台

合并样本的均值与标准差计算

# 合并样本的均值与标准差计算 (Mean and Standard Deviation of a Combined Sample)

在{{{统计学}}}中,当我们拥有多个独立的子样本(或分组)数据,并且已知每个子样本的大小、{{{均值}}}和{{{标准差}}}时,我们常常需要计算将这些子样本合并成一个大样本后的总体均值和标准差。这一过程在{{{元分析}}} (Meta-analysis)、分布式计算以及处理来自不同来源的数据时至关重要。直接对各子样本的均值或标准差进行简单平均或加权平均通常是错误的,需要使用特定的公式来确保计算的准确性。

## 一. 合并均值的计算 (Calculating the Combined Mean)

合并多个子样本的均值相对直接,其结果是各子样本均值的 加权平均值,权重为每个子样本的大小。

假设我们有 $k$ 个子样本,对于第 $i$ 个子样本(其中 $i = 1, 2, \dots, k$): * $n_i$ 是第 $i$ 个子样本的大小(观测数量)。 * $\bar{x}_i$ 是第 $i$ 个子样本的{{{算术平均数}}}。

将所有子样本合并后,总样本的大小 $N$ 为所有子样本大小之和: $$ N = \sum_{i=1}^{k} n_i = n_1 + n_2 + \dots + n_k $$

合并后的大样本的均值,记为 $\bar{x}_c$ (combined mean),其计算公式为: $$ \bar{x}_c = \frac{\sum_{i=1}^{k} n_i \bar{x}_i}{N} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2 + \dots + n_k\bar{x}_k}{n_1 + n_2 + \dots + n_k} $$

逻辑解释: 这个公式的背后逻辑是均值的基本定义。均值等于所有观测值的总和除以观测值的数量。$n_i \bar{x}_i$ 正是第 $i$ 个子样本中所有观测值的总和(因为 $\bar{x}_i = \frac{\sum x}{n_i}$)。因此,分子 $\sum_{i=1}^{k} n_i \bar{x}_i$ 代表了合并后大样本所有观测值的总和,分母 $N$ 则是总观测数量。

示例: 假设一个班级有两组学生参加了考试。 * A组:有 $n_1 = 20$ 名学生,平均分为 $\bar{x}_1 = 85$ 分。 * B组:有 $n_2 = 30$ 名学生,平均分为 $\bar{x}_2 = 75$ 分。

合并后全班的总人数为 $N = 20 + 30 = 50$ 人。 全班的平均分 $\bar{x}_c$ 为: $$ \bar{x}_c = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} = \frac{(20 \times 85) + (30 \times 75)}{20 + 30} = \frac{1700 + 2250}{50} = \frac{3950}{50} = 79 \text{ 分} $$ 注意,直接对两个平均分求算术平均 $(\frac{85+75}{2} = 80)$ 是不正确的,因为它没有考虑到两个组别的人数差异。

## 二. 合并标准差的计算 (Calculating the Combined Standard Deviation)

计算合并样本的{{{标准差}}} (Standard Deviation) 比计算均值要复杂得多。这不能通过简单地对子样本的标准差或{{{方差}}} (Variance) 进行加权平均来完成。正确的方法是先计算合并后的总方差 $s_c^2$,然后取其平方根得到合并标准差 $s_c$。

该计算基于{{{方差分析}}} (ANOVA) 的核心思想,即将总体{{{变异}}}分解为 组内变异 (Within-group variation)组间变异 (Between-group variation)

继续使用之前的符号,并增加: * $s_i$ 是第 $i$ 个子样本的标准差。 * $s_i^2$ 是第 $i$ 个子样本的方差。

合并样本的方差 $s_c^2$ 的计算公式为: $$ s_c^2 = \frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1} $$

合并样本的标准差 $s_c$ 为: $$ s_c = \sqrt{s_c^2} = \sqrt{\frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1}} $$

公式分解与逻辑解释: 这个公式的分子源于{{{离差平方和}}} (Sum of Squares) 的可加性原理。总离差平方和 ($SST$) 等于组内离差平方和 ($SSW$) 与组间离差平方和 ($SSB$) 之和。 * $SST = (N-1)s_c^2$:合并后大样本的总离差平方和。 * $SSW = \sum_{i=1}^{k} (n_i-1)s_i^2$:所有子样本的组内离差平方和之和。$(n_i-1)s_i^2$ 是第 $i$ 个子样本的离差平方和。这一部分度量了每个组内部的数据波动。 * $SSB = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x}_c)^2$:组间离差平方和。这一部分度量了各子样本的均值 $\bar{x}_i$ 相对于总均值 $\bar{x}_c$ 的波动。

因此,我们有恒等式 $SST = SSW + SSB$。将 $SST$ 除以总的{{{自由度}}} (Degrees of Freedom) $N-1$ 即可得到合并后的样本方差 $s_c^2$。

示例: 延续上一个例子,并增加标准差信息。 * A组:$n_1 = 20$, $\bar{x}_1 = 85$, $s_1 = 5$ (因此方差 $s_1^2 = 25$)。 * B组:$n_2 = 30$, $\bar{x}_2 = 75$, $s_2 = 6$ (因此方差 $s_2^2 = 36$)。

我们已经计算出总人数 $N=50$,合并均值 $\bar{x}_c = 79$。

现在计算合并方差 $s_c^2$: 1. 计算分子中的组内离差平方和部分 ($SSW$): * A组: $(n_1 - 1)s_1^2 = (20 - 1) \times 25 = 19 \times 25 = 475$ * B组: $(n_2 - 1)s_2^2 = (30 - 1) \times 36 = 29 \times 36 = 1044$ * $SSW = 475 + 1044 = 1519$ 2. 计算分子中的组间离差平方和部分 ($SSB$): * A组: $n_1(\bar{x}_1 - \bar{x}_c)^2 = 20 \times (85 - 79)^2 = 20 \times 6^2 = 20 \times 36 = 720$ * B组: $n_2(\bar{x}_2 - \bar{x}_c)^2 = 30 \times (75 - 79)^2 = 30 \times (-4)^2 = 30 \times 16 = 480$ * $SSB = 720 + 480 = 1200$ 3. 计算合并方差 $s_c^2$: $$ s_c^2 = \frac{SSW + SSB}{N - 1} = \frac{1519 + 1200}{50 - 1} = \frac{2719}{49} \approx 55.49 $$ 4. 计算合并标准差 $s_c$: $$ s_c = \sqrt{55.49} \approx 7.45 $$

因此,全班学生成绩的合并标准差约为 7.45 分。

## 三. 总体与样本的区分 (Population vs. Sample)

上述公式是针对 {{{样本}}} (Sample) 数据。如果我们处理的是 {{{总体}}} (Population) 的子集,公式会略有不同,主要区别在于方差的定义(分母为 $N$ 而非 $n-1$)。

若各组为总体,则符号通常用希腊字母表示: * $N_i$ 是第 $i$ 个子总体的大小。 * $\mu_i$ 是第 $i$ 个子总体的均值。 * $\sigma_i^2$ 是第 $i$ 个子总体的方差。

合并总体的方差 $\sigma_c^2$ 公式为: $$ \sigma_c^2 = \frac{\sum_{i=1}^{k} \left[ N_i\sigma_i^2 + N_i(\mu_i - \mu_c)^2 \right]}{\sum_{i=1}^{k} N_i} $$ 其中 $\mu_c$ 是合并后的总体均值。注意分母是总大小 $N_{total}$,而不是 $N_{total}-1$。

## 四. 应用与重要性

1. 科学研究:在{{{元分析}}}中,研究人员汇集多个已发表研究的结果。由于无法获得原始数据,他们只能利用已发表的各研究的均值、标准差和样本量来计算一个总体的效应量。 2. 大数据与分布式计算:在处理海量数据集时,数据常被分割成小块(chunks)并分发到不同的计算节点上。每个节点可以独立计算其数据块的 $n$, $\bar{x}$, $s$。最后,主节点可以使用合并公式来获得整个数据集的统计特性,而无需传输所有原始数据,这极大地提高了效率(例如在{{{MapReduce}}}框架中)。 3. 商业与质量控制:企业可能会综合不同生产线或不同季度的产品质量数据(如平均尺寸、标准差)来评估整体生产的稳定性和一致性。