ARTICLE

合并样本的均值与标准差计算

合并样本的均值与标准差计算 (Mean and Standard Deviation of a Combined Sample) 在统计学中,当我们拥有多个独立的子样本(或分组)数据,并且已知每个子样本的大小、均值和标准差时,我们常常需要计算将这些子样本合并成一个大样本后的总体均值和标准差。这一过程在元分析 (Meta-analysis)、分布式计算以及处理

浏览 29 更新 2025-10-22

合并样本的均值与标准差计算 (Mean and Standard Deviation of a Combined Sample)

统计学中,当我们拥有多个独立的子样本(或分组)数据,并且已知每个子样本的大小、均值标准差时,我们常常需要计算将这些子样本合并成一个大样本后的总体均值和标准差。这一过程在元分析 (Meta-analysis)、分布式计算以及处理来自不同来源的数据时至关重要。直接对各子样本的均值或标准差进行简单平均或加权平均通常是错误的,需要使用特定的公式来确保计算的准确性。

一. 合并均值的计算 (Calculating the Combined Mean)

合并多个子样本的均值相对直接,其结果是各子样本均值的 加权平均值,权重为每个子样本的大小。

假设我们有 k k 个子样本,对于第 i i 个子样本(其中 i=1,2,,k i = 1, 2, \dots, k ):

  • ni n_i 是第 i i 个子样本的大小(观测数量)。
  • xˉi \bar{x}_i 是第 i i 个子样本的算术平均数

将所有子样本合并后,总样本的大小 N N 为所有子样本大小之和:

N=i=1kni=n1+n2++nkN = \sum_{i=1}^{k} n_i = n_1 + n_2 + \dots + n_k

合并后的大样本的均值,记为 xˉc \bar{x}_c (combined mean),其计算公式为:

xˉc=i=1knixˉiN=n1xˉ1+n2xˉ2++nkxˉkn1+n2++nk\bar{x}_c = \frac{\sum_{i=1}^{k} n_i \bar{x}_i}{N} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2 + \dots + n_k\bar{x}_k}{n_1 + n_2 + \dots + n_k}

逻辑解释: 这个公式的背后逻辑是均值的基本定义。均值等于所有观测值的总和除以观测值的数量。nixˉi n_i \bar{x}_i 正是第 i i 个子样本中所有观测值的总和(因为 xˉi=xni \bar{x}_i = \frac{\sum x}{n_i} )。因此,分子 i=1knixˉi \sum_{i=1}^{k} n_i \bar{x}_i 代表了合并后大样本所有观测值的总和,分母 N N 则是总观测数量。

示例: 假设一个班级有两组学生参加了考试。

  • A组:有 n1=20 n_1 = 20 名学生,平均分为 xˉ1=85 \bar{x}_1 = 85 分。
  • B组:有 n2=30 n_2 = 30 名学生,平均分为 xˉ2=75 \bar{x}_2 = 75 分。

合并后全班的总人数为 N=20+30=50 N = 20 + 30 = 50 人。 全班的平均分 xˉc \bar{x}_c 为:

xˉc=n1xˉ1+n2xˉ2n1+n2=(20×85)+(30×75)20+30=1700+225050=395050=79 分\bar{x}_c = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} = \frac{(20 \times 85) + (30 \times 75)}{20 + 30} = \frac{1700 + 2250}{50} = \frac{3950}{50} = 79 \text{ 分}

注意,直接对两个平均分求算术平均 (85+752=80) (\frac{85+75}{2} = 80) 是不正确的,因为它没有考虑到两个组别的人数差异。

二. 合并标准差的计算 (Calculating the Combined Standard Deviation)

计算合并样本的标准差 (Standard Deviation) 比计算均值要复杂得多。这不能通过简单地对子样本的标准差或方差 (Variance) 进行加权平均来完成。正确的方法是先计算合并后的总方差 sc2 s_c^2 ,然后取其平方根得到合并标准差 sc s_c

该计算基于方差分析 (ANOVA) 的核心思想,即将总体变异分解为 组内变异 (Within-group variation)组间变异 (Between-group variation)

继续使用之前的符号,并增加:

  • si s_i 是第 i i 个子样本的标准差。
  • si2 s_i^2 是第 i i 个子样本的方差。

合并样本的方差 sc2 s_c^2 的计算公式为:

sc2=i=1k[(ni1)si2+ni(xˉixˉc)2]N1s_c^2 = \frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1}

合并样本的标准差 sc s_c 为:

sc=sc2=i=1k[(ni1)si2+ni(xˉixˉc)2]N1s_c = \sqrt{s_c^2} = \sqrt{\frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1}}

公式分解与逻辑解释: 这个公式的分子源于离差平方和 (Sum of Squares) 的可加性原理。总离差平方和 (SST SST ) 等于组内离差平方和 (SSW SSW ) 与组间离差平方和 (SSB SSB ) 之和。

  • SST=(N1)sc2 SST = (N-1)s_c^2 :合并后大样本的总离差平方和。
  • SSW=i=1k(ni1)si2 SSW = \sum_{i=1}^{k} (n_i-1)s_i^2 :所有子样本的组内离差平方和之和。(ni1)si2 (n_i-1)s_i^2 是第 i i 个子样本的离差平方和。这一部分度量了每个组内部的数据波动。
  • SSB=i=1kni(xˉixˉc)2 SSB = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x}_c)^2 :组间离差平方和。这一部分度量了各子样本的均值 xˉi \bar{x}_i 相对于总均值 xˉc \bar{x}_c 的波动。

因此,我们有恒等式 SST=SSW+SSB SST = SSW + SSB 。将 SST SST 除以总的自由度 (Degrees of Freedom) N1 N-1 即可得到合并后的样本方差 sc2 s_c^2

示例: 延续上一个例子,并增加标准差信息。

  • A组:n1=20 n_1 = 20 , xˉ1=85 \bar{x}_1 = 85 , s1=5 s_1 = 5 (因此方差 s12=25 s_1^2 = 25 )。
  • B组:n2=30 n_2 = 30 , xˉ2=75 \bar{x}_2 = 75 , s2=6 s_2 = 6 (因此方差 s22=36 s_2^2 = 36 )。

我们已经计算出总人数 N=50 N=50 ,合并均值 xˉc=79 \bar{x}_c = 79

现在计算合并方差 sc2 s_c^2

  1. 计算分子中的组内离差平方和部分 (SSW SSW ):
  • A组: (n11)s12=(201)×25=19×25=475 (n_1 - 1)s_1^2 = (20 - 1) \times 25 = 19 \times 25 = 475
  • B组: (n21)s22=(301)×36=29×36=1044 (n_2 - 1)s_2^2 = (30 - 1) \times 36 = 29 \times 36 = 1044
  • SSW=475+1044=1519 SSW = 475 + 1044 = 1519
  1. 计算分子中的组间离差平方和部分 (SSB SSB ):
  • A组: n1(xˉ1xˉc)2=20×(8579)2=20×62=20×36=720 n_1(\bar{x}_1 - \bar{x}_c)^2 = 20 \times (85 - 79)^2 = 20 \times 6^2 = 20 \times 36 = 720
  • B组: n2(xˉ2xˉc)2=30×(7579)2=30×(4)2=30×16=480 n_2(\bar{x}_2 - \bar{x}_c)^2 = 30 \times (75 - 79)^2 = 30 \times (-4)^2 = 30 \times 16 = 480
  • SSB=720+480=1200 SSB = 720 + 480 = 1200
  1. 计算合并方差 sc2 s_c^2
sc2=SSW+SSBN1=1519+1200501=27194955.49s_c^2 = \frac{SSW + SSB}{N - 1} = \frac{1519 + 1200}{50 - 1} = \frac{2719}{49} \approx 55.49
  1. 计算合并标准差 sc s_c
sc=55.497.45s_c = \sqrt{55.49} \approx 7.45

因此,全班学生成绩的合并标准差约为 7.45 分。

三. 总体与样本的区分 (Population vs. Sample)

上述公式是针对 样本 (Sample) 数据。如果我们处理的是 总体 (Population) 的子集,公式会略有不同,主要区别在于方差的定义(分母为 N N 而非 n1 n-1 )。

若各组为总体,则符号通常用希腊字母表示:

  • Ni N_i 是第 i i 个子总体的大小。
  • μi \mu_i 是第 i i 个子总体的均值。
  • σi2 \sigma_i^2 是第 i i 个子总体的方差。

合并总体的方差 σc2 \sigma_c^2 公式为:

σc2=i=1k[Niσi2+Ni(μiμc)2]i=1kNi\sigma_c^2 = \frac{\sum_{i=1}^{k} \left[ N_i\sigma_i^2 + N_i(\mu_i - \mu_c)^2 \right]}{\sum_{i=1}^{k} N_i}

其中 μc \mu_c 是合并后的总体均值。注意分母是总大小 Ntotal N_{total} ,而不是 Ntotal1 N_{total}-1

四. 应用与重要性

  1. 科学研究:在元分析中,研究人员汇集多个已发表研究的结果。由于无法获得原始数据,他们只能利用已发表的各研究的均值、标准差和样本量来计算一个总体的效应量。
  2. 大数据与分布式计算:在处理海量数据集时,数据常被分割成小块(chunks)并分发到不同的计算节点上。每个节点可以独立计算其数据块的 n n , xˉ \bar{x} , s s 。最后,主节点可以使用合并公式来获得整个数据集的统计特性,而无需传输所有原始数据,这极大地提高了效率(例如在MapReduce框架中)。
  3. 商业与质量控制:企业可能会综合不同生产线或不同季度的产品质量数据(如平均尺寸、标准差)来评估整体生产的稳定性和一致性。