合并样本的均值与标准差计算 (Mean and Standard Deviation of a Combined Sample)
在统计学 中,当我们拥有多个独立的子样本(或分组)数据,并且已知每个子样本的大小、均值 和标准差 时,我们常常需要计算将这些子样本合并成一个大样本后的总体均值和标准差。这一过程在元分析 (Meta-analysis)、分布式计算以及处理来自不同来源的数据时至关重要。直接对各子样本的均值或标准差进行简单平均或加权平均通常是错误的,需要使用特定的公式来确保计算的准确性。
一. 合并均值的计算 (Calculating the Combined Mean)
合并多个子样本的均值相对直接,其结果是各子样本均值的 加权平均值 ,权重为每个子样本的大小。
假设我们有 k k k 个子样本,对于第 i i i 个子样本(其中 i = 1 , 2 , … , k i = 1, 2, \dots, k i = 1 , 2 , … , k ):
n i n_i n i 是第 i i i 个子样本的大小(观测数量)。x ˉ i \bar{x}_i x ˉ i 是第 i i i 个子样本的算术平均数 。
将所有子样本合并后,总样本的大小 N N N 为所有子样本大小之和:
N = ∑ i = 1 k n i = n 1 + n 2 + ⋯ + n k N = \sum_{i=1}^{k} n_i = n_1 + n_2 + \dots + n_k N = i = 1 ∑ k n i = n 1 + n 2 + ⋯ + n k
合并后的大样本的均值,记为 x ˉ c \bar{x}_c x ˉ c (combined mean),其计算公式为:
x ˉ c = ∑ i = 1 k n i x ˉ i N = n 1 x ˉ 1 + n 2 x ˉ 2 + ⋯ + n k x ˉ k n 1 + n 2 + ⋯ + n k \bar{x}_c = \frac{\sum_{i=1}^{k} n_i \bar{x}_i}{N} = \frac{n_1\bar{x}_1 + n_2\bar{x}_2 + \dots + n_k\bar{x}_k}{n_1 + n_2 + \dots + n_k} x ˉ c = N ∑ i = 1 k n i x ˉ i = n 1 + n 2 + ⋯ + n k n 1 x ˉ 1 + n 2 x ˉ 2 + ⋯ + n k x ˉ k
逻辑解释 : 这个公式的背后逻辑是均值的基本定义。均值等于所有观测值的总和除以观测值的数量。n i x ˉ i n_i \bar{x}_i n i x ˉ i 正是第 i i i 个子样本中所有观测值的总和(因为 x ˉ i = ∑ x n i \bar{x}_i = \frac{\sum x}{n_i} x ˉ i = n i ∑ x )。因此,分子 ∑ i = 1 k n i x ˉ i \sum_{i=1}^{k} n_i \bar{x}_i ∑ i = 1 k n i x ˉ i 代表了合并后大样本所有观测值的总和,分母 N N N 则是总观测数量。
示例 : 假设一个班级有两组学生参加了考试。
A组:有 n 1 = 20 n_1 = 20 n 1 = 20 名学生,平均分为 x ˉ 1 = 85 \bar{x}_1 = 85 x ˉ 1 = 85 分。 B组:有 n 2 = 30 n_2 = 30 n 2 = 30 名学生,平均分为 x ˉ 2 = 75 \bar{x}_2 = 75 x ˉ 2 = 75 分。
合并后全班的总人数为 N = 20 + 30 = 50 N = 20 + 30 = 50 N = 20 + 30 = 50 人。 全班的平均分 x ˉ c \bar{x}_c x ˉ c 为:
x ˉ c = n 1 x ˉ 1 + n 2 x ˉ 2 n 1 + n 2 = ( 20 × 85 ) + ( 30 × 75 ) 20 + 30 = 1700 + 2250 50 = 3950 50 = 79 分 \bar{x}_c = \frac{n_1\bar{x}_1 + n_2\bar{x}_2}{n_1 + n_2} = \frac{(20 \times 85) + (30 \times 75)}{20 + 30} = \frac{1700 + 2250}{50} = \frac{3950}{50} = 79 \text{ 分} x ˉ c = n 1 + n 2 n 1 x ˉ 1 + n 2 x ˉ 2 = 20 + 30 ( 20 × 85 ) + ( 30 × 75 ) = 50 1700 + 2250 = 50 3950 = 79 分
注意,直接对两个平均分求算术平均 ( 85 + 75 2 = 80 ) (\frac{85+75}{2} = 80) ( 2 85 + 75 = 80 ) 是不正确的,因为它没有考虑到两个组别的人数差异。
二. 合并标准差的计算 (Calculating the Combined Standard Deviation)
计算合并样本的标准差 (Standard Deviation) 比计算均值要复杂得多。这不能通过简单地对子样本的标准差或方差 (Variance) 进行加权平均来完成。正确的方法是先计算合并后的总方差 s c 2 s_c^2 s c 2 ,然后取其平方根得到合并标准差 s c s_c s c 。
该计算基于方差分析 (ANOVA) 的核心思想,即将总体变异 分解为 组内变异 (Within-group variation) 和 组间变异 (Between-group variation) 。
继续使用之前的符号,并增加:
s i s_i s i 是第 i i i 个子样本的标准差。s i 2 s_i^2 s i 2 是第 i i i 个子样本的方差。
合并样本的方差 s c 2 s_c^2 s c 2 的计算公式为:
s c 2 = ∑ i = 1 k [ ( n i − 1 ) s i 2 + n i ( x ˉ i − x ˉ c ) 2 ] N − 1 s_c^2 = \frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1} s c 2 = N − 1 ∑ i = 1 k [ ( n i − 1 ) s i 2 + n i ( x ˉ i − x ˉ c ) 2 ]
合并样本的标准差 s c s_c s c 为:
s c = s c 2 = ∑ i = 1 k [ ( n i − 1 ) s i 2 + n i ( x ˉ i − x ˉ c ) 2 ] N − 1 s_c = \sqrt{s_c^2} = \sqrt{\frac{\sum_{i=1}^{k} \left[ (n_i - 1)s_i^2 + n_i(\bar{x}_i - \bar{x}_c)^2 \right]}{N - 1}} s c = s c 2 = N − 1 ∑ i = 1 k [ ( n i − 1 ) s i 2 + n i ( x ˉ i − x ˉ c ) 2 ]
公式分解与逻辑解释 : 这个公式的分子源于离差平方和 (Sum of Squares) 的可加性原理。总离差平方和 (S S T SST SST ) 等于组内离差平方和 (S S W SSW SS W ) 与组间离差平方和 (S S B SSB SSB ) 之和。
S S T = ( N − 1 ) s c 2 SST = (N-1)s_c^2 SST = ( N − 1 ) s c 2 :合并后大样本的总离差平方和。S S W = ∑ i = 1 k ( n i − 1 ) s i 2 SSW = \sum_{i=1}^{k} (n_i-1)s_i^2 SS W = ∑ i = 1 k ( n i − 1 ) s i 2 :所有子样本的组内离差平方和之和。( n i − 1 ) s i 2 (n_i-1)s_i^2 ( n i − 1 ) s i 2 是第 i i i 个子样本的离差平方和。这一部分度量了每个组内部的数据波动。S S B = ∑ i = 1 k n i ( x ˉ i − x ˉ c ) 2 SSB = \sum_{i=1}^{k} n_i(\bar{x}_i - \bar{x}_c)^2 SSB = ∑ i = 1 k n i ( x ˉ i − x ˉ c ) 2 :组间离差平方和。这一部分度量了各子样本的均值 x ˉ i \bar{x}_i x ˉ i 相对于总均值 x ˉ c \bar{x}_c x ˉ c 的波动。
因此,我们有恒等式 S S T = S S W + S S B SST = SSW + SSB SST = SS W + SSB 。将 S S T SST SST 除以总的自由度 (Degrees of Freedom) N − 1 N-1 N − 1 即可得到合并后的样本方差 s c 2 s_c^2 s c 2 。
示例 : 延续上一个例子,并增加标准差信息。
A组:n 1 = 20 n_1 = 20 n 1 = 20 , x ˉ 1 = 85 \bar{x}_1 = 85 x ˉ 1 = 85 , s 1 = 5 s_1 = 5 s 1 = 5 (因此方差 s 1 2 = 25 s_1^2 = 25 s 1 2 = 25 )。 B组:n 2 = 30 n_2 = 30 n 2 = 30 , x ˉ 2 = 75 \bar{x}_2 = 75 x ˉ 2 = 75 , s 2 = 6 s_2 = 6 s 2 = 6 (因此方差 s 2 2 = 36 s_2^2 = 36 s 2 2 = 36 )。
我们已经计算出总人数 N = 50 N=50 N = 50 ,合并均值 x ˉ c = 79 \bar{x}_c = 79 x ˉ c = 79 。
现在计算合并方差 s c 2 s_c^2 s c 2 :
计算分子中的组内离差平方和部分 (S S W SSW SS W ):
A组: ( n 1 − 1 ) s 1 2 = ( 20 − 1 ) × 25 = 19 × 25 = 475 (n_1 - 1)s_1^2 = (20 - 1) \times 25 = 19 \times 25 = 475 ( n 1 − 1 ) s 1 2 = ( 20 − 1 ) × 25 = 19 × 25 = 475 B组: ( n 2 − 1 ) s 2 2 = ( 30 − 1 ) × 36 = 29 × 36 = 1044 (n_2 - 1)s_2^2 = (30 - 1) \times 36 = 29 \times 36 = 1044 ( n 2 − 1 ) s 2 2 = ( 30 − 1 ) × 36 = 29 × 36 = 1044 S S W = 475 + 1044 = 1519 SSW = 475 + 1044 = 1519 SS W = 475 + 1044 = 1519
计算分子中的组间离差平方和部分 (S S B SSB SSB ):
A组: n 1 ( x ˉ 1 − x ˉ c ) 2 = 20 × ( 85 − 79 ) 2 = 20 × 6 2 = 20 × 36 = 720 n_1(\bar{x}_1 - \bar{x}_c)^2 = 20 \times (85 - 79)^2 = 20 \times 6^2 = 20 \times 36 = 720 n 1 ( x ˉ 1 − x ˉ c ) 2 = 20 × ( 85 − 79 ) 2 = 20 × 6 2 = 20 × 36 = 720 B组: n 2 ( x ˉ 2 − x ˉ c ) 2 = 30 × ( 75 − 79 ) 2 = 30 × ( − 4 ) 2 = 30 × 16 = 480 n_2(\bar{x}_2 - \bar{x}_c)^2 = 30 \times (75 - 79)^2 = 30 \times (-4)^2 = 30 \times 16 = 480 n 2 ( x ˉ 2 − x ˉ c ) 2 = 30 × ( 75 − 79 ) 2 = 30 × ( − 4 ) 2 = 30 × 16 = 480 S S B = 720 + 480 = 1200 SSB = 720 + 480 = 1200 SSB = 720 + 480 = 1200
计算合并方差 s c 2 s_c^2 s c 2 :
s c 2 = S S W + S S B N − 1 = 1519 + 1200 50 − 1 = 2719 49 ≈ 55.49 s_c^2 = \frac{SSW + SSB}{N - 1} = \frac{1519 + 1200}{50 - 1} = \frac{2719}{49} \approx 55.49 s c 2 = N − 1 SS W + SSB = 50 − 1 1519 + 1200 = 49 2719 ≈ 55.49
计算合并标准差 s c s_c s c :
s c = 55.49 ≈ 7.45 s_c = \sqrt{55.49} \approx 7.45 s c = 55.49 ≈ 7.45
因此,全班学生成绩的合并标准差约为 7.45 分。
三. 总体与样本的区分 (Population vs. Sample)
上述公式是针对 样本 (Sample) 数据。如果我们处理的是 总体 (Population) 的子集,公式会略有不同,主要区别在于方差的定义(分母为 N N N 而非 n − 1 n-1 n − 1 )。
若各组为总体,则符号通常用希腊字母表示:
N i N_i N i 是第 i i i 个子总体的大小。μ i \mu_i μ i 是第 i i i 个子总体的均值。σ i 2 \sigma_i^2 σ i 2 是第 i i i 个子总体的方差。
合并总体的方差 σ c 2 \sigma_c^2 σ c 2 公式为:
σ c 2 = ∑ i = 1 k [ N i σ i 2 + N i ( μ i − μ c ) 2 ] ∑ i = 1 k N i \sigma_c^2 = \frac{\sum_{i=1}^{k} \left[ N_i\sigma_i^2 + N_i(\mu_i - \mu_c)^2 \right]}{\sum_{i=1}^{k} N_i} σ c 2 = ∑ i = 1 k N i ∑ i = 1 k [ N i σ i 2 + N i ( μ i − μ c ) 2 ]
其中 μ c \mu_c μ c 是合并后的总体均值。注意分母是总大小 N t o t a l N_{total} N t o t a l ,而不是 N t o t a l − 1 N_{total}-1 N t o t a l − 1 。
四. 应用与重要性
科学研究 :在元分析 中,研究人员汇集多个已发表研究的结果。由于无法获得原始数据,他们只能利用已发表的各研究的均值、标准差和样本量来计算一个总体的效应量。大数据与分布式计算 :在处理海量数据集时,数据常被分割成小块(chunks)并分发到不同的计算节点上。每个节点可以独立计算其数据块的 n n n , x ˉ \bar{x} x ˉ , s s s 。最后,主节点可以使用合并公式来获得整个数据集的统计特性,而无需传输所有原始数据,这极大地提高了效率(例如在MapReduce 框架中)。商业与质量控制 :企业可能会综合不同生产线或不同季度的产品质量数据(如平均尺寸、标准差)来评估整体生产的稳定性和一致性。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。