ARTICLE

组间变异

组间变异 (Between-Group Variation) 组间变异(Between-Group Variation)是方差分析(ANOVA)中的核心概念,指不同处理组或分类水平之间观测值的差异程度。在统计推断中,组间变异衡量的是各组均值围绕总均值的离散程度,反映自变量(因子)不同水平对因变量产生的系统性影响。与组内变异(Within-Group Vari

浏览 0 更新 2025-11-08

组间变异 (Between-Group Variation)

组间变异(Between-Group Variation)是方差分析(ANOVA)中的核心概念,指不同处理组或分类水平之间观测值的差异程度。在统计推断中,组间变异衡量的是各组均值围绕总均值的离散程度,反映自变量(因子)不同水平对因变量产生的系统性影响。与组内变异(Within-Group Variation)共同构成总变异的正交分解,是F检验的分子项。

数学定义与计算

设有 k k 个组,第 j j 组有 nj n_j 个观测值,组均值为 xˉj \bar{x}_j ,总均值为 xˉ \bar{x} ,则组间平方和(Sum of Squares Between, SSB SSB )定义为:

\begin{equation} \[ SSB = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2 \] \end{equation}

组间均方(Mean Square Between, MSB MSB )为 SSB SSB 除以其自由度 k1 k-1

\begin{equation} \[ MSB = \frac{SSB}{k-1} \] \end{equation}

总平方和 SST SST 可分解为组间平方和与组内平方和(SSW SSW )之和:SST=SSB+SSW SST = SSB + SSW 。这一正交分解是方差分析的数学基石。

统计推断与F检验

在单因素方差分析中,检验统计量 F F 定义为组间均方与组内均方之比:

\begin{equation} F = \(\frac{MSB}{MSW}\) = \(\frac\){\(\text{组间变异}\)}{\(\text{组内变异}\)} \end{equation}

若原假设(各组均值相等)为真,则 F F 统计量服从自由度为 (k1,Nk) (k-1, N-k) F分布。当 F F 值显著偏大时,表明组间变异相对于随机误差(组内变异)异常突出,从而拒绝原假设,推断至少有一组均值与其他组存在显著差异。在此框架中,组内变异充当了评估组间变异是否"足够大"的参照基准——这正是R.A. Fisher设计方差分析的直觉核心。

方差分析中的效应量

除显著性检验外,组间变异还用于构造效应量指标。最常用的是 η2 \eta^2 (Eta-squared):

\begin{equation} \eta^2 = \(\frac{SSB}{SST}\) = \(\frac{SSB}{SSB + SSW}\) \end{equation}

η2 \eta^2 解释为自变量能够解释的因变量变异比例,取值范围 [0,1] [0, 1] 。其偏形式(Partial η2 \eta^2 )在多因素设计中剔除其他因子影响后计算,广泛用于报告效应大小。Cohen 给出的经验基准为:η2=0.01 \eta^2 = 0.01 (小)、0.06 0.06 (中)、0.14 0.14 (大)。

与组内变异的关系

组间变异与组内变异构成统计推断中"信号与噪声"的经典对偶。组间变异捕捉实验处理或分类因素带来的系统性差异,组内变异反映同一条件下个体间的随机波动。在理想实验中,研究者期望最大化组间变异(施加有效的处理差异)同时最小化组内变异(控制无关变异源),从而获得更高的统计检验力。实验设计的三原则——重复(Replication)、随机化(Randomization)和区组化(Blocking)——本质上都是围绕这一对变异的调控展开:重复提供组内变异的估计,随机化消除系统偏差,区组化则通过从组内变异中剥离已知变异源来缩小误差项。

在广义遗传力中的应用

组间变异的概念延伸至定量遗传学广义遗传力(Broad-Sense Heritability, H2 H^2 )的估计。在此框架下,表型变异 VP V_P 被分解为遗传变异 VG V_G 与环境变异 VE V_E VP=VG+VE V_P = V_G + V_E 。遗传变异可进一步细分为加性效应、显性效应和上位效应。广义遗传力定义为 H2=VG/VP H^2 = V_G / V_P ,即遗传变异占总表型变异的比例。在方差分析框架中,不同基因型构成"组",组间变异对应遗传变异,组内变异对应环境变异——这正是 ANOVA 方法估计遗传力的统计学基础。这一框架由R.A. Fisher在1918年的经典论文中奠定,将孟德尔遗传学与生物统计学的分歧统一于方差分解的逻辑之下。

多因素扩展与交互作用

在多因素方差分析中,组间变异被进一步分解为主效应和交互效应。以 A×B A \times B 双因素设计为例,SSB SSB 可分解为 SSA+SSB+SSA×B SS_A + SS_B + SS_{A \times B} ,每个分量分别对应各因子的边际贡献及其交互作用。当交互效应显著时,单纯的主效应解释力下降,需进行简单效应分析(Simple Effects Analysis)。这一分解逻辑自然推广至线性模型的方差分析表(ANOVA Table),是所有实验因子显著性检验的统一框架。