ARTICLE

组内变异

组内变异 (Within-Group Variation) 组内变异(Within-Group Variation)是方差分析(ANOVA)中的核心概念,指同一处理组或同一分类水平内部各观测值之间的差异程度。它反映了随机误差、个体差异及所有未被自变量解释的变异来源,通常被视为"噪声"或"背景变异"。它与组间变异(Between-Group Variation

浏览 0 更新 2025-12-19

组内变异 (Within-Group Variation)

组内变异(Within-Group Variation)是方差分析(ANOVA)中的核心概念,指同一处理组或同一分类水平内部各观测值之间的差异程度。它反映了随机误差、个体差异及所有未被自变量解释的变异来源,通常被视为"噪声"或"背景变异"。它与组间变异(Between-Group Variation)共同构成总变异的正交分解,是F检验的分母项——衡量处理效应是否显著的关键参照基准。

定义与直觉

设有 kk 个处理组,即使各组接受完全相同的处理,组内各观测值通常也不会完全相同——这种差异即组内变异。其来源包括个体间的天然差异(如身高、认知能力的基线差异)、测量误差、实验条件不易控制的微小波动,以及所有未被纳入模型的因素。

理解组内变异的核心直觉是:它提供了"无处理效应时数据会有多大波动"的参照标准。若一个处理组的观测值高度一致(组内变异很小),则组均值估计更为精确,越容易检测到组间的真实差异;反之,若组内变异很大,则即使处理效应客观上存在,也可能被随机噪声淹没而无法被统计检验识别。这正是统计检验力(Statistical Power)与组内变异成反比的内在原因。

数学定义与计算

组内变异通常以组内平方和(Sum of Squares Within, SSWSSW)量化。设有 kk 个组,第 ii 组有 nin_i 个观测值 yi1,yi2,,yiniy_{i1}, y_{i2}, \dots, y_{in_i},总观测数 N=i=1kniN = \sum_{i=1}^{k} n_i。记第 ii 组均值为 yˉi\bar{y}_{i\cdot},则:

SSW=i=1kj=1ni(yijyˉi)2SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_{i\cdot})^2

若组内观测值紧密聚集在均值周围,则该组贡献很小;反之,分散严重则贡献很大。SSWSSW 也可通过 SSW=SSTSSBSSW = SST - SSB 计算,源于总变异正交分解恒等式 SST=SSB+SSWSST = SSB + SSW

自由度与组内均方

SSWSSW 的自由度为 NkN - k(每组估计均值损失一个自由度)。组内均方(Mean Square Within, MSWMSW),亦称均方误差(MSEMSE),定义为:

MSW=SSWNkMSW = \frac{SSW}{N - k}

MSWMSW 是总体误差方差 σ2\sigma^2 的无偏估计量——无论各组的真实均值是否相等,这一性质都成立。这意味着无论零假设是否成立,MSWMSW 始终是同一总体方差的优良估计。基于此性质,MSWMSW 作为F检验的分母具有天然合理性:若处理效应真实存在,组间均方(MSBMSB)将包含处理效应引起的额外变异,从而大于 MSWMSW;若处理效应不存在,二者比值接近1。

在ANOVA F检验中的角色

单因素ANOVA的F统计量为:

F=MSBMSW=SSB/(k1)SSW/(Nk)F = \frac{MSB}{MSW} = \frac{SSB/(k-1)}{SSW/(N-k)}

原假设 H0:μ1=μ2==μkH_0: \mu_1 = \mu_2 = \cdots = \mu_k 下,FF(k1,Nk)F \sim F(k-1, N-k)。检验逻辑分三步:计算 MSWMSW 作为随机误差基准;计算 MSBMSB 作为处理效应(含误差)的估计;比较二者比值。若F显著大于1,表明组间变异相对组内变异异常突出,提示处理效应很可能真实存在。

在极端情况下,若组内变异极小,即使微小组均值差异也足以达到统计显著;反之,若组内变异极大,即使较大处理效应也可能无法超越噪声基准。这正是实验设计反复强调控制无关变异来源、降低组内变异的重要原因。

影响组内变异的主要因素

测量误差是最直观的来源:工具精度直接影响观测值的重复性,标准化测量规程和多轮取平均可有效降低其贡献。个体异质性则更为根本——即使测量完全精确,不同个体的基线差异也构成主要来源,尤其在心理学或医学实验中,受试者年龄、性别、基线健康状况的差异可导致组内变异剧增。实验条件的不完全控制——温度、湿度、时间、操作者的微小差异都可能引入额外变异。

控制策略包括:区组化(Blocking)将已知变异来源从组内转移至组间(被模型"解释"),直接缩小 MSWMSW重复测量设计从误差项中剔除个体间差异,大幅降低组内变异;随机化确保未知混杂因素均匀分布,使组内变异估计无偏。

组内变异与效应量

效应量 η2=SSB/SST=SSB/(SSB+SSW)\eta^2 = SSB/SST = SSB/(SSB+SSW) 衡量自变量解释的变异比例。组内变异越大,η2\eta^2 越小。Cohen 建议 η2=0.01\eta^2 = 0.01(小)、0.06(中)、0.14(大)作为经验基准。Cohen's d 以合并标准差(即 MSWMSW 的平方根)为分母,同样体现组内变异作为效应量参照的角色:效应量的大小直接取决于"处理效应相对于组内变异有多大"。

与组间变异的关系

组内变异与组间变异构成"信号-噪声"的经典对偶:组间变异代表处理效应(信号),是研究者希望检测的部分;组内变异代表随机波动(噪声),是研究者希望最小化的部分。在线性回归中,残差平方和对应组内变异,回归平方和对应组间变异,R2R^2η2\eta^2 同构。实验设计三原则均围绕此对偶展开:重复提供组内变异估计,随机化确保组间可比性,区组化从组内变异中剥离已知变异源——三者共同服务于最大化信号噪声比的目标。

假设条件与稳健性

组内变异的有效性依赖于:正态性(各组来自正态分布,违背时可改用Kruskal-Wallis检验等非参数方法);方差齐性σ12=σ22==σk2\sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2,可通过Levene检验Bartlett检验诊断,违反时推荐Welch's ANOVA);独立性(最为关键——违背独立性会导致组内变异被系统性低估,产生大量假阳性结果)。

在多因素和混合模型中的扩展

双因素ANOVA中总平方和分解为 SST=SSA+SSB+SSA×B+SSESST = SS_A + SS_B + SS_{A\times B} + SSESSESSE(误差平方和)即组内变异。在随机效应模型混合效应模型中,组内相关系数(ICC)ρ=σb2/(σb2+σw2)\rho = \sigma_b^2 / (\sigma_b^2 + \sigma_w^2) 衡量组间变异占总变异的比例,用于评估组内观测值的相似度,在多层次模型纵向数据分析信度分析中具有基础性地位。

在信度分析中的应用

重测信度评估中,同一受试者两次测试的波动构成组内变异(测量误差),受试者间真实差异构成组间变异;信度系数即组间变异与总变异之比。评分者信度分析中常用的Cronbach's α系数和组内相关系数均以组内/组间变异分解为基础。

总而言之,组内变异是方差分析和广义线性模型的核心构件——它既是F检验的误差基准,也是效应量、信度、遗传力等众多重要统计指标的计算基础。在实验设计和数据分析中,理解并有效控制组内变异是提升研究质量和统计结论可靠性的关键环节。