ARTICLE
区组设计
区组设计 (Block Design) 区组设计→实验设计核心技术:将实验单元按已知干扰因素划分为若干同质区组(block),在区组内随机分配处理→消除系统误差、提升检验效力。核心思想:区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在,而是纳入模型以精化处理效应估计的妨扰因子(nuisance factor)。 基本原理
区组设计 (Block Design)
区组设计→实验设计核心技术:将实验单元按已知干扰因素划分为若干同质区组(block),在区组内随机分配处理→消除系统误差、提升检验效力。核心思想:区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在,而是纳入模型以精化处理效应估计的妨扰因子(nuisance factor)。
基本原理
田间试验→地块肥力不均必掩蔽处理效应。RA Fisher于Rothamsted提出随机化三原则(随机/重复/局部控制)→区组化即局部控制的手段:把同质单元归入同一区组→区组内处理比较不受区组间差异污染。数学模型(可加性假设):
=处理i效应,=区组j效应→无交互项→假设处理效应在全区组恒定。若此假设不成立→需Tukey可加性检验或改用其他设计。可加性检验:对拟合值平方项做回归→若系数显著→交互作用存在→可尝试数据变换(对数、平方根、Box-Cox)恢复可加性。
随机化完全区组设计 (RCBD)
最基础形式:每个处理在每个区组中出现一次→n个处理、b个区组→共N=nb次观测。随机化在区组内独立进行:每区组内处理的排列顺序随机→不同于完全随机设计(CRD)的全局随机化。
方差分析:总变异分解为处理+区组+误差。区组平方和从误差中剥离→若区组效应显著→RCBD的MSE小于CRD→检验更敏感。相对效率:→>1则区组化有效。假设检验:处理效应F检验→在下服从。若区组效应是否显著也是检验目标→→但区组效应通常不检验(随机而非固定效应的争议)→Fisher认为区组不提供处理推断信息,仅用于误差精度控制。
⚠缺失值:一个观测缺失即破坏正交性→需缺失值估计(Yates公式:,迭代至收敛)→自由度修正(误差df-1)。现代替代→混合效应模型(REML)直接处理→无需填补,利用所有可用数据。⚠区组随机or固定?:区组若为固定效应→推断限于该组区组水平;若为随机效应→推断扩展至区组总体→选择取决于研究目的与区组抽样方式。
⚠区组内误差自由度:→若区组太多而处理少→误差df不足→检验效力低→可考虑区组合并为拉丁方等控制多向干扰。另一种策略:广义随机区组设计→将区组视为随机效应→采用混合模型→省去区组自由度损失→但需额外假设且。
拉丁方设计 (Latin Square)
控制两个干扰因子(如行=土壤湿度梯度+列=光照梯度)→t×t方阵中每处理在每行每列各出现一次→模型:。将两个区组因子同时从误差分离→比RCBD更精。局限:行=列=处理数→t太小(≤3)则误差df=(t-1)(t-2)不足→检验效低;t太大(≥10)则实施困难→常见的t=4\~8。随机化:先随机排列行,再随机排列列→确定基础方阵后随机分配处理至字母。
希腊-拉丁方:叠加第四个因子(希腊字母)→控制三个干扰源→须满足正交条件→正交拉丁方的构造依赖有限域→Euler猜想n=6无解(1901年Tarry验证)→又称"36名军官问题"。
不完全区组设计 (Incomplete Block)
区组容量小于处理数时→每个区组仅容纳部分处理→平衡不完全区组设计(BIBD)为最优:任意两处理在相同区组中相遇次数相等(次)→保证所有处理比较精度相同。参数约束:
t=处理数,b=区组数,k=区组大小,r=每处理重复数。Fisher不等式()→区组数不少于处理数是BIBD存在的必要条件。经典例:t=7,b=7,k=3,r=3,λ=1(Fano平面的补→每区组含三处理,每对处理恰共现一次)。另一个常见设计:t=4,b=4,k=3()→每区组缺一不同处理→称为均衡不完全区组Youden方若同时满足列正交。
BIBD分析:处理效应需经区组内信息调整→处理平方和为调整后值:,其中=处理i的调整总分(实际值-区组均值校正)。区组间信息也可回收→联合分析(combined intra-/inter-block analysis)。
部分平衡不完全区组(PBIB):当BIBD参数过严→放松平衡条件→处理分为关联类→同关联类的处理对在相同区组中相遇次数相同→参数空间更大,更灵活。
现代扩展与应用
裂区设计:区组内嵌套整区与裂区→处理因子分层→适用于因子实施难度不同(如灌溉方式=整区,品种=裂区)→检验时整区与裂区用不同误差项。
多元区组:多元方差分析(MANOVA)中区组效应向量化→检验多响应变量联合受区组影响→需满足Mauchly球形假设。
应用:农业(品种试验控土壤异质→Fisher经典小麦产量试验,区组化后误差方差减半)、医学(多中心临床试验→中心=区组,控机构差异→中心内随机化保证内部有效性)、工业(原材料批次=区组→批次间非均质被剔除→工艺比较更精)、心理学(受试者=区组→控个体差异→重复测量设计即受试者内区组特例)、教育(班级=区组→教学方法比较时控班级基线差异)→范用。样本量估算:RCBD下→处理均值差的最小显著差异→误差自由度与MSE均不同于CRD→样本量须按RCBD方差结构重新计算→低估者常见。
⚠CRD vs RCBD选择:若干扰因子已知且可控→区组化永远优先;若干扰未知或无法划分→CRD+事后协方差分析(ANCOVA)亦可。误区:事后按观测值高低划分区组→断点引入偏差→区组必须在随机化前定义。⚠区组效应不显著时:若不显著→不应贸然抛弃区组设计→区组化仍可减少误差方差→且设计阶段已投入的局部控制不可逆→保留区组项是保守正确做法。⚠区组与协变量:区组是离散分类变量→协变量是连续变量→两者均可控干扰→ANCOVA可同时纳入区组和协变量→前提:协变量斜率在全区组同质(同质性回归斜率假设)→若不等→需区组×协变量交互项→即变系数模型。