ARTICLE

区组设计

区组设计 (Block Design) 区组设计→实验设计核心技术:将实验单元按已知干扰因素划分为若干同质区组(block),在区组内随机分配处理→消除系统误差、提升检验效力。核心思想:区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在,而是纳入模型以精化处理效应估计的妨扰因子(nuisance factor)。 基本原理

浏览 0 更新 2025-11-08

区组设计 (Block Design)

区组设计实验设计核心技术:将实验单元按已知干扰因素划分为若干同质区组(block),在区组内随机分配处理→消除系统误差、提升检验效力。核心思想:区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在,而是纳入模型以精化处理效应估计的妨扰因子(nuisance factor)。

基本原理

田间试验→地块肥力不均必掩蔽处理效应。RA Fisher于Rothamsted提出随机化三原则(随机/重复/局部控制)→区组化即局部控制的手段:把同质单元归入同一区组→区组内处理比较不受区组间差异污染。数学模型(可加性假设):

Yij=μ+τi+βj+εij,εijN(0,σ2)Y_{ij}=\mu+\tau_i+\beta_j+\varepsilon_{ij},\quad\varepsilon_{ij}\sim N(0,\sigma^2)

τi\tau_i=处理i效应,βj\beta_j=区组j效应→无交互项→假设处理效应在全区组恒定。若此假设不成立→需Tukey可加性检验或改用其他设计。可加性检验:对拟合值平方项做回归→若Y^2\hat{Y}^2系数显著→交互作用存在→可尝试数据变换(对数、平方根、Box-Cox)恢复可加性。

随机化完全区组设计 (RCBD)

最基础形式:每个处理在每个区组中出现一次→n个处理、b个区组→共N=nb次观测。随机化在区组内独立进行:每区组内处理的排列顺序随机→不同于完全随机设计(CRD)的全局随机化。

方差分析:总变异SSTSS_T分解为处理SStrtSS_{trt}+区组SSblkSS_{blk}+误差SSESS_E。区组平方和从误差中剥离→若区组效应显著→RCBD的MSE小于CRD→检验更敏感。相对效率:RE=(b1)MSblk+b(t1)MSE(bt1)MSERE=\frac{(b-1)MS_{blk}+b(t-1)MS_E}{(bt-1)MS_E}→>1则区组化有效。假设检验:处理效应F检验→F=MStrtMSEF=\frac{MS_{trt}}{MS_E}H0:τi=0H_0:\tau_i=0下服从F(t1),(t1)(b1)F_{(t-1),(t-1)(b-1)}。若区组效应是否显著也是检验目标→Fblk=MSblkMSEF_{blk}=\frac{MS_{blk}}{MS_E}→但区组效应通常不检验(随机而非固定效应的争议)→Fisher认为区组不提供处理推断信息,仅用于误差精度控制。

⚠缺失值:一个观测缺失即破坏正交性→需缺失值估计(Yates公式:y^ij=tTi+bBjG(t1)(b1)\hat{y}_{ij}=\frac{tT_i'+bB_j'-G'}{(t-1)(b-1)},迭代至收敛)→自由度修正(误差df-1)。现代替代→混合效应模型(REML)直接处理→无需填补,利用所有可用数据。⚠区组随机or固定?:区组若为固定效应→推断限于该组区组水平;若为随机效应→推断扩展至区组总体→选择取决于研究目的与区组抽样方式。

⚠区组内误差自由度(t1)(b1)(t-1)(b-1)→若区组太多而处理少→误差df不足→检验效力低→可考虑区组合并为拉丁方等控制多向干扰。另一种策略:广义随机区组设计→将区组视为随机效应→采用混合模型→省去区组自由度损失→但需额外假设βjN(0,σβ2)\beta_j\sim N(0,\sigma^2_\beta)βjεij\beta_j\perp\varepsilon_{ij}

拉丁方设计 (Latin Square)

控制两个干扰因子(如行=土壤湿度梯度+列=光照梯度)→t×t方阵中每处理在每行每列各出现一次→模型:Yijk=μ+τi+αj+βk+εijkY_{ijk}=\mu+\tau_i+\alpha_j+\beta_k+\varepsilon_{ijk}。将两个区组因子同时从误差分离→比RCBD更精。局限:行=列=处理数→t太小(≤3)则误差df=(t-1)(t-2)不足→检验效低;t太大(≥10)则实施困难→常见的t=4\~8。随机化:先随机排列行,再随机排列列→确定基础方阵后随机分配处理至字母。

希腊-拉丁方:叠加第四个因子(希腊字母)→控制三个干扰源→须满足正交条件→正交拉丁方的构造依赖有限域→Euler猜想n=6无解(1901年Tarry验证)→又称"36名军官问题"。

不完全区组设计 (Incomplete Block)

区组容量小于处理数时→每个区组仅容纳部分处理→平衡不完全区组设计(BIBD)为最优:任意两处理在相同区组中相遇次数相等(λ\lambda次)→保证所有处理比较精度相同。参数约束:

bk=rt,r(k1)=λ(t1),btbk=rt,\quad r(k-1)=\lambda(t-1),\quad b\geq t

t=处理数,b=区组数,k=区组大小,r=每处理重复数。Fisher不等式(btb\geq t)→区组数不少于处理数是BIBD存在的必要条件。经典例:t=7,b=7,k=3,r=3,λ=1(Fano平面的补→每区组含三处理,每对处理恰共现一次)。另一个常见设计:t=4,b=4,k=3(λ=2\lambda=2)→每区组缺一不同处理→称为均衡不完全区组Youden方若同时满足列正交。

BIBD分析:处理效应需经区组内信息调整→处理平方和为调整后值:SStrt(adj)=kλtiQi2SS_{trt(adj)}=\frac{k}{\lambda t}\sum_i Q_i^2,其中QiQ_i=处理i的调整总分(实际值-区组均值校正)。区组间信息也可回收→联合分析(combined intra-/inter-block analysis)。

部分平衡不完全区组(PBIB):当BIBD参数过严→放松平衡条件→处理分为关联类→同关联类的处理对在相同区组中相遇次数相同→参数空间更大,更灵活。

现代扩展与应用

裂区设计:区组内嵌套整区裂区→处理因子分层→适用于因子实施难度不同(如灌溉方式=整区,品种=裂区)→检验时整区与裂区用不同误差项。

多元区组多元方差分析(MANOVA)中区组效应向量化→检验多响应变量联合受区组影响→需满足Mauchly球形假设

应用:农业(品种试验控土壤异质→Fisher经典小麦产量试验,区组化后误差方差减半)、医学(多中心临床试验→中心=区组,控机构差异→中心内随机化保证内部有效性)、工业(原材料批次=区组→批次间非均质被剔除→工艺比较更精)、心理学(受试者=区组→控个体差异→重复测量设计即受试者内区组特例)、教育(班级=区组→教学方法比较时控班级基线差异)→范用。样本量估算:RCBD下→处理均值差的最小显著差异LSD=tα/2,dfE2MSE/bLSD=t_{\alpha/2,df_E}\sqrt{2MS_E/b}→误差自由度与MSE均不同于CRD→样本量须按RCBD方差结构重新计算→低估者常见。

⚠CRD vs RCBD选择:若干扰因子已知且可控→区组化永远优先;若干扰未知或无法划分→CRD+事后协方差分析(ANCOVA)亦可。误区:事后按观测值高低划分区组→断点引入偏差→区组必须在随机化前定义。⚠区组效应不显著时:若FblkF_{blk}不显著→不应贸然抛弃区组设计→区组化仍可减少误差方差→且设计阶段已投入的局部控制不可逆→保留区组项是保守正确做法。⚠区组与协变量:区组是离散分类变量→协变量是连续变量→两者均可控干扰→ANCOVA可同时纳入区组和协变量→前提:协变量斜率在全区组同质(同质性回归斜率假设)→若不等→需区组×协变量交互项→即变系数模型。