ARTICLE

区组设计

区组设计 (Block Design) 区组设计→实验设计核心技术：将实验单元按已知干扰因素划分为若干同质区组（block），在区组内随机分配处理→消除系统误差、提升检验效力。核心思想：区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在，而是纳入模型以精化处理效应估计的妨扰因子（nuisance factor）。基本原理

浏览 0 更新 2025-11-08

区组设计 (Block Design)

区组设计→实验设计核心技术：将实验单元按已知干扰因素划分为若干同质区组（block），在区组内随机分配处理→消除系统误差、提升检验效力。核心思想：区组内变异小而区组间变异大→将区组效应从误差中分离→信噪比↑。区组本身不是研究兴趣所在，而是纳入模型以精化处理效应估计的妨扰因子（nuisance factor）。

基本原理

田间试验→地块肥力不均必掩蔽处理效应。RA Fisher于Rothamsted提出随机化三原则（随机/重复/局部控制）→区组化即局部控制的手段：把同质单元归入同一区组→区组内处理比较不受区组间差异污染。数学模型（可加性假设）：

$Y_{ij}=\mu+\tau_i+\beta_j+\varepsilon_{ij},\quad\varepsilon_{ij}\sim N(0,\sigma^2)$

$\tau_i$ =处理i效应， $\beta_j$ =区组j效应→无交互项→假设处理效应在全区组恒定。若此假设不成立→需Tukey可加性检验或改用其他设计。可加性检验：对拟合值平方项做回归→若 $\hat{Y}^2$ 系数显著→交互作用存在→可尝试数据变换（对数、平方根、Box-Cox）恢复可加性。

随机化完全区组设计 (RCBD)

最基础形式：每个处理在每个区组中出现一次→n个处理、b个区组→共N=nb次观测。随机化在区组内独立进行：每区组内处理的排列顺序随机→不同于完全随机设计(CRD)的全局随机化。

方差分析：总变异 $SS_T$ 分解为处理 $SS_{trt}$ +区组 $SS_{blk}$ +误差 $SS_E$ 。区组平方和从误差中剥离→若区组效应显著→RCBD的MSE小于CRD→检验更敏感。相对效率： $RE=\frac{(b-1)MS_{blk}+b(t-1)MS_E}{(bt-1)MS_E}$ →>1则区组化有效。假设检验：处理效应F检验→ $F=\frac{MS_{trt}}{MS_E}$ 在 $H_0:\tau_i=0$ 下服从 $F_{(t-1),(t-1)(b-1)}$ 。若区组效应是否显著也是检验目标→ $F_{blk}=\frac{MS_{blk}}{MS_E}$ →但区组效应通常不检验（随机而非固定效应的争议）→Fisher认为区组不提供处理推断信息，仅用于误差精度控制。

⚠缺失值：一个观测缺失即破坏正交性→需缺失值估计（Yates公式： $\hat{y}_{ij}=\frac{tT_i'+bB_j'-G'}{(t-1)(b-1)}$ ，迭代至收敛）→自由度修正（误差df-1）。现代替代→混合效应模型（REML）直接处理→无需填补，利用所有可用数据。⚠区组随机or固定？：区组若为固定效应→推断限于该组区组水平；若为随机效应→推断扩展至区组总体→选择取决于研究目的与区组抽样方式。

⚠区组内误差自由度： $(t-1)(b-1)$ →若区组太多而处理少→误差df不足→检验效力低→可考虑区组合并为拉丁方等控制多向干扰。另一种策略：广义随机区组设计→将区组视为随机效应→采用混合模型→省去区组自由度损失→但需额外假设 $\beta_j\sim N(0,\sigma^2_\beta)$ 且 $\beta_j\perp\varepsilon_{ij}$ 。

拉丁方设计 (Latin Square)

控制两个干扰因子（如行=土壤湿度梯度+列=光照梯度）→t×t方阵中每处理在每行每列各出现一次→模型： $Y_{ijk}=\mu+\tau_i+\alpha_j+\beta_k+\varepsilon_{ijk}$ 。将两个区组因子同时从误差分离→比RCBD更精。局限：行=列=处理数→t太小(≤3)则误差df=(t-1)(t-2)不足→检验效低；t太大(≥10)则实施困难→常见的t=4\~8。随机化：先随机排列行，再随机排列列→确定基础方阵后随机分配处理至字母。

希腊-拉丁方：叠加第四个因子（希腊字母）→控制三个干扰源→须满足正交条件→正交拉丁方的构造依赖有限域→Euler猜想n=6无解（1901年Tarry验证）→又称"36名军官问题"。

不完全区组设计 (Incomplete Block)

区组容量小于处理数时→每个区组仅容纳部分处理→平衡不完全区组设计(BIBD)为最优：任意两处理在相同区组中相遇次数相等（ $\lambda$ 次）→保证所有处理比较精度相同。参数约束：

$bk=rt,\quad r(k-1)=\lambda(t-1),\quad b\geq t$

t=处理数，b=区组数，k=区组大小，r=每处理重复数。Fisher不等式（ $b\geq t$ ）→区组数不少于处理数是BIBD存在的必要条件。经典例：t=7,b=7,k=3,r=3,λ=1（Fano平面的补→每区组含三处理，每对处理恰共现一次）。另一个常见设计：t=4,b=4,k=3（ $\lambda=2$ ）→每区组缺一不同处理→称为均衡不完全区组Youden方若同时满足列正交。

BIBD分析：处理效应需经区组内信息调整→处理平方和为调整后值： $SS_{trt(adj)}=\frac{k}{\lambda t}\sum_i Q_i^2$ ，其中 $Q_i$ =处理i的调整总分（实际值-区组均值校正）。区组间信息也可回收→联合分析(combined intra-/inter-block analysis)。

部分平衡不完全区组(PBIB)：当BIBD参数过严→放松平衡条件→处理分为关联类→同关联类的处理对在相同区组中相遇次数相同→参数空间更大，更灵活。

现代扩展与应用

裂区设计：区组内嵌套整区与裂区→处理因子分层→适用于因子实施难度不同（如灌溉方式=整区，品种=裂区）→检验时整区与裂区用不同误差项。

多元区组：多元方差分析(MANOVA)中区组效应向量化→检验多响应变量联合受区组影响→需满足Mauchly球形假设。

应用：农业（品种试验控土壤异质→Fisher经典小麦产量试验，区组化后误差方差减半）、医学（多中心临床试验→中心=区组，控机构差异→中心内随机化保证内部有效性）、工业（原材料批次=区组→批次间非均质被剔除→工艺比较更精）、心理学（受试者=区组→控个体差异→重复测量设计即受试者内区组特例）、教育（班级=区组→教学方法比较时控班级基线差异）→范用。样本量估算：RCBD下→处理均值差的最小显著差异 $LSD=t_{\alpha/2,df_E}\sqrt{2MS_E/b}$ →误差自由度与MSE均不同于CRD→样本量须按RCBD方差结构重新计算→低估者常见。

⚠CRD vs RCBD选择：若干扰因子已知且可控→区组化永远优先；若干扰未知或无法划分→CRD+事后协方差分析(ANCOVA)亦可。误区：事后按观测值高低划分区组→断点引入偏差→区组必须在随机化前定义。⚠区组效应不显著时：若 $F_{blk}$ 不显著→不应贸然抛弃区组设计→区组化仍可减少误差方差→且设计阶段已投入的局部控制不可逆→保留区组项是保守正确做法。⚠区组与协变量：区组是离散分类变量→协变量是连续变量→两者均可控干扰→ANCOVA可同时纳入区组和协变量→前提：协变量斜率在全区组同质（同质性回归斜率假设）→若不等→需区组×协变量交互项→即变系数模型。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。