ARTICLE

层级模型

层级模型 (Hierarchical Model) 层级模型 (Hierarchical Model),亦称多层模型 (Multilevel Model)、混合效应模型 (Mixed-Effects Model) 或随机系数模型 (Random Coefficients Model),是一类处理嵌套结构 (Nested Structure) 数据的统计模型。

浏览 0 更新 2026-07-11

层级模型 (Hierarchical Model)

层级模型 (Hierarchical Model),亦称多层模型 (Multilevel Model)、混合效应模型 (Mixed-Effects Model) 或随机系数模型 (Random Coefficients Model),是一类处理嵌套结构 (Nested Structure) 数据的统计模型。在社会科学、生物统计、教育测量和经济学等领域中,观测数据往往具有天然的分组结构——学生嵌套于班级、居民嵌套于社区、重复测量嵌套于个体——层级模型通过显式建模不同层次的变异,为这类数据提供了统一的分析框架。

模型动因与核心思想

标准线性回归假定观测值相互独立,但在嵌套数据中,同一组内的个体往往比不同组间的个体更为相似。以教育研究为例:同一班级的学生共享相同的教师、教材和环境,其学业成绩之间存在组内相关 (Intraclass Correlation, ICC)。若忽视这种相关性而直接使用 OLS 回归,将低估标准误,增大 I 型错误风险。

层级模型的核心思想是:对每个组引入一个随机的"组效应" (Group-Specific Effect),用以捕捉该组与总体均值的偏离。这些组效应被视为来自某个分布的随机变量,而非固定的待估参数——这正是"随机效应" (Random Effect) 一语的含义。通过将总变异分解为组间变异 (Between-Group Variation) 与组内变异 (Within-Group Variation),层级模型既能纠正标准误,又可回答跨层级的研究问题。

基本形式

最简单的两层级模型——随机截距模型 (Random Intercept Model)——可表示为:

yij=β0+β1xij+uj+ϵij,y_{ij} = \beta_0 + \beta_1 x_{ij} + u_j + \epsilon_{ij},

其中 ii 表示个体,jj 表示组。β0\beta_0β1\beta_1 为固定效应 (Fixed Effects),ujN(0,σu2)u_j \sim N(0, \sigma_u^2) 为组 jj 的随机截距,ϵijN(0,σϵ2)\epsilon_{ij} \sim N(0, \sigma_\epsilon^2) 为个体层面的随机误差。关键的识别条件是:uju_jϵij\epsilon_{ij} 相互独立,且均与解释变量无关。

组内相关系数 (ICC) 衡量总变异中由组间差异解释的比例:

ICC=σu2σu2+σϵ2.\text{ICC} = \frac{\sigma_u^2}{\sigma_u^2 + \sigma_\epsilon^2}.

ICC 越接近 1,组内个体的同质性越强,组间差异越大,使用层级模型的必要性越充分。

在随机截距模型的基础上,还可以引入随机斜率 (Random Slope),允许回归系数在不同组间变化:

yij=β0+β1xij+u0j+u1jxij+ϵij,y_{ij} = \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} x_{ij} + \epsilon_{ij},

其中 (u0j,u1j)N(0,Σu)(u_{0j}, u_{1j})' \sim N(0, \Sigma_u)。这种设定使模型能够同时捕捉截距和斜率两个维度的组间异质性。

估计方法

层级模型的参数估计主要依赖以下方法:

最大似然估计 (ML):全域搜索使似然函数最大化的参数值。其不足在于方差分量的估计有偏(因未考虑固定效应估计损失的自由度)。

限制性最大似然估计 (REML):先以残差似然估计方差分量,再基于方差估计值求解固定效应。REML 对方差分量的估计无偏,因此是实证研究中的首选方法。

贝叶斯方法:借助马尔可夫链蒙特卡洛 (MCMC) 或变分推断 (Variational Inference) 估计后验分布,尤其适合高度复杂的模型结构(如非线性层级模型、多层级交叉分类模型)。贝叶斯方法通过引入先验分布来正则化参数空间,在组数较少或方差分量接近零时尤为有用。

模型检验与比较

层级模型的模型选择涉及固定效应与随机效应两个维度。

似然比检验 (LRT):比较嵌套模型的对数似然,用于检验随机效应是否显著。需注意,检验方差分量是否为零时,零假设位于参数空间边界上,p 值需按 50:50 混合卡方分布 (Mixture of Chi-Square Distributions) 校正。

信息准则:AIC 与 BIC 常用于非嵌套模型的比较,适用于较大样本。在层级模型中,AIC 的边际似然版本 (Marginal AIC) 与条件版本 (Conditional AIC) 各有侧重:前者关注固定效应的预测表现,后者同时评估随机效应的拟合质量。

Satterthwaite 近似与 Kenward-Roger 校正:对固定效应的假设检验,传统 Wald 检验在小样本下会低估标准误。Kenward-Roger 法通过调整分母自由度和标准误,显著改善了有限样本下的推断准确性。

经济与金融中的应用

在经济学中,层级模型的应用极为广泛。

教育经济学:学生成绩嵌套于班级和学校,研究者可同时考察个体特征(如学习时间)与学校特征(如师生比)对成绩的独立影响,并评估学校层面的效应在各校之间的变异。

劳动经济学:工资数据嵌套于行业和地区。层级模型可将工资分解为个人生产力特征、行业溢价和地区生活成本三个层次,揭示收入不平等的结构性来源。

面板数据分析:对个体 ii 在时间 tt 的重复观测可视为个体-时间两层结构。事实上,经典的面板固定效应模型 (Fixed Effects) 与随机效应模型 (Random Effects) 均可看作层级模型的特例——前者假设个体效应与解释变量相关,后者假设其不相关。Hausman 检验便是基于两种估计量之差来判定相关性假设是否成立。

金融计量:股票收益率的横截面分析中,个股嵌套于行业,行业嵌套于板块。层级模型可有效估计行业因子对收益率的影响,并校正因组内相关性导致的超额显著性(即所谓的"多重比较"问题)。

扩展与前沿

层级模型具有丰富的扩展形式:

三层级及以上模型:学生嵌套于班级、班级嵌套于学校、学校嵌套于学区——理论上可任意扩展层级。然而,层级每增加一层,估计的复杂度与数据要求呈指数上升。

交叉分类模型:学生同时嵌套于居住社区和就读学校,两者并非包含关系而是交叉分类。交叉分类模型通过引入两套互不嵌套的随机效应来处理这种数据结构。

广义线性层级模型 (GLMM):将层级结构引入广义线性模型框架,可处理二元结果(逻辑斯蒂回归)、计数数据(泊松回归)等非正态响应变量。

贝叶斯层级模型:在贝叶斯框架下,所有参数(包括组效应)均有完整的后验分布,先验信息的引入可缓解小样本组的估计不稳定性。现代的 Stanbrms 等概率编程语言为贝叶斯层级模型的拟合提供了高效工具。

注意事项

层级模型虽强大,但使用中须谨慎。第一,组数不宜过少:通常建议组数不少于 10–20,否则方差分量估计不稳定,随机效应的分布假设难以检验。第二,层级中心化 (Centering Within Context) 策略需精心设计:组均值中心化 (Group-Mean Centering) 与总均值中心化 (Grand-Mean Centering) 对固定效应的解释意义不同,选择取决于研究问题。第三,模型收敛性诊断至关重要:使用 REML 或贝叶斯方法时,须检查优化算法的收敛标志、梯度和 Hessian 矩阵的合理性,以及链的混合效果。