ARTICLE

混合效应模型

混合效应模型 (Mixed Effects Models) 混合效应模型(Mixed Effects Models)是一类同时包含固定效应(Fixed Effects)和随机效应(Random Effects)的统计模型,广泛应用于计量经济学、生物统计学、心理学和教育学等领域中具有分层结构或重复观测的数据。其核心思想是将数据中的变异分解为两部分:由可观测协变

浏览 0 更新 2026-01-06

混合效应模型 (Mixed Effects Models)

混合效应模型(Mixed Effects Models)是一类同时包含固定效应(Fixed Effects)和随机效应(Random Effects)的统计模型,广泛应用于计量经济学生物统计学、心理学和教育学等领域中具有分层结构或重复观测的数据。其核心思想是将数据中的变异分解为两部分:由可观测协变量解释的系统性效应(固定效应),以及由不可观测的分组因素带来的随机波动(随机效应)。与纯固定效应模型或纯随机效应模型相比,混合效应模型能够更灵活地刻画数据的相关结构,在个体间存在异质性时提供更准确的推断。

固定效应与随机效应的区分

混合效应模型的根本出发点在于对效应类型的区分。固定效应指参数被假定为未知常数,适用于研究因素的各个水平本身就是推断目标的情形。例如,在比较三种教学方法的实验研究中,教学方法是固定效应,因为研究者只关心这三种特定方法的效果差异。固定效应的推断范围仅限于所研究的水平,结论不可外推至未观测的水平。

随机效应则将效应视为从一个更大总体中随机抽取的样本,适用于分组因素的水平众多且不单独关注每个水平的情形。例如,在全国学生成绩调查中抽取若干所学校,研究者通常不关心某所特定学校的平均成绩,而是希望推断学校层面变异对成绩的总体影响,此时学校即为随机效应。随机效应引入了一个额外的方差成分,刻画了组间变异的程度。

实践中区分两种效应的经验法则是:若分组因素的各个水平是研究者特意选取且不可互换的,宜设为固定效应;若水平是从大总体中随机抽取且可互换的,宜设为随机效应。面板数据分析中,当截面单位数量 NN 很大且时间维度 TT 较小时,通常将个体效应视为随机效应(随机效应模型);当研究者关注特定截面单位本身(如分析 G7 国家)时,则宜使用固定效应

线性混合模型的基本形式

对于第 ii 个分组单元(i=1,,mi = 1, \ldots, m),线性混合模型(Linear Mixed Model, LMM)可写为:

yi=Xiβ+Zibi+ϵi\mathbf{y}_i = \mathbf{X}_i \boldsymbol{\beta} + \mathbf{Z}_i \mathbf{b}_i + \boldsymbol{\epsilon}_i

其中:

  • yi\mathbf{y}_ini×1n_i \times 1 的响应向量,nin_i 为第 ii 组内的观测数。
  • Xi\mathbf{X}_i 是固定效应的 ni×pn_i \times p 设计矩阵,β\boldsymbol{\beta}p×1p \times 1 的固定效应参数向量。
  • Zi\mathbf{Z}_i 是随机效应的 ni×qn_i \times q 设计矩阵,bi\mathbf{b}_iq×1q \times 1 的随机效应向量。
  • ϵi\boldsymbol{\epsilon}_ini×1n_i \times 1 的组内误差向量。

模型的分布假设为:

biN(0,G),ϵiN(0,Ri),biϵi\mathbf{b}_i \sim \mathcal{N}(\mathbf{0}, \mathbf{G}), \quad \boldsymbol{\epsilon}_i \sim \mathcal{N}(\mathbf{0}, \mathbf{R}_i), \quad \mathbf{b}_i \perp \boldsymbol{\epsilon}_i

其中 G\mathbf{G} 是随机效应的 q×qq \times q 协方差矩阵,Ri\mathbf{R}_i 是组内误差的 ni×nin_i \times n_i 协方差矩阵。最常见的设定是 Ri=σ2Ini\mathbf{R}_i = \sigma^2 \mathbf{I}_{n_i}(组内独立同方差),但也可以引入更复杂的误差结构,如自回归或异方差形式。在此设定下,yi\mathbf{y}_i 的边际分布为:

yiN(Xiβ,Vi),Vi=ZiGZi+Ri\mathbf{y}_i \sim \mathcal{N}(\mathbf{X}_i \boldsymbol{\beta}, \mathbf{V}_i), \quad \mathbf{V}_i = \mathbf{Z}_i \mathbf{G} \mathbf{Z}_i' + \mathbf{R}_i

边际协方差矩阵 Vi\mathbf{V}_i 由随机效应协方差 ZiGZi\mathbf{Z}_i \mathbf{G} \mathbf{Z}_i' 和误差协方差 Ri\mathbf{R}_i 两部分构成。这一结构自然地刻画了同一分组内观测之间的相关性:组内观测共享相同的随机效应 bi\mathbf{b}_i,因此彼此相关;不同分组的观测相互独立。这正是混合效应模型处理聚类数据纵向数据时优于普通最小二乘法(OLS)的根本原因。

随机截距与随机斜率

线性混合模型中最常见的两种设定是随机截距模型和随机斜率模型。

随机截距模型仅允许每个分组的基线水平不同,但各组内解释变量的效应相同。以简化形式表示为:

yij=xijβ+bi0+ϵij,bi0N(0,σb2)y_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + b_{i0} + \epsilon_{ij}, \quad b_{i0} \sim \mathcal{N}(0, \sigma_b^2)

其中 bi0b_{i0} 是第 ii 组的随机截距,捕捉了该组在控制协变量后相对于总体均值的偏离。这一设定等价于引入组内恒定但组间可变的不可观测异质性,对应经典的面板数据随机效应模型。

随机斜率模型进一步允许解释变量的效应本身在各组之间存在差异:

yij=xijβ+bi0+bi1xij1+ϵij,(bi0bi1)N(0,(σ02σ01σ01σ12))y_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + b_{i0} + b_{i1} x_{ij1} + \epsilon_{ij}, \quad \begin{pmatrix} b_{i0} \\ b_{i1} \end{pmatrix} \sim \mathcal{N}\left(\mathbf{0}, \begin{pmatrix} \sigma_0^2 & \sigma_{01} \\ \sigma_{01} & \sigma_1^2 \end{pmatrix}\right)

随机截距与随机斜率之间允许存在协方差 σ01\sigma_{01}。例如,在学生学习成绩的纵向研究中,随机截距代表学生个体初始水平,随机斜率代表个体学习速度,二者可能正相关(起点高的学生进步也快)。

估计方法:ML 与 REML

混合效应模型的参数包括固定效应参数 β\boldsymbol{\beta} 和方差成分参数 θ\boldsymbol{\theta}(由 G\mathbf{G}Ri\mathbf{R}_i 中的方差-协方差参数组成)。两种主要的估计方法为最大似然(ML)和限制最大似然(REML)。

最大似然估计基于响应向量的边际分布。将所有分组堆叠为 y\mathbf{y},其对数似然函数为:

(β,θ)=12logV12(yXβ)V1(yXβ)N2log(2π)\ell(\boldsymbol{\beta}, \boldsymbol{\theta}) = -\frac{1}{2} \log |\mathbf{V}| - \frac{1}{2} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})' \mathbf{V}^{-1} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) - \frac{N}{2} \log(2\pi)

其中 V=diag(V1,,Vm)\mathbf{V} = \operatorname{diag}(\mathbf{V}_1, \ldots, \mathbf{V}_m) 是分块对角边际协方差矩阵。对 β\boldsymbol{\beta} 求导可得广义最小二乘(GLS)形式的解:

β^=(XV1X)1XV1y\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{V}^{-1}\mathbf{X})^{-1} \mathbf{X}'\mathbf{V}^{-1} \mathbf{y}

ML 的问题是方差成分的估计未考虑固定效应估计消耗的自由度,在小样本下产生向下的偏误。

限制最大似然(REML)通过将似然分解为正交对比部分,仅基于残差对比估计方差成分,消除了 β\boldsymbol{\beta} 的干扰。REML 对数似然为:

R(θ)=12logV12logXV1X12yPyNp2log(2π)\ell_R(\boldsymbol{\theta}) = -\frac{1}{2} \log |\mathbf{V}| - \frac{1}{2} \log |\mathbf{X}'\mathbf{V}^{-1}\mathbf{X}| - \frac{1}{2} \mathbf{y}'\mathbf{P}\mathbf{y} - \frac{N-p}{2} \log(2\pi)

其中 P=V1V1X(XV1X)1XV1\mathbf{P} = \mathbf{V}^{-1} - \mathbf{V}^{-1}\mathbf{X}(\mathbf{X}'\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}'\mathbf{V}^{-1}。REML 对方差成分的估计近似无偏,是实践中推荐的方法。但当需要通过似然比检验(LRT)比较不同固定效应结构的模型时,必须使用 ML 而非 REML,因为 REML 下的似然在不同固定效应设定间不可比。

数值上,两者均通过迭代优化算法实现,常用 Newton-Raphson 或 EM 算法。在收敛后,基于 β^\hat{\boldsymbol{\beta}}θ^\hat{\boldsymbol{\theta}} 可预测随机效应 bi\mathbf{b}_i

随机效应的预测:BLUP

混合效应模型不仅估计固定效应,还提供随机效应的最佳线性无偏预测BLUP, Best Linear Unbiased Predictor)。BLUP 可视为随机效应在给定数据下的条件期望估计:

b^i=GZiVi1(yiXiβ^)\hat{\mathbf{b}}_i = \mathbf{G} \mathbf{Z}_i' \mathbf{V}_i^{-1} (\mathbf{y}_i - \mathbf{X}_i \hat{\boldsymbol{\beta}})

这一形式揭示了一个重要的收缩性质:当组内样本量较小或组内变异较大时,b^i\hat{\mathbf{b}}_i 会被拉向零(总体均值);当组内信息充分时,b^i\hat{\mathbf{b}}_i 则接近该组的 OLS 估计。这是随机效应估计区别于固定效应估计的核心特征——前者利用跨组信息进行收缩(shrinkage),在偏误与方差之间取得平衡。这一性质使随机效应模型在预测新分组时具有天然优势。

广义线性混合模型

当响应变量不满足正态性假设时,可扩展为广义线性混合模型(GLMM)。设条件期望通过链接函数 g()g(\cdot) 与线性预测子关联:

g(E[yijbi])=xijβ+zijbig(\mathbb{E}[y_{ij} \mid \mathbf{b}_i]) = \mathbf{x}_{ij}'\boldsymbol{\beta} + \mathbf{z}_{ij}'\mathbf{b}_i

响应变量的条件分布取自指数族,如二项分布(Logistic 混合模型)或泊松分布(Poisson 混合模型)。GLMM 的似然涉及高维积分 f(yibi)f(bi)dbi\int f(\mathbf{y}_i \mid \mathbf{b}_i) f(\mathbf{b}_i) d\mathbf{b}_i,通常无解析解。求解方法包括:

  1. 拉普拉斯近似(Laplace approximation):对积分进行二次近似,计算效率高,适用于中等以上分组数。
  2. 自适应高斯求积(adaptive Gauss-Hermite quadrature):精度高于拉普拉斯近似,但计算量随随机效应维度快速增长。
  3. 贝叶斯方法:通过MCMC采样直接获得参数的后验分布,是处理复杂 GLMM 的灵活框架。

与面板数据固定效应模型的比较

面板数据分析中,固定效应模型和随机效应模型(混合效应模型的特殊情形)之间的选择是经典问题。固定效应模型将个体效应 αi\alpha_i 视为待估参数,通过组内去均值或一阶差分消除之,优点是允许 αi\alpha_i 与解释变量任意相关,代价是无法估计不随时间变化的变量的效应。随机效应模型假设 αiN(0,σα2)\alpha_i \sim \mathcal{N}(0, \sigma_\alpha^2) 且与解释变量不相关,效率更高且可估计时不变变量的系数,但若相关性假设不成立则估计不一致。

豪斯曼检验(Hausman test)是区分二者的标准工具:在原假设(随机效应一致)下比较两种估计量;拒绝原假设则倾向于固定效应。然而实践中不应机械依赖检验结果,而应结合研究问题本身判断——若目标是推断总体特征且分组因素可视为随机抽样,则混合效应模型的推广性更强;若目标是分析特定单元的内部变化,则固定效应更妥。

另一种折中方案是Hausman-Taylor 模型,在混合效应框架中允许部分变量与个体效应相关,通过内部工具变量实现一致估计,兼具固定效应模型的稳健性与随机效应模型的效率。

应用场景与注意事项

混合效应模型在多个领域有广泛应用:

纵向数据分析:对同一受试者重复测量的研究中,个体内观测天然相关,随机截距和随机斜率灵活刻画个体轨迹的异质性。多层次数据:如学生嵌套于班级、班级嵌套于学校,每一层级均可引入随机效应,形成分层线性模型(Hierarchical Linear Model, HLM)。交叉随机效应:如消费者对产品的评分数据中,消费者与产品各自作为交叉的随机效应,刻画双向异质性。空间统计:区域随机效应捕捉空间聚类特征。

使用中需注意以下问题。随机效应分布假设:正态性假设虽可借助中心极限定理部分缓解,但在分布严重偏态时可能影响推断,可考虑使用有限混合分布或非参数随机效应。收敛问题:模型过于复杂(过多随机效应项、方差成分接近边界等)时,优化算法可能不收敛,需简化模型结构或使用贝叶斯方法。自由度调整:小样本下 Wald 检验和 LRT 的参考分布可能偏离理论分布,Kenward-Roger 或 Satterthwaite 自由度近似是推荐的校正手段。模型比较:嵌套模型的方差成分检验(如是否保留某个随机效应)中,LRT 的零分布是卡方分布的混合而非标准卡方。

混合效应模型的核心价值在于在统一框架下同时建模均值结构和协方差结构,既保留了固定效应模型对系统性效应的推断能力,又借助随机效应和 BLUP 充分挖掘数据中多层次、异质性的信息。随着计算能力的提升和软件(如 R 语言中 \texttt{lme4}、\texttt{nlme} 及 Stata 中 \texttt{mixed} 命令)的成熟,混合效应模型已成为处理复杂数据结构不可或缺的工具。