线性混合模型 (Linear Mixed Model)
线性混合模型(Linear Mixed Model, LMM)是线性回归模型的推广→在固定效应基础上引入随机效应→对具有层级结构、重复测量或纵向数据的依赖关系建模。与传统OLS将所有参数视为固定常数不同,LMM允许部分系数在群体间随机变化→"混合"意指模型中同时容纳固定效应(fixed effects)和随机效应(random effects)。该模型在计量经济学、生物统计学、心理学和教育测量等领域广泛应用,是处理非独立观测数据的核心工具。
计量经济学中的面板数据随机效应模型、分层线性模型(Hierarchical Linear Model, HLM)、多水平模型(Multilevel Model)本质上是LMM的特例或别名。其统一性来自一个核心思想:数据存在自然分组→组内观测相关→忽视该相关性导致标准误低估和推断失效→LMM通过方差分量(variance components)显式建模组间异质性和组内相关性。
模型结构与矩阵形式
LMM的标准矩阵形式为:
y=Xβ+Zγ+ε
其中 y 为 n×1 响应向量;X 为 n×p 固定效应设计矩阵;β 为 p×1 固定效应参数向量(待估常数);Z 为 n×q 随机效应设计矩阵;γ 为 q×1 随机效应向量;ε 为误差向量。
关键概率假设:
γ∼N(0,G),ε∼N(0,R),Cov(γ,ε)=0
由此导出响应的边际分布:y∼N(Xβ,V),其中 V=ZGZ′+R。方差矩阵 V 不再是 σ2I 的对角等方差结构→而是块对角或更复杂的参数化形式→组内观测共享随机效应,因而相关。
固定效应 vs 随机效应:固定效应β的推断目标为估计回归系数本身→适用于水平穷举且研究兴趣指向特定水平的情境(如性别、处理组别)。随机效应γ的推断目标为估计其方差分量→适用于水平为从总体随机抽样所得,且研究兴趣指向总体变异性而非特定个体的情境(如学校、个体、区域)。
典型应用场景
纵向数据/重复测量:i=1,…,N 个受试者,每人 j=1,…,ni 次重复观测。模型:
yij=xij′β+γi+εij
其中 γi∼N(0,σγ2) 为个体随机截距→捕获个体间异质性→使得同一受试者的全部观测共享一个共同的偏移量γi→诱导组内等相关系数 ρ=σγ2/(σγ2+σε2)。该相关系数又称组内相关系数(ICC)→衡量组间方差占总方差的比例。
面板数据:面板数据模型中的随机效应模型即为LMM:yit=xit′β+αi+εit,αi∼N(0,σα2)。对比固定效应面板模型(将αi视为待估常数)→随机效应的关键假设为 Cov(xit,αi)=0→若违反则需Hausman检验甄别→拒绝随机效应则转向固定效应估计。
多水平/分层数据:学生嵌套于班级、班级嵌套于学校→三级LMM:
yijk=xijk′β+γk(3)+γjk(2)+εijk
各层随机效应独立且服从不同方差的正态分布。多水平模型可跨层引入预测变量→如学校层面变量解释γk(3)的变异→回答"学校特征是否调节个体结果"。
随机系数模型:不仅截距随机,斜率也可随机→yij=β0+β1tij+γ0i+γ1itij+εij→每个个体拥有自己的截距γ0i和斜率γ1i→二者通常假设服从二元正态分布→G 包含截距方差、斜率方差及二者协方差→允许个体增长轨迹异质。
估计方法
最大似然估计(MLE):基于边际分布 y∼N(Xβ,V(θ)) 的对数似然函数:
ℓ(β,θ)=−21[nlog(2π)+log∣V∣+(y−Xβ)′V−1(y−Xβ)]
给定V,β 的广义最小二乘(GLS)解为 β^=(X′V−1X)−1X′V−1y。但V依赖未知方差参数θ→迭代求解→常用Newton-Raphson、Fisher得分或EM算法。
MLE直接最大化联合似然→但方差分量的MLE在小样本下有偏(未考虑固定效应估计消耗的自由度)→引出了约束最大似然(REML)。
REML:先对数据进行线性变换消除固定效应→在残差空间最大化似然→仅对θ估计。REML估计的方差分量在大样本下一致且比MLE偏差更小。实践中REML为默认推荐方法→但当模型比较涉及不同固定效应结构时→需用MLE(REML下不同固定效应的似然不可比)。
随机效应的预测—BLUP:γ 本身为随机变量而非参数→不能直接"估计"→其最佳预测为条件期望:
γ~=GZ′V−1(y−Xβ^)
该式为最佳线性无偏预测(BLUP)→是已知G,R下最小化均方预测误差的线性预测→等价于贝叶斯设定下的后验均值。实践中代入G,R的REML估计→得到经验BLUP(EBLUP)。
模型选择与诊断
方差分量检验:H0:σγ2=0→即随机效应不存在→简化为普通线性模型。似然比检验(LRT)的检验统计量 −2(ℓreduced−ℓfull) 在边界原假设下渐近分布为 χˉ2 混合分布(0与χ12等权混合)→常规χ12过于保守。亦可用AIC、BIC进行模型比较→但随机效应个数的计数存在争议→保守做法为仅计数方差参数个数。
残差诊断:LMM涉及两类残差。条件残差 ε^=y−Xβ^−Zγ~ 检验组内正态性和同方差性。预测随机效应 γ~ 的正态Q-Q图检验随机效应的正态假设。此外边际残差 y−Xβ^ 用于检测模型整体的拟合异常。
与相关模型的比较
与广义估计方程(GEE)对比:GEE通过工作相关矩阵建模组内相关性→用三明治估计给出稳健标准误→属于"边际模型"→关注总体平均效应。LMM为"条件模型"→在随机效应条件下解释→提供受试者特异性推断。两者在恒等连接且正态响应下等价→但非正态(如二分类)时给出不同参数解释→选择取决于研究目的。
与固定效应面板模型对比:固定效应消除不随时间变化的个体异质性→估计一致但无法估计时不变变量的系数。随机效应效率更高但需Cov(xit,αi)=0。Hausman检验比较两估计量的差异→显著差异→怀疑随机效应假设→转固定效应。Mundlak提出折中方案→在随机效应中加入个体均值xˉi→允许解释变量与随机效应相关。
广义线性混合模型(GLMM):当响应为非正态(二分类、计数等)→引入链接函数和指数族分布→不再有闭式边际似然→需借助拉普拉斯近似、自适应高斯求积或MCMC贝叶斯方法→LMM为GLMM在恒等链接、正态分布下的特例。
计量经济学中的实践要点
差分Δyit 可消除个体随机效应→但一并消除时不变解释变量→权衡取决于研究问题。聚类稳健标准误与LMM互补→前者以Neyman-Huber-White框架不建模相关性结构→后者显式参数化。当聚类数量较少(如 N<30)→LMM的REML推断优于渐近依赖的聚类标准误。R中\verb|lme4::lmer|、Stata中\verb|mixed|、Python中\verb|statsmodels.MixedLM|为常用实现。报告应包含:固定效应系数与标准误、随机效应方差分量及其置信区间、ICC、模型比较的AIC/BIC、以及残差诊断的简要描述。