ARTICLE

线性混合模型

线性混合模型 (Linear Mixed Model) 线性混合模型(Linear Mixed Model, LMM)是线性回归模型的推广→在固定效应基础上引入随机效应→对具有层级结构、重复测量或纵向数据的依赖关系建模。与传统OLS将所有参数视为固定常数不同,LMM允许部分系数在群体间随机变化→"混合"意指模型中同时容纳固定效应(fixed effects)

浏览 0 更新 2026-01-06

线性混合模型 (Linear Mixed Model)

线性混合模型(Linear Mixed Model, LMM)是线性回归模型的推广→在固定效应基础上引入随机效应→对具有层级结构、重复测量或纵向数据的依赖关系建模。与传统OLS将所有参数视为固定常数不同,LMM允许部分系数在群体间随机变化→"混合"意指模型中同时容纳固定效应(fixed effects)和随机效应(random effects)。该模型在计量经济学生物统计学心理学和教育测量等领域广泛应用,是处理非独立观测数据的核心工具。

计量经济学中的面板数据随机效应模型、分层线性模型(Hierarchical Linear Model, HLM)、多水平模型(Multilevel Model)本质上是LMM的特例或别名。其统一性来自一个核心思想:数据存在自然分组→组内观测相关→忽视该相关性导致标准误低估和推断失效→LMM通过方差分量(variance components)显式建模组间异质性和组内相关性。

模型结构与矩阵形式

LMM的标准矩阵形式为:

y=Xβ+Zγ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\boldsymbol{\gamma} + \boldsymbol{\varepsilon}

其中 y\mathbf{y}n×1n \times 1 响应向量;X\mathbf{X}n×pn \times p 固定效应设计矩阵;β\boldsymbol{\beta}p×1p \times 1 固定效应参数向量(待估常数);Z\mathbf{Z}n×qn \times q 随机效应设计矩阵;γ\boldsymbol{\gamma}q×1q \times 1 随机效应向量;ε\boldsymbol{\varepsilon} 为误差向量。

关键概率假设:

γN(0,G),εN(0,R),Cov(γ,ε)=0\boldsymbol{\gamma} \sim N(\mathbf{0}, \mathbf{G}), \quad \boldsymbol{\varepsilon} \sim N(\mathbf{0}, \mathbf{R}), \quad \operatorname{Cov}(\boldsymbol{\gamma}, \boldsymbol{\varepsilon}) = \mathbf{0}

由此导出响应的边际分布:yN(Xβ,V)\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}),其中 V=ZGZ+R\mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}' + \mathbf{R}。方差矩阵 V\mathbf{V} 不再是 σ2I\sigma^2\mathbf{I} 的对角等方差结构→而是块对角或更复杂的参数化形式→组内观测共享随机效应,因而相关。

固定效应 vs 随机效应:固定效应β\boldsymbol{\beta}的推断目标为估计回归系数本身→适用于水平穷举且研究兴趣指向特定水平的情境(如性别、处理组别)。随机效应γ\boldsymbol{\gamma}的推断目标为估计其方差分量→适用于水平为从总体随机抽样所得,且研究兴趣指向总体变异性而非特定个体的情境(如学校、个体、区域)。

典型应用场景

纵向数据/重复测量i=1,,Ni = 1, \dots, N 个受试者,每人 j=1,,nij = 1, \dots, n_i 次重复观测。模型:

yij=xijβ+γi+εijy_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + \gamma_i + \varepsilon_{ij}

其中 γiN(0,σγ2)\gamma_i \sim N(0, \sigma_\gamma^2) 为个体随机截距→捕获个体间异质性→使得同一受试者的全部观测共享一个共同的偏移量γi\gamma_i→诱导组内等相关系数 ρ=σγ2/(σγ2+σε2)\rho = \sigma_\gamma^2 / (\sigma_\gamma^2 + \sigma_\varepsilon^2)。该相关系数又称组内相关系数(ICC)→衡量组间方差占总方差的比例。

面板数据面板数据模型中的随机效应模型即为LMM:yit=xitβ+αi+εity_{it} = \mathbf{x}_{it}'\boldsymbol{\beta} + \alpha_i + \varepsilon_{it}αiN(0,σα2)\alpha_i \sim N(0, \sigma_\alpha^2)。对比固定效应面板模型(将αi\alpha_i视为待估常数)→随机效应的关键假设为 Cov(xit,αi)=0\operatorname{Cov}(\mathbf{x}_{it}, \alpha_i) = 0→若违反则需Hausman检验甄别→拒绝随机效应则转向固定效应估计。

多水平/分层数据:学生嵌套于班级、班级嵌套于学校→三级LMM:

yijk=xijkβ+γk(3)+γjk(2)+εijky_{ijk} = \mathbf{x}_{ijk}'\boldsymbol{\beta} + \gamma_k^{(3)} + \gamma_{jk}^{(2)} + \varepsilon_{ijk}

各层随机效应独立且服从不同方差的正态分布。多水平模型可跨层引入预测变量→如学校层面变量解释γk(3)\gamma_k^{(3)}的变异→回答"学校特征是否调节个体结果"。

随机系数模型:不仅截距随机,斜率也可随机→yij=β0+β1tij+γ0i+γ1itij+εijy_{ij} = \beta_0 + \beta_1 t_{ij} + \gamma_{0i} + \gamma_{1i} t_{ij} + \varepsilon_{ij}→每个个体拥有自己的截距γ0i\gamma_{0i}和斜率γ1i\gamma_{1i}→二者通常假设服从二元正态分布→G\mathbf{G} 包含截距方差、斜率方差及二者协方差→允许个体增长轨迹异质。

估计方法

最大似然估计(MLE):基于边际分布 yN(Xβ,V(θ))\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}(\boldsymbol{\theta})) 的对数似然函数:

(β,θ)=12[nlog(2π)+logV+(yXβ)V1(yXβ)]\ell(\boldsymbol{\beta}, \boldsymbol{\theta}) = -\frac{1}{2}\left[n\log(2\pi) + \log|\mathbf{V}| + (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\right]

给定V\mathbf{V}β\boldsymbol{\beta} 的广义最小二乘(GLS)解为 β^=(XV1X)1XV1y\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}'\mathbf{V}^{-1}\mathbf{y}。但V\mathbf{V}依赖未知方差参数θ\boldsymbol{\theta}→迭代求解→常用Newton-RaphsonFisher得分EM算法

MLE直接最大化联合似然→但方差分量的MLE在小样本下有偏(未考虑固定效应估计消耗的自由度)→引出了约束最大似然(REML)

REML:先对数据进行线性变换消除固定效应→在残差空间最大化似然→仅对θ\boldsymbol{\theta}估计。REML估计的方差分量在大样本下一致且比MLE偏差更小。实践中REML为默认推荐方法→但当模型比较涉及不同固定效应结构时→需用MLE(REML下不同固定效应的似然不可比)。

随机效应的预测—BLUPγ\boldsymbol{\gamma} 本身为随机变量而非参数→不能直接"估计"→其最佳预测为条件期望:

γ~=GZV1(yXβ^)\tilde{\boldsymbol{\gamma}} = \mathbf{G}\mathbf{Z}'\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})

该式为最佳线性无偏预测(BLUP)→是已知G,R\mathbf{G}, \mathbf{R}下最小化均方预测误差的线性预测→等价于贝叶斯设定下的后验均值。实践中代入G,R\mathbf{G}, \mathbf{R}的REML估计→得到经验BLUP(EBLUP)。

模型选择与诊断

方差分量检验H0:σγ2=0H_0: \sigma_\gamma^2 = 0→即随机效应不存在→简化为普通线性模型。似然比检验(LRT)的检验统计量 2(reducedfull)-2(\ell_{\text{reduced}} - \ell_{\text{full}}) 在边界原假设下渐近分布为 χˉ2\bar{\chi}^2 混合分布(0与χ12\chi_1^2等权混合)→常规χ12\chi_1^2过于保守。亦可用AICBIC进行模型比较→但随机效应个数的计数存在争议→保守做法为仅计数方差参数个数。

残差诊断:LMM涉及两类残差。条件残差 ε^=yXβ^Zγ~\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} - \mathbf{Z}\tilde{\boldsymbol{\gamma}} 检验组内正态性和同方差性。预测随机效应 γ~\tilde{\boldsymbol{\gamma}} 的正态Q-Q图检验随机效应的正态假设。此外边际残差 yXβ^\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} 用于检测模型整体的拟合异常。

与相关模型的比较

广义估计方程(GEE)对比:GEE通过工作相关矩阵建模组内相关性→用三明治估计给出稳健标准误→属于"边际模型"→关注总体平均效应。LMM为"条件模型"→在随机效应条件下解释→提供受试者特异性推断。两者在恒等连接且正态响应下等价→但非正态(如二分类)时给出不同参数解释→选择取决于研究目的。

固定效应面板模型对比:固定效应消除不随时间变化的个体异质性→估计一致但无法估计时不变变量的系数。随机效应效率更高但需Cov(xit,αi)=0\operatorname{Cov}(x_{it}, \alpha_i) = 0Hausman检验比较两估计量的差异→显著差异→怀疑随机效应假设→转固定效应。Mundlak提出折中方案→在随机效应中加入个体均值xˉi\bar{\mathbf{x}}_i→允许解释变量与随机效应相关。

广义线性混合模型(GLMM):当响应为非正态(二分类、计数等)→引入链接函数和指数族分布→不再有闭式边际似然→需借助拉普拉斯近似自适应高斯求积MCMC贝叶斯方法→LMM为GLMM在恒等链接、正态分布下的特例。

计量经济学中的实践要点

差分Δyit\Delta y_{it} 可消除个体随机效应→但一并消除时不变解释变量→权衡取决于研究问题。聚类稳健标准误与LMM互补→前者以Neyman-Huber-White框架不建模相关性结构→后者显式参数化。当聚类数量较少(如 N<30N < 30)→LMM的REML推断优于渐近依赖的聚类标准误。R中\verb|lme4::lmer|、Stata中\verb|mixed|、Python中\verb|statsmodels.MixedLM|为常用实现。报告应包含:固定效应系数与标准误、随机效应方差分量及其置信区间、ICC、模型比较的AIC/BIC、以及残差诊断的简要描述。