ARTICLE

线性混合模型

线性混合模型 (Linear Mixed Model) 线性混合模型（Linear Mixed Model, LMM）是线性回归模型的推广→在固定效应基础上引入随机效应→对具有层级结构、重复测量或纵向数据的依赖关系建模。与传统OLS将所有参数视为固定常数不同，LMM允许部分系数在群体间随机变化→"混合"意指模型中同时容纳固定效应（fixed effects）

浏览 0 更新 2026-01-06

线性混合模型 (Linear Mixed Model)

线性混合模型（Linear Mixed Model, LMM）是线性回归模型的推广→在固定效应基础上引入随机效应→对具有层级结构、重复测量或纵向数据的依赖关系建模。与传统OLS将所有参数视为固定常数不同，LMM允许部分系数在群体间随机变化→"混合"意指模型中同时容纳固定效应（fixed effects）和随机效应（random effects）。该模型在计量经济学、生物统计学、心理学和教育测量等领域广泛应用，是处理非独立观测数据的核心工具。

计量经济学中的面板数据随机效应模型、分层线性模型（Hierarchical Linear Model, HLM）、多水平模型（Multilevel Model）本质上是LMM的特例或别名。其统一性来自一个核心思想：数据存在自然分组→组内观测相关→忽视该相关性导致标准误低估和推断失效→LMM通过方差分量（variance components）显式建模组间异质性和组内相关性。

模型结构与矩阵形式

LMM的标准矩阵形式为：

\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\boldsymbol{\gamma} + \boldsymbol{\varepsilon}

其中 $\mathbf{y}$ 为 $n \times 1$ 响应向量； $\mathbf{X}$ 为 $n \times p$ 固定效应设计矩阵； $\boldsymbol{\beta}$ 为 $p \times 1$ 固定效应参数向量（待估常数）； $\mathbf{Z}$ 为 $n \times q$ 随机效应设计矩阵； $\boldsymbol{\gamma}$ 为 $q \times 1$ 随机效应向量； $\boldsymbol{\varepsilon}$ 为误差向量。

关键概率假设：

\boldsymbol{\gamma} \sim N(\mathbf{0}, \mathbf{G}), \quad \boldsymbol{\varepsilon} \sim N(\mathbf{0}, \mathbf{R}), \quad \operatorname{Cov}(\boldsymbol{\gamma}, \boldsymbol{\varepsilon}) = \mathbf{0}

由此导出响应的边际分布： $\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V})$ ，其中 $\mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}' + \mathbf{R}$ 。方差矩阵 $\mathbf{V}$ 不再是 $\sigma^2\mathbf{I}$ 的对角等方差结构→而是块对角或更复杂的参数化形式→组内观测共享随机效应，因而相关。

固定效应 vs 随机效应：固定效应 $\boldsymbol{\beta}$ 的推断目标为估计回归系数本身→适用于水平穷举且研究兴趣指向特定水平的情境（如性别、处理组别）。随机效应 $\boldsymbol{\gamma}$ 的推断目标为估计其方差分量→适用于水平为从总体随机抽样所得，且研究兴趣指向总体变异性而非特定个体的情境（如学校、个体、区域）。

典型应用场景

纵向数据/重复测量： $i = 1, \dots, N$ 个受试者，每人 $j = 1, \dots, n_i$ 次重复观测。模型：

y_{ij} = \mathbf{x}_{ij}'\boldsymbol{\beta} + \gamma_i + \varepsilon_{ij}

其中 $\gamma_i \sim N(0, \sigma_\gamma^2)$ 为个体随机截距→捕获个体间异质性→使得同一受试者的全部观测共享一个共同的偏移量 $\gamma_i$ →诱导组内等相关系数 $\rho = \sigma_\gamma^2 / (\sigma_\gamma^2 + \sigma_\varepsilon^2)$ 。该相关系数又称组内相关系数（ICC）→衡量组间方差占总方差的比例。

面板数据：面板数据模型中的随机效应模型即为LMM： $y_{it} = \mathbf{x}_{it}'\boldsymbol{\beta} + \alpha_i + \varepsilon_{it}$ ， $\alpha_i \sim N(0, \sigma_\alpha^2)$ 。对比固定效应面板模型（将 $\alpha_i$ 视为待估常数）→随机效应的关键假设为 $\operatorname{Cov}(\mathbf{x}_{it}, \alpha_i) = 0$ →若违反则需Hausman检验甄别→拒绝随机效应则转向固定效应估计。

多水平/分层数据：学生嵌套于班级、班级嵌套于学校→三级LMM：

y_{ijk} = \mathbf{x}_{ijk}'\boldsymbol{\beta} + \gamma_k^{(3)} + \gamma_{jk}^{(2)} + \varepsilon_{ijk}

各层随机效应独立且服从不同方差的正态分布。多水平模型可跨层引入预测变量→如学校层面变量解释 $\gamma_k^{(3)}$ 的变异→回答"学校特征是否调节个体结果"。

随机系数模型：不仅截距随机，斜率也可随机→ $y_{ij} = \beta_0 + \beta_1 t_{ij} + \gamma_{0i} + \gamma_{1i} t_{ij} + \varepsilon_{ij}$ →每个个体拥有自己的截距 $\gamma_{0i}$ 和斜率 $\gamma_{1i}$ →二者通常假设服从二元正态分布→ $\mathbf{G}$ 包含截距方差、斜率方差及二者协方差→允许个体增长轨迹异质。

估计方法

最大似然估计（MLE）：基于边际分布 $\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}(\boldsymbol{\theta}))$ 的对数似然函数：

\ell(\boldsymbol{\beta}, \boldsymbol{\theta}) = -\frac{1}{2}\left[n\log(2\pi) + \log|\mathbf{V}| + (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\right]

给定 $\mathbf{V}$ ， $\boldsymbol{\beta}$ 的广义最小二乘（GLS）解为 $\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}'\mathbf{V}^{-1}\mathbf{y}$ 。但 $\mathbf{V}$ 依赖未知方差参数 $\boldsymbol{\theta}$ →迭代求解→常用Newton-Raphson、Fisher得分或EM算法。

MLE直接最大化联合似然→但方差分量的MLE在小样本下有偏（未考虑固定效应估计消耗的自由度）→引出了约束最大似然（REML）。

REML：先对数据进行线性变换消除固定效应→在残差空间最大化似然→仅对 $\boldsymbol{\theta}$ 估计。REML估计的方差分量在大样本下一致且比MLE偏差更小。实践中REML为默认推荐方法→但当模型比较涉及不同固定效应结构时→需用MLE（REML下不同固定效应的似然不可比）。

随机效应的预测—BLUP： $\boldsymbol{\gamma}$ 本身为随机变量而非参数→不能直接"估计"→其最佳预测为条件期望：

\tilde{\boldsymbol{\gamma}} = \mathbf{G}\mathbf{Z}'\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})

该式为最佳线性无偏预测（BLUP）→是已知 $\mathbf{G}, \mathbf{R}$ 下最小化均方预测误差的线性预测→等价于贝叶斯设定下的后验均值。实践中代入 $\mathbf{G}, \mathbf{R}$ 的REML估计→得到经验BLUP（EBLUP）。

模型选择与诊断

方差分量检验： $H_0: \sigma_\gamma^2 = 0$ →即随机效应不存在→简化为普通线性模型。似然比检验（LRT）的检验统计量 $-2(\ell_{\text{reduced}} - \ell_{\text{full}})$ 在边界原假设下渐近分布为 $\bar{\chi}^2$ 混合分布（0与 $\chi_1^2$ 等权混合）→常规 $\chi_1^2$ 过于保守。亦可用AIC、BIC进行模型比较→但随机效应个数的计数存在争议→保守做法为仅计数方差参数个数。

残差诊断：LMM涉及两类残差。条件残差 $\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} - \mathbf{Z}\tilde{\boldsymbol{\gamma}}$ 检验组内正态性和同方差性。预测随机效应 $\tilde{\boldsymbol{\gamma}}$ 的正态Q-Q图检验随机效应的正态假设。此外边际残差 $\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}$ 用于检测模型整体的拟合异常。

与相关模型的比较

与广义估计方程（GEE）对比：GEE通过工作相关矩阵建模组内相关性→用三明治估计给出稳健标准误→属于"边际模型"→关注总体平均效应。LMM为"条件模型"→在随机效应条件下解释→提供受试者特异性推断。两者在恒等连接且正态响应下等价→但非正态（如二分类）时给出不同参数解释→选择取决于研究目的。

与固定效应面板模型对比：固定效应消除不随时间变化的个体异质性→估计一致但无法估计时不变变量的系数。随机效应效率更高但需 $\operatorname{Cov}(x_{it}, \alpha_i) = 0$ 。Hausman检验比较两估计量的差异→显著差异→怀疑随机效应假设→转固定效应。Mundlak提出折中方案→在随机效应中加入个体均值 $\bar{\mathbf{x}}_i$ →允许解释变量与随机效应相关。

广义线性混合模型（GLMM）：当响应为非正态（二分类、计数等）→引入链接函数和指数族分布→不再有闭式边际似然→需借助拉普拉斯近似、自适应高斯求积或MCMC贝叶斯方法→LMM为GLMM在恒等链接、正态分布下的特例。

计量经济学中的实践要点

差分 $\Delta y_{it}$ 可消除个体随机效应→但一并消除时不变解释变量→权衡取决于研究问题。聚类稳健标准误与LMM互补→前者以Neyman-Huber-White框架不建模相关性结构→后者显式参数化。当聚类数量较少（如 $N < 30$ ）→LMM的REML推断优于渐近依赖的聚类标准误。R中\verb|lme4::lmer|、Stata中\verb|mixed|、Python中\verb|statsmodels.MixedLM|为常用实现。报告应包含：固定效应系数与标准误、随机效应方差分量及其置信区间、ICC、模型比较的AIC/BIC、以及残差诊断的简要描述。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。