ARTICLE

BLUP

最佳线性无偏预测 (Best Linear Unbiased Prediction, BLUP) 最佳线性无偏预测 (Best Linear Unbiased Prediction),缩写为 BLUP,是数理统计和混合效应模型中用于预测随机效应(random effects)的一种核心方法。它与最佳线性无偏估计(BLUE) 在思想上同源但目标不同:BLUE

浏览 0 更新 2026-01-06

最佳线性无偏预测 (Best Linear Unbiased Prediction, BLUP)

最佳线性无偏预测 (Best Linear Unbiased Prediction),缩写为 BLUP,是数理统计混合效应模型中用于预测随机效应(random effects)的一种核心方法。它与最佳线性无偏估计(BLUE) 在思想上同源但目标不同:BLUE 旨在估计固定效应(fixed effects)的未知参数,而 BLUP 旨在预测不可观测的随机变量(即随机效应)的实现值。

BLUP 的理论基础由 Charles Henderson 在 1950 年代前后为动物育种领域系统建立,因此也常被称为 Henderson 的 BLUP。它在遗传评估、教育测量、纵向数据分析和小区域估计(small area estimation)中有着广泛的应用。

BLUP 的定义与框架

考虑一个一般的线性混合模型(Linear Mixed Model, LMM):

y=Xβ+Zu+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} + \boldsymbol{\varepsilon}

其中:

  • y\mathbf{y}n×1n \times 1 的观测值向量;
  • X\mathbf{X}n×pn \times p 的固定效应设计矩阵,β\boldsymbol{\beta} 是对应的 p×1p \times 1 固定效应参数向量;
  • Z\mathbf{Z}n×qn \times q 的随机效应设计矩阵,u\mathbf{u}q×1q \times 1 的随机效应向量,满足 E[u]=0\mathrm{E}[\mathbf{u}] = \mathbf{0}Var[u]=G\mathrm{Var}[\mathbf{u}] = \mathbf{G}
  • ε\boldsymbol{\varepsilon}n×1n \times 1 的误差项向量,满足 E[ε]=0\mathrm{E}[\boldsymbol{\varepsilon}] = \mathbf{0}Var[ε]=R\mathrm{Var}[\boldsymbol{\varepsilon}] = \mathbf{R},且 Cov[u,ε]=0\mathrm{Cov}[\mathbf{u}, \boldsymbol{\varepsilon}] = \mathbf{0}

BLUP 的目标是找到 u\mathbf{u}线性(linear)无偏(unbiased)预测量,使其均方预测误差(Mean Squared Prediction Error, MSPE)在所有线性无偏预测量中最小。这一最优预测量由 Henderson 的混合模型方程组(Mixed Model Equations, MME)给出:

[XR1XXR1ZZR1XZR1Z+G1][β^u^]\begin{bmatrix} \mathbf{X}'\mathbf{R}^{-1}\mathbf{X} & \mathbf{X}'\mathbf{R}^{-1}\mathbf{Z} \\ \mathbf{Z}'\mathbf{R}^{-1}\mathbf{X} & \mathbf{Z}'\mathbf{R}^{-1}\mathbf{Z} + \mathbf{G}^{-1} \end{bmatrix} \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\mathbf{u}} \end{bmatrix}

=

\begin{bmatrix} \(\mathbf{X}\)'\(\mathbf{R}^{-1}\)\(\mathbf{y}\) \\ \(\mathbf{Z}\)'\(\mathbf{R}^{-1}\)\(\mathbf{y}\) \[ \end{bmatrix}

\]

求解 MME 可同时得到固定效应的 BLUE β^\hat{\boldsymbol{\beta}} 和随机效应的 BLUP u^\hat{\mathbf{u}}

BLUP 的统计学性质

BLUP 具有以下重要性质:

  1. 线性u^\hat{\mathbf{u}}y\mathbf{y} 的线性函数;
  2. 无偏性E[u^]=E[u]=0\mathrm{E}[\hat{\mathbf{u}}] = \mathrm{E}[\mathbf{u}] = \mathbf{0},且在预测随机效应时偏误为零;
  3. 最优性:在所有线性无偏预测量中,BLUP 的 MSPE 最小;
  4. 收缩性(Shrinkage):BLUP 会将随机效应的预测值向零收缩(shrinkage),收缩强度取决于 G\mathbf{G}R\mathbf{R} 的相对大小。当方差结构已知时,BLUP 等价于随机效应的条件期望 E[uy]\mathrm{E}[\mathbf{u} \mid \mathbf{y}],即其 Bayesian 解释下的后验均值。

这一收缩特性使 BLUP 在存在小样本分组时尤其有用——它能够有效避免极端预测值,提升预测的整体稳健性。

应用场景

BLUP 的经典应用包括:

  • 动物育种:根据系谱和表型数据预测种畜育种值(breeding value),这是 BLUP 最早和最成熟的领域;
  • 教育测量:预测学校或教师的增值效应(value-added),利用收缩性质防止小样本误判;
  • 小区域估计:在抽样调查中对子区域均值进行预测,借助全局信息提升局部精度;
  • 纵向数据分析:预测个体随机截距和斜率,刻画个体发展轨迹。

拓展与相关概念

当方差分量 G\mathbf{G}R\mathbf{R} 未知时,需先通过 REML(限制最大似然)或 ML 进行估计,然后将估计值代入 MME 得到的预测量称为 EBLUP(Empirical BLUP)。EBLUP 是实践中更常见的版本,但其 MSPE 的精确计算需要校正方差估计带来的额外不确定性。

在 Bayesian 框架下,BLUP 可以自然地理解为随机效应的后验均值,而相应的后验方差则提供了预测不确定性的度量。