ARTICLE

高斯过程

高斯过程 (Gaussian Process) 高斯过程(Gaussian Process, GP)是随机过程中的一个重要分支,指任意有限个时间点或空间点上的随机变量构成的随机向量均服从多元正态分布的随机过程。作为正态分布(高斯分布)从有限维向量到无限维函数空间的推广,高斯过程在统计学、机器学习、时间序列分析、空间统计学(地统计学)和物理建模等领域拥有广泛应

浏览 0 更新 2025-11-08

高斯过程 (Gaussian Process)

高斯过程(Gaussian Process, GP)是随机过程中的一个重要分支,指任意有限个时间点或空间点上的随机变量构成的随机向量均服从多元正态分布的随机过程。作为正态分布(高斯分布)从有限维向量到无限维函数空间的推广,高斯过程在统计学机器学习时间序列分析空间统计学(地统计学)和物理建模等领域拥有广泛应用。其核心魅力在于:高斯过程既为函数空间上的先验分布提供了自然的概率框架,又能在观测数据下通过解析的贝叶斯更新得到完整的后验分布,从而在预测的同时给出不确定性的量化度量

数学定义

从形式化角度看,高斯过程 GP(m(x),k(x,x))\mathcal{GP}(m(x), k(x, x')) 完全由其均值函数(Mean Function)和协方差函数(Covariance Function, 又称核函数)界定:

  • 均值函数 m(x)=E[f(x)]m(x) = \mathbb{E}[f(x)] 给出了在任意输入点 xx 处函数值的期望。在实际应用中,由于数据预处理通常已将均值中心化,常设定 m(x)=0m(x) = 0
  • 协方差函数 k(x,x)=E[(f(x)m(x))(f(x)m(x))]k(x, x') = \mathbb{E}[(f(x) - m(x))(f(x') - m(x'))] 描述了任意两点 xxxx' 处函数值之间的相关性结构。核函数的选择是高斯过程建模中最关键的步骤,因为它编码了用户对函数光滑性周期性平稳性等性质的先验信念。

具体而言,对于任意有限个输入点 {x1,x2,,xn}\{x_1, x_2, \ldots, x_n\},对应的函数值向量 (f(x1),f(x2),,f(xn))(f(x_1), f(x_2), \ldots, f(x_n))^\top 服从多元正态分布:

(f(x1)f(x2)f(xn))N((m(x1)m(x2)m(xn)),(k(x1,x1)k(x1,x2)k(x1,xn)k(x2,x1)k(x2,x2)k(x2,xn)k(xn,x1)k(xn,x2)k(xn,xn)))\begin{pmatrix} f(x_1) \\ f(x_2) \\ \vdots \\ f(x_n) \end{pmatrix} \sim \mathcal{N}\left( \begin{pmatrix} m(x_1) \\ m(x_2) \\ \vdots \\ m(x_n) \end{pmatrix}, \begin{pmatrix} k(x_1,x_1) & k(x_1,x_2) & \cdots & k(x_1,x_n) \\ k(x_2,x_1) & k(x_2,x_2) & \cdots & k(x_2,x_n) \\ \vdots & \vdots & \ddots & \vdots \\ k(x_n,x_1) & k(x_n,x_2) & \cdots & k(x_n,x_n) \end{pmatrix} \right)

这一边缘化一致性(Marginalization Consistency,亦称自洽性)条件保证了高斯过程的良定义性:在任意维度的边缘分布上,高阶分布与低阶分布是一致的。

常见的核函数

核函数的选择直接决定了高斯过程的归纳偏差。最常用的核函数包括以下几种:

径向基函数核(Radial Basis Function Kernel, RBF Kernel),又称平方指数核(Squared Exponential Kernel)或高斯核,其形式为 kRBF(x,x)=σ2exp((xx)222)k_{\text{RBF}}(x, x') = \sigma^2 \exp\left(-\frac{(x - x')^2}{2\ell^2}\right),其中 σ2\sigma^2 为信号方差,\ell长度尺度(Length Scale)。RBF核生成无限可微的平滑函数,且随两点距离增大指数衰减相关性,是实际应用中最广泛使用的核。

马特恩核(Matérn Kernel)提供了一族可调节光滑性的核函数:kMateˊrn(x,x)=σ221νΓ(ν)(2νxx)νKν(2νxx)k_{\text{Matérn}}(x, x') = \sigma^2 \frac{2^{1-\nu}}{\Gamma(\nu)} \left(\frac{\sqrt{2\nu}|x - x'|}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2\nu}|x - x'|}{\ell}\right),其中 ν\nu 控制光滑度(ν\nu \to \infty 时退化为RBF核,ν=1/2\nu=1/2 时对应绝对指数核即Ornstein-Uhlenbeck过程),KνK_\nu 为修正贝塞尔函数。

周期核(Periodic Kernel)形如 kPer(x,x)=σ2exp(2sin2(πxx/p)2)k_{\text{Per}}(x, x') = \sigma^2 \exp\left(-\frac{2\sin^2(\pi|x - x'|/p)}{\ell^2}\right),适用于具有已知周期的函数建模,如季节性时间序列。

有理二次核(Rational Quadratic Kernel)可视为不同长度尺度的RBF核的无限混合,形式为 kRQ(x,x)=σ2(1+(xx)22α2)αk_{\text{RQ}}(x, x') = \sigma^2 \left(1 + \frac{(x - x')^2}{2\alpha\ell^2}\right)^{-\alpha},其中 α\alpha 控制尺度混合程度。

贝叶斯推断与预测

高斯过程的核心优势在于其解析的贝叶斯推断框架。给定训练数据集 D={(xi,yi)}i=1n\mathcal{D} = \{(x_i, y_i)\}_{i=1}^n,其中 yi=f(xi)+εiy_i = f(x_i) + \varepsilon_iεiN(0,σn2)\varepsilon_i \sim \mathcal{N}(0, \sigma_n^2) 为独立同分布高斯噪声),联合分布为:

(yf)N((m(X)m(X)),(K(X,X)+σn2IK(X,X)K(X,X)K(X,X)))\begin{pmatrix} \mathbf{y} \\ f_* \end{pmatrix} \sim \mathcal{N}\left( \begin{pmatrix} m(\mathbf{X}) \\ m(\mathbf{X}_*) \end{pmatrix}, \begin{pmatrix} K(\mathbf{X}, \mathbf{X}) + \sigma_n^2 I & K(\mathbf{X}, \mathbf{X}_*) \\ K(\mathbf{X}_*, \mathbf{X}) & K(\mathbf{X}_*, \mathbf{X}_*) \end{pmatrix} \right)

其中 X=(x1,,xn)\mathbf{X} = (x_1,\ldots,x_n)^\top 为训练输入,X\mathbf{X}_* 为测试输入。根据多元正态分布的条件分布公式,后验预测分布为:

fX,y,XN(fˉ,Cov(f))f_* | \mathbf{X}, \mathbf{y}, \mathbf{X}_* \sim \mathcal{N}(\bar{f}_*, \text{Cov}(f_*))
fˉ=m(X)+K(X,X)[K(X,X)+σn2I]1(ym(X))\bar{f}_* = m(\mathbf{X}_*) + K(\mathbf{X}_*, \mathbf{X})[K(\mathbf{X}, \mathbf{X}) + \sigma_n^2 I]^{-1}(\mathbf{y} - m(\mathbf{X}))
Cov(f)=K(X,X)K(X,X)[K(X,X)+σn2I]1K(X,X)\text{Cov}(f_*) = K(\mathbf{X}_*, \mathbf{X}_*) - K(\mathbf{X}_*, \mathbf{X})[K(\mathbf{X}, \mathbf{X}) + \sigma_n^2 I]^{-1}K(\mathbf{X}, \mathbf{X}_*)

预测均值 fˉ\bar{f}_* 是训练数据 y\mathbf{y} 的线性组合(由核函数决定权重),而预测协方差 Cov(f)\text{Cov}(f_*) 则提供了逐点置信区间——这正是高斯过程相对于传统点预测方法的显著优势。在远离训练数据的区域,协方差趋近于先验协方差 K(X,X)K(\mathbf{X}_*, \mathbf{X}_*),反映预测不确定性的自然增大。

超参数学习

核函数中的参数(如RBF核的长度尺度 \ell 和信号方差 σ2\sigma^2,以及噪声方差 σn2\sigma_n^2)通常通过最大化对数边际似然(Log Marginal Likelihood)来学习:

logp(yX,θ)=12y(K+σn2I)1y12logK+σn2In2log2π\log p(\mathbf{y}|\mathbf{X}, \theta) = -\frac{1}{2}\mathbf{y}^\top (K + \sigma_n^2 I)^{-1}\mathbf{y} - \frac{1}{2}\log|K + \sigma_n^2 I| - \frac{n}{2}\log 2\pi

其中 θ\theta 为核超参数向量。该目标函数在模型拟合度(第一项数据拟合项)与模型复杂度(第二项对数行列式)之间自动实现了奥卡姆剃刀式的平衡——这正是高斯过程作为非参数贝叶斯方法的核心特质:在不需交叉验证的情况下,通过边际似然自动校准模型复杂度。

计算复杂度与近似方法

高斯过程的标准推断需要计算 n×nn \times n 核矩阵的逆矩阵,计算复杂度为 O(n3)\mathcal{O}(n^3),存储复杂度为 O(n2)\mathcal{O}(n^2),这在大规模数据场景下构成了可扩展性瓶颈。为应对这一问题,学术界发展了多种近似方法:

稀疏高斯过程(Sparse Gaussian Processes)通过引入 mnm \ll n诱导点(Inducing Points)来近似完整核矩阵。代表性方法包括子集回归(Subset of Regressors)、概率主成分分析视角下的稀疏近似(DTC/FT*)、以及变分稀疏高斯过程(Variational Sparse GP, 如SVGP)。其中,变分方法通过变分推断将计算复杂度降至 O(nm2)\mathcal{O}(nm^2),且能保持近似后验的校准性。

深度高斯过程(Deep Gaussian Processes)将多个GP层堆叠,将每一层的输出作为下一层的输入,从而突破单一GP核函数的表达局限,生成更具灵活性的概率模型。然而,深度GP的后验推断通常不再解析,需依赖变分推断或蒙特卡洛方法。

此外,随机傅里叶特征(Random Fourier Features)通过Bochner定理将平稳核函数的谱密度进行蒙特卡洛近似,将GP的计算转化为线性回归形式,特别适用于大规模流式数据场景。

与其他模型的关系

高斯过程与多个重要模型存在深刻的联系。当使用线性核 k(x,x)=xxk(x, x') = x^\top x' 时,GP等价于贝叶斯线性回归。当核函数选择为RBF核且长度尺度趋于无穷时,GP先验下的大多数函数后验均值为常数,回归退化为普通最小二乘法的极限情形。在神经网络领域,无限宽神经网络(Infinite-Width Neural Networks)在神经正切核(Neural Tangent Kernel, NTK)框架下被证明等价于特定核下的高斯过程——这一发现为理解深度学习模型的泛化行为提供了理论桥梁。

在地统计学中,高斯过程以克里金法(Kriging)之名被广泛使用,其核心思想完全等价于GP的贝叶斯预测框架。在强化学习中,GP被用于贝叶斯优化(Bayesian Optimization)以高效搜索超参数空间:通过GP对目标函数建模,利用预测不确定性的上置信界(UCB)或预期改进(EI)获取函数指导采样。

应用领域

高斯过程的实际应用横跨众多领域。在机器学习中,GP是超参数优化自动机器学习(AutoML)的标配工具。在机器人学中,GP用于逆动力学建模轨迹规划和环境映射(GP-因子图SLAM)。在气象学和环境科学中,高斯过程被用于时空插值、空气质量监测网络的站点预测和全球温度异常的重建分析。在计算化学和材料科学中,GP加速了新材料发现:通过主动学习—贝叶斯优化循环,在少量DFT计算或实验标定下快速锁定最优候选材料。

在金融领域,高斯过程被应用于波动率曲面建模、信用违约互换(CDS)定价和高频交易中的微观结构噪声过滤。在生物信息学中,GP被用于基因表达时序数据的推断、蛋白质结构预测中的距离约束建模以及药物分子活性预测。

高斯过程以其优雅的理论框架——将函数空间中的贝叶斯推断转化为线性代数运算——以及对不确定性的系统量化能力,在统计建模和机器学习领域中占据着不可替代的地位。尽管计算复杂性限制了其在大规模数据上的直接应用,但稀疏近似和随机特征方法的持续发展正不断拓展其应用边界。