ARTICLE

偏自相关函数

偏自相关函数 (Partial Autocorrelation Function, PACF) 偏自相关函数(Partial Autocorrelation Function,简称 PACF)是时间序列分析中的核心工具,用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下,当前观测值与其滞后 k 期观测值之间的净相关关系。与自相关函数(ACF)不同,PACF

浏览 4 更新 2025-11-01

偏自相关函数 (Partial Autocorrelation Function, PACF)

偏自相关函数(Partial Autocorrelation Function,简称 PACF)是时间序列分析中的核心工具,用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下,当前观测值与其滞后 kk 期观测值之间的净相关关系。与自相关函数(ACF)不同,PACF 隔离了直接效应,排除了低阶滞后通过连锁传导产生的间接效应,因此在ARIMA模型的识别阶段(特别是确定自回归阶数)中具有不可替代的诊断价值。

定义与直觉

给定一个均值为零的平稳时间序列 {Xt}\{X_t\},其滞后 kk 阶的偏自相关系数 ϕkk\phi_{kk} 定义为:在已知 Xt1,Xt2,,Xt(k1)X_{t-1}, X_{t-2}, \ldots, X_{t-(k-1)} 的条件下,XtX_tXtkX_{t-k} 之间的条件相关系数。换言之,PACF 回答的问题是:在控制了中间所有时刻的信息后,kk 期前的观测还能提供多少关于当前值的额外信息?

考虑一个直观的例子。假设我们研究某城市日平均气温的时间序列。ACF 可能显示 XtX_tXt2X_{t-2} 之间存在显著正相关,但这可能是因为 XtX_tXt1X_{t-1} 高度相关(今天的气温与昨天相近),而 Xt1X_{t-1} 又与 Xt2X_{t-2} 高度相关。ACF 无法区分这种连锁传导Xt2X_{t-2}XtX_t 的直接影响。PACF 则通过回归手段将 Xt1X_{t-1} 的效应剥离,仅保留 Xt2X_{t-2} 的独立贡献。对于 AR(1) 过程 Xt=ϕXt1+ϵtX_t = \phi X_{t-1} + \epsilon_t,PACF 在滞后 1 阶之后立即截断为零——因为一旦控制了 Xt1X_{t-1},更远的滞后值不再包含任何独立信息。

数学表述

偏自相关系数 ϕkk\phi_{kk} 可通过逐阶拟合自回归模型来获得。设 XtX_t 为一个零均值平稳过程,考虑用前 kk 期观测值对 XtX_t 做线性预测:

Xt=ϕk1Xt1+ϕk2Xt2++ϕkkXtk+etX_t = \phi_{k1} X_{t-1} + \phi_{k2} X_{t-2} + \cdots + \phi_{kk} X_{t-k} + e_t

其中 ete_t 为预测误差,与 Xtj (j1)X_{t-j}\ (j \geq 1) 不相关。该回归中最后一个系数 ϕkk\phi_{kk} 即为滞后 kk 阶的偏自相关系数。这一逐阶估计的思想构成了杜宾-莱文森递归(Durbin-Levinson recursion)和Yule-Walker方程的基础。

通过 Yule-Walker 方程,ϕkk\phi_{kk} 可由自协方差函数 γk\gamma_k(或等价地,自相关函数 ρk\rho_k)表示为:

ϕkk=ρkj=1k1ϕk1,jρkj1j=1k1ϕk1,jρj\phi_{kk} = \frac{\rho_k - \sum_{j=1}^{k-1} \phi_{k-1,j} \, \rho_{k-j}}{1 - \sum_{j=1}^{k-1} \phi_{k-1,j} \, \rho_j}

其中 ϕk1,j\phi_{k-1,j} 是上一步(k1k-1 阶)自回归拟合中的系数。该递推公式的实际意义在于:可以在不显式估计每个中间回归的前提下,高效地从自相关函数计算出偏自相关函数。

从线性代数角度,ϕkk\phi_{kk} 也可以表示为 XtX_tXt1,,XtkX_{t-1}, \ldots, X_{t-k} 张成的线性空间上的投影系数的最后一个分量。若记 Rk\mathbf{R}_kk×kk \times k 的自相关矩阵(Toeplitz 结构),ρk\boldsymbol{\rho}_k 为自相关系数向量,则:

ϕk=Rk1ρk,ϕkk=[ϕk]k\boldsymbol{\phi}_k = \mathbf{R}_k^{-1} \boldsymbol{\rho}_k, \quad \phi_{kk} = [\boldsymbol{\phi}_k]_k

该形式清晰地表明,ϕkk\phi_{kk} 等价于 kk 阶自回归 AR(kk) 模型中最高阶滞后项的系数估计值。

与自相关函数 (ACF) 的对比

ACF 与 PACF 共同构成时间序列模型识别的双支柱,二者的行为模式差异是区分不同数据生成过程的关键依据:

  • 自相关函数 (ACF):度量 XtX_tXtkX_{t-k} 之间的总相关性,包含所有通过中间变量的间接传导路径。对于一个自回归模型 AR(pp),ACF 呈几何衰减(指数递减或阻尼正弦波振荡),呈现拖尾特征;对于一个移动平均模型 MA(qq),ACF 在滞后 qq 阶之后截断为零。
  • 偏自相关函数 (PACF):在网络术语中,PACF 执行了类似"控制变量"的操作——它切断了所有间接路径,仅保留 XtkXtX_{t-k} \rightarrow X_t 的直接边。对于 AR(pp) 过程,PACF 在滞后 pp 阶之后截断为零;对于 MA(qq) 过程,PACF 呈几何衰减,表现为拖尾

这一对称性是 Box-Jenkins 建模方法论的核心。用一句话总结:AR 看 PACF 截尾,MA 看 ACF 截尾;AR 的 ACF 拖尾,MA 的 PACF 拖尾。对于混合的ARMA模型 ARMA(p,qp, q),ACF 与 PACF 均呈现拖尾衰减,此时需借助信息准则(如 AIC、BIC)等更系统的阶数选择方法。

Box-Jenkins 模型识别中的应用

Box-Jenkins方法的三步迭代框架(识别→估计→诊断)中,PACF 的样本估计图形是模型识别阶段的第一手工具。实际操作中,分析者绘制样本 PACF 图(称为偏自相关图或 partial correlogram),并观察其衰减模式:

  • 若 PACF 在滞后 pp 之后的所有值落入置信区间内(通常在 ±1.96/n\pm 1.96 / \sqrt{n} 处绘制虚线),且之前的值显著异于零,则数据可能服从 AR(pp) 过程。这是 PACF 最经典的诊断用途。
  • 若 PACF 呈缓慢衰减的正弦波或指数型衰减,且 ACF 在滞后 qq 后截尾,则指向 MA(qq) 过程。
  • 若二者均衰减,应考虑 ARMA 或对数据进行差分处理(若序列不平稳)。

例如,对于月度通胀率数据,样本 PACF 若在滞后 1 阶出现一个大值(接近 0.6),滞后 2 阶的值接近零,而滞后 3 阶以后均落在置信区间内,则 AR(1) 模型是一个强有力的备选设定。值得警惕的是,季节性成分也会反映在 PACF 中:若季节周期为 ss(如月度数据的 s=12s=12),则在滞后 ss 或其倍数处可能出现显著的 PACF 尖峰,提示需要引入季节 AR 项。

估计与统计推断

在实际应用中,偏自相关系数 ϕkk\phi_{kk} 的样本估计 ϕ^kk\hat{\phi}_{kk} 通常通过以下方式获得:

  1. 逐阶 OLS 回归:对 k=1,2,,Kk = 1, 2, \ldots, K 依次拟合 AR(kk) 模型,取每次回归中最高阶滞后项的系数作为 ϕ^kk\hat{\phi}_{kk}。该方法直观但计算量较大。
  2. Durbin-Levinson 递推:利用样本自相关系数 ρ^k\hat{\rho}_k 通过递推公式直接计算 ϕ^kk\hat{\phi}_{kk},避免重复进行完整回归,是大多数统计软件(如 R 的 \texttt{pacf()} 函数、Python 的 \texttt{statsmodels})采用的算法。
  3. Yule-Walker 估计:通过解 Yule-Walker 方程组获得各阶 AR 系数,取最后一阶系数。在小样本下,Yule-Walker 估计与 OLS 估计存在有限样本差异,但大样本下两者等价。

置信区间与显著性检验:在大样本且过程为白噪声的零假设下,ϕ^kk\hat{\phi}_{kk} 近似服从均值为零、方差为 1/n1/n 的正态分布,其中 nn 为有效样本量。因此,95\% 置信边界常设为 ±1.96/n\pm 1.96 / \sqrt{n}。落在该边界外的 PACF 值被视为统计显著。需要注意,该置信区间基于渐近理论,在小样本下可能不够精确,且当多个 PACF 值被同时检验时存在多重比较问题——应辅以Ljung-Box检验等综合性检验进行交叉验证。

理论性质与深层联系

PACF 与时间序列理论的多条主线存在深刻的数学联系。首先,对于一个平稳的 AR(pp) 过程,PACF 在 pp 阶截尾的性质来自高斯-马尔可夫定理在时间序列背景下的延伸:一旦 pp 个滞后值被纳入预测集,残差即成为白噪声,更高阶的滞后不再携带任何线性预测信息。这一性质是 PACF 在模型识别中具有截尾特征的数学基础。

其次,PACF 与谱分析之间通过Fourier变换相联系。时间序列的谱密度函数可由自协方差函数的傅里叶变换获得,而 PACF 则可被视为自协方差结构的一种信息压缩表示。在参数化谱估计中,AR(pp) 模型的谱密度完全由 {ϕp1,,ϕpp,σ2}\{\phi_{p1}, \ldots, \phi_{pp}, \sigma^2\} 决定,而这里的 ϕpp\phi_{pp} 正是偏自相关系数,体现了 PACF 在频域分析中的间接角色。

此外,PACF 在单位根检验平稳性诊断中也有辅助作用。若样本 PACF 在滞后 1 阶的估计值非常接近 1 且衰减极为缓慢,这是随机游走或近单位根过程的警示信号。与此相对,一个平稳 AR(1) 过程的 PACF 在滞后 1 阶显著异于零但在 1 阶之后立即截尾,不会出现渐进衰减。

局限性与注意事项

尽管 PACF 是时间序列探索性分析中的重要工具,使用时需注意若干局限性。第一,PACF 对非平稳性敏感:若序列包含单位根或确定性趋势,样本 PACF 可能呈现虚假的缓慢衰减模式,误导建模者将其错误解读为需要高阶 AR 项。在进行 PACF 分析前,务必通过ADF检验KPSS检验确认序列平稳性,必要时进行差分或去趋势变换。

第二,样本量依赖:PACF 的置信区间依赖于大样本正态近似。对于短时间序列(如 n<50n < 50),置信边界过宽导致识别能力不足,模型阶数的判断需要结合领域知识和其他诊断工具。

第三,异常值和结构断点:离群观测值会显著扭曲样本自协方差估计,进而传导至 PACF 估计。存在方差突变或水平位移的时间序列,其样本 PACF 可能完全不同于真实数据生成过程的理论 PACF,需采用稳健估计方法或在对数据预处理后再行分析。

偏自相关函数最终是时间序列建模中的一扇关键窗口——它将隐藏在序列内部的条件依赖结构以直观的图形形式呈现,使分析者得以快速判断数据的生成机制类型,为后续的正式建模和预测奠定基础。在计量经济学金融时间序列信号处理地球物理学等众多领域中,PACF 始终是探索时间依赖性的第一线工具。