ARTICLE
偏自相关函数
偏自相关函数 (Partial Autocorrelation Function, PACF) 偏自相关函数(Partial Autocorrelation Function,简称 PACF)是时间序列分析中的核心工具,用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下,当前观测值与其滞后 k 期观测值之间的净相关关系。与自相关函数(ACF)不同,PACF
偏自相关函数 (Partial Autocorrelation Function, PACF)
偏自相关函数(Partial Autocorrelation Function,简称 PACF)是时间序列分析中的核心工具,用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下,当前观测值与其滞后 期观测值之间的净相关关系。与自相关函数(ACF)不同,PACF 隔离了直接效应,排除了低阶滞后通过连锁传导产生的间接效应,因此在ARIMA模型的识别阶段(特别是确定自回归阶数)中具有不可替代的诊断价值。
定义与直觉
给定一个均值为零的平稳时间序列 ,其滞后 阶的偏自相关系数 定义为:在已知 的条件下, 与 之间的条件相关系数。换言之,PACF 回答的问题是:在控制了中间所有时刻的信息后, 期前的观测还能提供多少关于当前值的额外信息?
考虑一个直观的例子。假设我们研究某城市日平均气温的时间序列。ACF 可能显示 与 之间存在显著正相关,但这可能是因为 与 高度相关(今天的气温与昨天相近),而 又与 高度相关。ACF 无法区分这种连锁传导与 对 的直接影响。PACF 则通过回归手段将 的效应剥离,仅保留 的独立贡献。对于 AR(1) 过程 ,PACF 在滞后 1 阶之后立即截断为零——因为一旦控制了 ,更远的滞后值不再包含任何独立信息。
数学表述
偏自相关系数 可通过逐阶拟合自回归模型来获得。设 为一个零均值平稳过程,考虑用前 期观测值对 做线性预测:
其中 为预测误差,与 不相关。该回归中最后一个系数 即为滞后 阶的偏自相关系数。这一逐阶估计的思想构成了杜宾-莱文森递归(Durbin-Levinson recursion)和Yule-Walker方程的基础。
通过 Yule-Walker 方程, 可由自协方差函数 (或等价地,自相关函数 )表示为:
其中 是上一步( 阶)自回归拟合中的系数。该递推公式的实际意义在于:可以在不显式估计每个中间回归的前提下,高效地从自相关函数计算出偏自相关函数。
从线性代数角度, 也可以表示为 在 张成的线性空间上的投影系数的最后一个分量。若记 为 的自相关矩阵(Toeplitz 结构), 为自相关系数向量,则:
该形式清晰地表明, 等价于 阶自回归 AR() 模型中最高阶滞后项的系数估计值。
与自相关函数 (ACF) 的对比
ACF 与 PACF 共同构成时间序列模型识别的双支柱,二者的行为模式差异是区分不同数据生成过程的关键依据:
- 自相关函数 (ACF):度量 与 之间的总相关性,包含所有通过中间变量的间接传导路径。对于一个自回归模型 AR(),ACF 呈几何衰减(指数递减或阻尼正弦波振荡),呈现拖尾特征;对于一个移动平均模型 MA(),ACF 在滞后 阶之后截断为零。
- 偏自相关函数 (PACF):在网络术语中,PACF 执行了类似"控制变量"的操作——它切断了所有间接路径,仅保留 的直接边。对于 AR() 过程,PACF 在滞后 阶之后截断为零;对于 MA() 过程,PACF 呈几何衰减,表现为拖尾。
这一对称性是 Box-Jenkins 建模方法论的核心。用一句话总结:AR 看 PACF 截尾,MA 看 ACF 截尾;AR 的 ACF 拖尾,MA 的 PACF 拖尾。对于混合的ARMA模型 ARMA(),ACF 与 PACF 均呈现拖尾衰减,此时需借助信息准则(如 AIC、BIC)等更系统的阶数选择方法。
Box-Jenkins 模型识别中的应用
在Box-Jenkins方法的三步迭代框架(识别→估计→诊断)中,PACF 的样本估计图形是模型识别阶段的第一手工具。实际操作中,分析者绘制样本 PACF 图(称为偏自相关图或 partial correlogram),并观察其衰减模式:
- 若 PACF 在滞后 之后的所有值落入置信区间内(通常在 处绘制虚线),且之前的值显著异于零,则数据可能服从 AR() 过程。这是 PACF 最经典的诊断用途。
- 若 PACF 呈缓慢衰减的正弦波或指数型衰减,且 ACF 在滞后 后截尾,则指向 MA() 过程。
- 若二者均衰减,应考虑 ARMA 或对数据进行差分处理(若序列不平稳)。
例如,对于月度通胀率数据,样本 PACF 若在滞后 1 阶出现一个大值(接近 0.6),滞后 2 阶的值接近零,而滞后 3 阶以后均落在置信区间内,则 AR(1) 模型是一个强有力的备选设定。值得警惕的是,季节性成分也会反映在 PACF 中:若季节周期为 (如月度数据的 ),则在滞后 或其倍数处可能出现显著的 PACF 尖峰,提示需要引入季节 AR 项。
估计与统计推断
在实际应用中,偏自相关系数 的样本估计 通常通过以下方式获得:
- 逐阶 OLS 回归:对 依次拟合 AR() 模型,取每次回归中最高阶滞后项的系数作为 。该方法直观但计算量较大。
- Durbin-Levinson 递推:利用样本自相关系数 通过递推公式直接计算 ,避免重复进行完整回归,是大多数统计软件(如 R 的 \texttt{pacf()} 函数、Python 的 \texttt{statsmodels})采用的算法。
- Yule-Walker 估计:通过解 Yule-Walker 方程组获得各阶 AR 系数,取最后一阶系数。在小样本下,Yule-Walker 估计与 OLS 估计存在有限样本差异,但大样本下两者等价。
置信区间与显著性检验:在大样本且过程为白噪声的零假设下, 近似服从均值为零、方差为 的正态分布,其中 为有效样本量。因此,95\% 置信边界常设为 。落在该边界外的 PACF 值被视为统计显著。需要注意,该置信区间基于渐近理论,在小样本下可能不够精确,且当多个 PACF 值被同时检验时存在多重比较问题——应辅以Ljung-Box检验等综合性检验进行交叉验证。
理论性质与深层联系
PACF 与时间序列理论的多条主线存在深刻的数学联系。首先,对于一个平稳的 AR() 过程,PACF 在 阶截尾的性质来自高斯-马尔可夫定理在时间序列背景下的延伸:一旦 个滞后值被纳入预测集,残差即成为白噪声,更高阶的滞后不再携带任何线性预测信息。这一性质是 PACF 在模型识别中具有截尾特征的数学基础。
其次,PACF 与谱分析之间通过Fourier变换相联系。时间序列的谱密度函数可由自协方差函数的傅里叶变换获得,而 PACF 则可被视为自协方差结构的一种信息压缩表示。在参数化谱估计中,AR() 模型的谱密度完全由 决定,而这里的 正是偏自相关系数,体现了 PACF 在频域分析中的间接角色。
此外,PACF 在单位根检验和平稳性诊断中也有辅助作用。若样本 PACF 在滞后 1 阶的估计值非常接近 1 且衰减极为缓慢,这是随机游走或近单位根过程的警示信号。与此相对,一个平稳 AR(1) 过程的 PACF 在滞后 1 阶显著异于零但在 1 阶之后立即截尾,不会出现渐进衰减。
局限性与注意事项
尽管 PACF 是时间序列探索性分析中的重要工具,使用时需注意若干局限性。第一,PACF 对非平稳性敏感:若序列包含单位根或确定性趋势,样本 PACF 可能呈现虚假的缓慢衰减模式,误导建模者将其错误解读为需要高阶 AR 项。在进行 PACF 分析前,务必通过ADF检验或KPSS检验确认序列平稳性,必要时进行差分或去趋势变换。
第二,样本量依赖:PACF 的置信区间依赖于大样本正态近似。对于短时间序列(如 ),置信边界过宽导致识别能力不足,模型阶数的判断需要结合领域知识和其他诊断工具。
第三,异常值和结构断点:离群观测值会显著扭曲样本自协方差估计,进而传导至 PACF 估计。存在方差突变或水平位移的时间序列,其样本 PACF 可能完全不同于真实数据生成过程的理论 PACF,需采用稳健估计方法或在对数据预处理后再行分析。
偏自相关函数最终是时间序列建模中的一扇关键窗口——它将隐藏在序列内部的条件依赖结构以直观的图形形式呈现,使分析者得以快速判断数据的生成机制类型,为后续的正式建模和预测奠定基础。在计量经济学、金融时间序列、信号处理和地球物理学等众多领域中,PACF 始终是探索时间依赖性的第一线工具。