ARTICLE

偏自相关函数

偏自相关函数 (Partial Autocorrelation Function, PACF) 偏自相关函数（Partial Autocorrelation Function，简称 PACF）是时间序列分析中的核心工具，用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下，当前观测值与其滞后 k 期观测值之间的净相关关系。与自相关函数（ACF）不同，PACF

浏览 4 更新 2025-11-01

偏自相关函数 (Partial Autocorrelation Function, PACF)

偏自相关函数（Partial Autocorrelation Function，简称 PACF）是时间序列分析中的核心工具，用于刻画平稳时间序列在剔除了中间各期滞后影响的条件下，当前观测值与其滞后 $k$ 期观测值之间的净相关关系。与自相关函数（ACF）不同，PACF 隔离了直接效应，排除了低阶滞后通过连锁传导产生的间接效应，因此在ARIMA模型的识别阶段（特别是确定自回归阶数）中具有不可替代的诊断价值。

定义与直觉

给定一个均值为零的平稳时间序列 $\{X_t\}$ ，其滞后 $k$ 阶的偏自相关系数 $\phi_{kk}$ 定义为：在已知 $X_{t-1}, X_{t-2}, \ldots, X_{t-(k-1)}$ 的条件下， $X_t$ 与 $X_{t-k}$ 之间的条件相关系数。换言之，PACF 回答的问题是：在控制了中间所有时刻的信息后， $k$ 期前的观测还能提供多少关于当前值的额外信息？

考虑一个直观的例子。假设我们研究某城市日平均气温的时间序列。ACF 可能显示 $X_t$ 与 $X_{t-2}$ 之间存在显著正相关，但这可能是因为 $X_t$ 与 $X_{t-1}$ 高度相关（今天的气温与昨天相近），而 $X_{t-1}$ 又与 $X_{t-2}$ 高度相关。ACF 无法区分这种连锁传导与 $X_{t-2}$ 对 $X_t$ 的直接影响。PACF 则通过回归手段将 $X_{t-1}$ 的效应剥离，仅保留 $X_{t-2}$ 的独立贡献。对于 AR(1) 过程 $X_t = \phi X_{t-1} + \epsilon_t$ ，PACF 在滞后 1 阶之后立即截断为零——因为一旦控制了 $X_{t-1}$ ，更远的滞后值不再包含任何独立信息。

数学表述

偏自相关系数 $\phi_{kk}$ 可通过逐阶拟合自回归模型来获得。设 $X_t$ 为一个零均值平稳过程，考虑用前 $k$ 期观测值对 $X_t$ 做线性预测：

X_t = \phi_{k1} X_{t-1} + \phi_{k2} X_{t-2} + \cdots + \phi_{kk} X_{t-k} + e_t

其中 $e_t$ 为预测误差，与 $X_{t-j}\ (j \geq 1)$ 不相关。该回归中最后一个系数 $\phi_{kk}$ 即为滞后 $k$ 阶的偏自相关系数。这一逐阶估计的思想构成了杜宾-莱文森递归（Durbin-Levinson recursion）和Yule-Walker方程的基础。

通过 Yule-Walker 方程， $\phi_{kk}$ 可由自协方差函数 $\gamma_k$ （或等价地，自相关函数 $\rho_k$ ）表示为：

\phi_{kk} = \frac{\rho_k - \sum_{j=1}^{k-1} \phi_{k-1,j} \, \rho_{k-j}}{1 - \sum_{j=1}^{k-1} \phi_{k-1,j} \, \rho_j}

其中 $\phi_{k-1,j}$ 是上一步（ $k-1$ 阶）自回归拟合中的系数。该递推公式的实际意义在于：可以在不显式估计每个中间回归的前提下，高效地从自相关函数计算出偏自相关函数。

从线性代数角度， $\phi_{kk}$ 也可以表示为 $X_t$ 在 $X_{t-1}, \ldots, X_{t-k}$ 张成的线性空间上的投影系数的最后一个分量。若记 $\mathbf{R}_k$ 为 $k \times k$ 的自相关矩阵（Toeplitz 结构）， $\boldsymbol{\rho}_k$ 为自相关系数向量，则：

\boldsymbol{\phi}_k = \mathbf{R}_k^{-1} \boldsymbol{\rho}_k, \quad \phi_{kk} = [\boldsymbol{\phi}_k]_k

该形式清晰地表明， $\phi_{kk}$ 等价于 $k$ 阶自回归 AR( $k$ ) 模型中最高阶滞后项的系数估计值。

与自相关函数 (ACF) 的对比

ACF 与 PACF 共同构成时间序列模型识别的双支柱，二者的行为模式差异是区分不同数据生成过程的关键依据：

自相关函数 (ACF)：度量 $X_t$ 与 $X_{t-k}$ 之间的总相关性，包含所有通过中间变量的间接传导路径。对于一个自回归模型 AR( $p$ )，ACF 呈几何衰减（指数递减或阻尼正弦波振荡），呈现拖尾特征；对于一个移动平均模型 MA( $q$ )，ACF 在滞后 $q$ 阶之后截断为零。
偏自相关函数 (PACF)：在网络术语中，PACF 执行了类似"控制变量"的操作——它切断了所有间接路径，仅保留 $X_{t-k} \rightarrow X_t$ 的直接边。对于 AR( $p$ ) 过程，PACF 在滞后 $p$ 阶之后截断为零；对于 MA( $q$ ) 过程，PACF 呈几何衰减，表现为拖尾。

这一对称性是 Box-Jenkins 建模方法论的核心。用一句话总结：AR 看 PACF 截尾，MA 看 ACF 截尾；AR 的 ACF 拖尾，MA 的 PACF 拖尾。对于混合的ARMA模型 ARMA( $p, q$ )，ACF 与 PACF 均呈现拖尾衰减，此时需借助信息准则（如 AIC、BIC）等更系统的阶数选择方法。

Box-Jenkins 模型识别中的应用

在Box-Jenkins方法的三步迭代框架（识别→估计→诊断）中，PACF 的样本估计图形是模型识别阶段的第一手工具。实际操作中，分析者绘制样本 PACF 图（称为偏自相关图或 partial correlogram），并观察其衰减模式：

若 PACF 在滞后 $p$ 之后的所有值落入置信区间内（通常在 $\pm 1.96 / \sqrt{n}$ 处绘制虚线），且之前的值显著异于零，则数据可能服从 AR( $p$ ) 过程。这是 PACF 最经典的诊断用途。
若 PACF 呈缓慢衰减的正弦波或指数型衰减，且 ACF 在滞后 $q$ 后截尾，则指向 MA( $q$ ) 过程。
若二者均衰减，应考虑 ARMA 或对数据进行差分处理（若序列不平稳）。

例如，对于月度通胀率数据，样本 PACF 若在滞后 1 阶出现一个大值（接近 0.6），滞后 2 阶的值接近零，而滞后 3 阶以后均落在置信区间内，则 AR(1) 模型是一个强有力的备选设定。值得警惕的是，季节性成分也会反映在 PACF 中：若季节周期为 $s$ （如月度数据的 $s=12$ ），则在滞后 $s$ 或其倍数处可能出现显著的 PACF 尖峰，提示需要引入季节 AR 项。

估计与统计推断

在实际应用中，偏自相关系数 $\phi_{kk}$ 的样本估计 $\hat{\phi}_{kk}$ 通常通过以下方式获得：

逐阶 OLS 回归：对 $k = 1, 2, \ldots, K$ 依次拟合 AR( $k$ ) 模型，取每次回归中最高阶滞后项的系数作为 $\hat{\phi}_{kk}$ 。该方法直观但计算量较大。
Durbin-Levinson 递推：利用样本自相关系数 $\hat{\rho}_k$ 通过递推公式直接计算 $\hat{\phi}_{kk}$ ，避免重复进行完整回归，是大多数统计软件（如 R 的 \texttt{pacf()} 函数、Python 的 \texttt{statsmodels}）采用的算法。
Yule-Walker 估计：通过解 Yule-Walker 方程组获得各阶 AR 系数，取最后一阶系数。在小样本下，Yule-Walker 估计与 OLS 估计存在有限样本差异，但大样本下两者等价。

置信区间与显著性检验：在大样本且过程为白噪声的零假设下， $\hat{\phi}_{kk}$ 近似服从均值为零、方差为 $1/n$ 的正态分布，其中 $n$ 为有效样本量。因此，95\% 置信边界常设为 $\pm 1.96 / \sqrt{n}$ 。落在该边界外的 PACF 值被视为统计显著。需要注意，该置信区间基于渐近理论，在小样本下可能不够精确，且当多个 PACF 值被同时检验时存在多重比较问题——应辅以Ljung-Box检验等综合性检验进行交叉验证。

理论性质与深层联系

PACF 与时间序列理论的多条主线存在深刻的数学联系。首先，对于一个平稳的 AR( $p$ ) 过程，PACF 在 $p$ 阶截尾的性质来自高斯-马尔可夫定理在时间序列背景下的延伸：一旦 $p$ 个滞后值被纳入预测集，残差即成为白噪声，更高阶的滞后不再携带任何线性预测信息。这一性质是 PACF 在模型识别中具有截尾特征的数学基础。

其次，PACF 与谱分析之间通过Fourier变换相联系。时间序列的谱密度函数可由自协方差函数的傅里叶变换获得，而 PACF 则可被视为自协方差结构的一种信息压缩表示。在参数化谱估计中，AR( $p$ ) 模型的谱密度完全由 $\{\phi_{p1}, \ldots, \phi_{pp}, \sigma^2\}$ 决定，而这里的 $\phi_{pp}$ 正是偏自相关系数，体现了 PACF 在频域分析中的间接角色。

此外，PACF 在单位根检验和平稳性诊断中也有辅助作用。若样本 PACF 在滞后 1 阶的估计值非常接近 1 且衰减极为缓慢，这是随机游走或近单位根过程的警示信号。与此相对，一个平稳 AR(1) 过程的 PACF 在滞后 1 阶显著异于零但在 1 阶之后立即截尾，不会出现渐进衰减。

局限性与注意事项

尽管 PACF 是时间序列探索性分析中的重要工具，使用时需注意若干局限性。第一，PACF 对非平稳性敏感：若序列包含单位根或确定性趋势，样本 PACF 可能呈现虚假的缓慢衰减模式，误导建模者将其错误解读为需要高阶 AR 项。在进行 PACF 分析前，务必通过ADF检验或KPSS检验确认序列平稳性，必要时进行差分或去趋势变换。

第二，样本量依赖：PACF 的置信区间依赖于大样本正态近似。对于短时间序列（如 $n < 50$ ），置信边界过宽导致识别能力不足，模型阶数的判断需要结合领域知识和其他诊断工具。

第三，异常值和结构断点：离群观测值会显著扭曲样本自协方差估计，进而传导至 PACF 估计。存在方差突变或水平位移的时间序列，其样本 PACF 可能完全不同于真实数据生成过程的理论 PACF，需采用稳健估计方法或在对数据预处理后再行分析。

偏自相关函数最终是时间序列建模中的一扇关键窗口——它将隐藏在序列内部的条件依赖结构以直观的图形形式呈现，使分析者得以快速判断数据的生成机制类型，为后续的正式建模和预测奠定基础。在计量经济学、金融时间序列、信号处理和地球物理学等众多领域中，PACF 始终是探索时间依赖性的第一线工具。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。