ARTICLE

自相关函数

自相关函数 (Autocorrelation Function) 自相关函数(Autocorrelation Function, ACF)是时间序列分析中最基础的诊断与建模工具,用于刻画随机过程在不同时滞(lag)下的线性相依结构。给定一个弱平稳(协方差平稳)过程 \X_t\_t=- ^ ,其均值 = E[X_t] 为常数,自协方差函数定义为 _k = Co

浏览 4 更新 2025-11-01

自相关函数 (Autocorrelation Function)

自相关函数(Autocorrelation Function, ACF)是时间序列分析中最基础的诊断与建模工具,用于刻画随机过程在不同时滞(lag)下的线性相依结构。给定一个弱平稳(协方差平稳)过程 {Xt}t=\{X_t\}_{t=-\infty}^{\infty},其均值 μ=E[Xt]\mu = \mathbb{E}[X_t] 为常数,自协方差函数定义为 γk=Cov(Xt,Xt+k)=E[(Xtμ)(Xt+kμ)]\gamma_k = \operatorname{Cov}(X_t, X_{t+k}) = \mathbb{E}[(X_t - \mu)(X_{t+k} - \mu)],则总体自相关函数为标准化后的自协方差:

ρk=γkγ0=Cov(Xt,Xt+k)Var(Xt),k=0,1,2,\rho_k = \frac{\gamma_k}{\gamma_0} = \frac{\operatorname{Cov}(X_t, X_{t+k})}{\operatorname{Var}(X_t)}, \quad k = 0, 1, 2, \ldots

由定义知 ρ0=1\rho_0 = 1,且平稳性保证 ρk=ρk\rho_k = \rho_{-k}(对称性)。ACF 的值域为 [1,1][-1, 1],其绝对值越接近 1,表明时滞 kk 处的线性相关性越强。若对于所有 k0k \neq 0ρk=0\rho_k = 0,则该过程为白噪声

样本自相关函数及其渐近性质

实际应用中总体 ACF 未知,须从有限观测序列 {x1,x2,,xn}\{x_1, x_2, \ldots, x_n\} 估计。最常用的样本自相关函数估计量为:

ρ^k=t=1nk(xtxˉ)(xt+kxˉ)t=1n(xtxˉ)2,xˉ=1nt=1nxt\hat{\rho}_k = \frac{\sum_{t=1}^{n-k} (x_t - \bar{x})(x_{t+k} - \bar{x})}{\sum_{t=1}^{n} (x_t - \bar{x})^2}, \quad \bar{x} = \frac{1}{n}\sum_{t=1}^{n} x_t

该估计量的分母使用全样本方差(而非仅重叠部分的方差),保证了样本自协方差矩阵的正定性,从而确保由 ρ^k\hat{\rho}_k 构造的 Toeplitz 矩阵非负定。在序列为独立同分布白噪声的原假设下,Bartlett公式给出样本 ACF 的渐近联合分布:

ρ^kdN ⁣(0,1n),Cov(ρ^k,ρ^j)1n for kj\hat{\rho}_k \xrightarrow{d} N\!\left(0, \frac{1}{n}\right), \quad \operatorname{Cov}(\hat{\rho}_k, \hat{\rho}_j) \approx \frac{1}{n} \text{ for } k \neq j

因此常以 ±1.96/n\pm 1.96 / \sqrt{n} 绘制 95\% 渐近置信带于自相关图(Correlogram)中。若某个 ρ^k\hat{\rho}_k 落在置信带之外,则初步拒绝该滞后的自相关系数为零的原假设。但需注意:由于同时检验多个滞后,个别超出置信带可能由随机波动造成,应配合整体检验综合判断。

混合检验:Box–Pierce 与 Ljung–Box

为克服逐个滞后检验的多重比较问题,BoxPierce(1970)提出联合检验前 mm 个自相关系数是否同时为零的端口检验(Portmanteau Test):

QBP=nk=1mρ^k2dχ2(m)Q_{BP} = n\sum_{k=1}^{m}\hat{\rho}_k^2 \xrightarrow{d} \chi^2(m)

LjungBox(1978)提出了小样本修正版本,在有限样本下更接近卡方分布:

QLB=n(n+2)k=1mρ^k2nkdχ2(m)Q_{LB} = n(n+2)\sum_{k=1}^{m}\frac{\hat{\rho}_k^2}{n-k} \xrightarrow{d} \chi^2(m)

QLBQ_{LB} 超过 χ1α2(m)\chi^2_{1-\alpha}(m),则拒绝"序列为白噪声"的原假设。该检验在ARMA模型建模中具有双重角色:建模前用于判断序列是否具有可建模的相依结构(与KPSS检验ADF检验配合使用),建模后用于残差诊断——若拟合充分,残差的 ACF 应接近白噪声。

偏自相关函数 (PACF)

ACF 度量的是 XtX_tXt+kX_{t+k} 的边际相关性,未能剔除中间变量 Xt+1,,Xt+k1X_{t+1}, \ldots, X_{t+k-1} 的传导效应。例如,若 XtX_t 遵循 AR(1) 过程,则 XtX_tXt+2X_{t+2} 虽然通过 Xt+1X_{t+1} 间接相关,其边际自相关 ρ2=ϕ20\rho_2 = \phi^2 \neq 0,但给定 Xt+1X_{t+1} 后的条件相关系数为零。偏自相关函数正是为捕捉这一"净"相关性而引入的:

ϕkk=Corr(Xt,Xt+kXt+1,,Xt+k1)\phi_{kk} = \operatorname{Corr}(X_t, X_{t+k} \mid X_{t+1}, \ldots, X_{t+k-1})

PACF 等价于用 Xt+1,,Xt+k1X_{t+1}, \ldots, X_{t+k-1}XtX_tXt+kX_{t+k} 分别做线性投影后残差之间的相关系数。其计算可通过Yule–Walker方程结合Durbin–Levinson算法递推实现,无需对每个 kk 单独估计多元回归。

ACF 与 PACF 在模型识别中的联合应用

Box–Jenkins方法中,ACF 与 PACF 的衰减模式构成 ARMA 模型阶数识别的核心依据:

  • AR(p):ACF 呈指数衰减或阻尼正弦波衰减(拖尾),PACF 在滞后 k>pk > p 处截尾。利用 PACF 截尾性质可直接读取 AR 阶数。
  • MA(q):ACF 在滞后 k>qk > q 处截尾,PACF 呈拖尾衰减。利用 ACF 截尾性质可直接读取 MA 阶数。
  • ARMA(p, q):ACF 与 PACF 均呈拖尾衰减,此时需借助信息准则(AIC、BIC、HQIC)或扩展自相关函数(EACF)联合确定阶数。

这一二元判别框架简洁直观,但需注意:当参数接近非平稳或可逆边界时,ACF 与 PACF 的衰减极慢,肉眼判别变得困难。此时单位根检验KPSS检验的先验判断至关重要。

与谱密度函数的对偶关系

Wiener–Khinchin定理(又称Bochner定理在时间序列中的体现)建立了自协方差函数与谱密度函数之间的傅里叶对偶关系。对于离散时间弱平稳过程,若自协方差序列绝对可和(γk<\sum |\gamma_k| < \infty),则谱密度函数存在且连续:

f(ω)=12πk=γkeiωk,ω[π,π]f(\omega) = \frac{1}{2\pi} \sum_{k=-\infty}^{\infty} \gamma_k e^{-i\omega k}, \quad \omega \in [-\pi, \pi]

逆变换给出:

γk=ππf(ω)eiωkdω\gamma_k = \int_{-\pi}^{\pi} f(\omega) e^{i\omega k} \, d\omega

由此,ACF 的衰减行为与谱密度形状一一对应:ACF 快速衰减至零意味着谱密度平滑(趋近白噪声的平坦谱);ACF 呈缓慢双曲衰减则对应谱密度在零频率处出现极点,这是长记忆过程(Long Memory)的典型特征,其自相关函数满足 ρkCk2d1\rho_k \sim C k^{2d-1}0<d<0.50 < d < 0.5),谱密度在原点附近表现为 f(ω)Cω2df(\omega) \sim C|\omega|^{-2d}分数阶差分模型(ARFIMA)正是通过分整参数 dd 来刻画这种跨尺度的自相关结构。这一时频对偶视角为理解时间序列的周期行为、滤波设计和谱估计提供了统一的数学语言,在金融计量学(波动率长记忆性)和宏观经济学(经济周期的频域分析)中有广泛应用。

估计量的偏差与改进

样本自相关函数虽具有一致性和渐近正态性,但在有限样本下存在不可忽略的偏差。对于短序列,ρ^k\hat{\rho}_k 的期望近似为 E[ρ^k]ρkkn\mathbb{E}[\hat{\rho}_k] \approx \rho_k - \frac{|k|}{n},即存在阶为 O(n1)O(n^{-1}) 的负偏差,滞后越大偏差越严重。此外,当过程存在显著的持续性(如接近单位根过程)时,标准渐近近似失效,ACF 的衰减偏慢,容易误判为长记忆。为此,统计学家提出多种修正方案:无偏自相关估计将分母中的 nn 替换为 nkn-k,虽减小偏差但可能破坏正定性;Tapering(锥削)方法通过对序列两端施加权重来降低谱泄漏,在频域估计 ACF 时尤为常用;针对非平稳和近单位根过程,预白噪化(Prewhtening)先拟合低阶 AR 模型再对残差计算 ACF,可有效去除虚假的长记忆信号。在金融高频数据分析中,微观结构噪声常导致 ACF 在滞后 1 处显著为负,此时需采用去噪自相关估计(如基于已实现核的估计)以恢复真实的价格过程自相关结构。

多元推广:互相关函数与向量自相关

将单变量 ACF 推广至 mm 维向量过程 Xt=(X1t,,Xmt)\mathbf{X}_t = (X_{1t}, \ldots, X_{mt})',引出自协方差矩阵序列:

Γk=E[(Xtμ)(Xt+kμ)]Rm×m\boldsymbol{\Gamma}_k = \mathbb{E}[(\mathbf{X}_t - \boldsymbol{\mu})(\mathbf{X}_{t+k} - \boldsymbol{\mu})'] \in \mathbb{R}^{m \times m}

其对角元素为各分量的自协方差,非对角元素为互协方差互相关函数(Cross-Correlation Function, CCF)度量不同分量之间的领先-滞后关系:ρij(k)=γij(k)/γii(0)γjj(0)\rho_{ij}(k) = \gamma_{ij}(k) / \sqrt{\gamma_{ii}(0)\gamma_{jj}(0)}。不同于 ACF 的对称性,CCF 一般不满足 ρij(k)=ρij(k)\rho_{ij}(k) = \rho_{ij}(-k),而是 ρij(k)=ρji(k)\rho_{ij}(k) = \rho_{ji}(-k),因此可用于识别Granger因果关系的方向——若 XjtX_{jt} 的过去值有助于预测 XitX_{it},则 CCF 在正滞后处应显著。在向量自回归(VAR)建模中,多变量端口检验将 Ljung–Box 统计量推广为基于残差互相关矩阵迹的检验,用于联合诊断 VAR 模型残差是否为向量白噪声。此外,协整分析中,误差修正项的 ACF 结构为区分短期动态与长期均衡提供了关键的诊断信息。