自相关函数 (Autocorrelation Function)
自相关函数(Autocorrelation Function, ACF)是时间序列分析中最基础的诊断与建模工具,用于刻画随机过程在不同时滞(lag)下的线性相依结构。给定一个弱平稳(协方差平稳)过程 {Xt}t=−∞∞,其均值 μ=E[Xt] 为常数,自协方差函数定义为 γk=Cov(Xt,Xt+k)=E[(Xt−μ)(Xt+k−μ)],则总体自相关函数为标准化后的自协方差:
ρk=γ0γk=Var(Xt)Cov(Xt,Xt+k),k=0,1,2,…
由定义知 ρ0=1,且平稳性保证 ρk=ρ−k(对称性)。ACF 的值域为 [−1,1],其绝对值越接近 1,表明时滞 k 处的线性相关性越强。若对于所有 k=0 有 ρk=0,则该过程为白噪声。
样本自相关函数及其渐近性质
实际应用中总体 ACF 未知,须从有限观测序列 {x1,x2,…,xn} 估计。最常用的样本自相关函数估计量为:
ρ^k=∑t=1n(xt−xˉ)2∑t=1n−k(xt−xˉ)(xt+k−xˉ),xˉ=n1t=1∑nxt
该估计量的分母使用全样本方差(而非仅重叠部分的方差),保证了样本自协方差矩阵的正定性,从而确保由 ρ^k 构造的 Toeplitz 矩阵非负定。在序列为独立同分布白噪声的原假设下,Bartlett公式给出样本 ACF 的渐近联合分布:
ρ^kdN(0,n1),Cov(ρ^k,ρ^j)≈n1 for k=j
因此常以 ±1.96/n 绘制 95\% 渐近置信带于自相关图(Correlogram)中。若某个 ρ^k 落在置信带之外,则初步拒绝该滞后的自相关系数为零的原假设。但需注意:由于同时检验多个滞后,个别超出置信带可能由随机波动造成,应配合整体检验综合判断。
混合检验:Box–Pierce 与 Ljung–Box
为克服逐个滞后检验的多重比较问题,Box与Pierce(1970)提出联合检验前 m 个自相关系数是否同时为零的端口检验(Portmanteau Test):
QBP=nk=1∑mρ^k2dχ2(m)
Ljung与Box(1978)提出了小样本修正版本,在有限样本下更接近卡方分布:
QLB=n(n+2)k=1∑mn−kρ^k2dχ2(m)
若 QLB 超过 χ1−α2(m),则拒绝"序列为白噪声"的原假设。该检验在ARMA模型建模中具有双重角色:建模前用于判断序列是否具有可建模的相依结构(与KPSS检验和ADF检验配合使用),建模后用于残差诊断——若拟合充分,残差的 ACF 应接近白噪声。
偏自相关函数 (PACF)
ACF 度量的是 Xt 与 Xt+k 的边际相关性,未能剔除中间变量 Xt+1,…,Xt+k−1 的传导效应。例如,若 Xt 遵循 AR(1) 过程,则 Xt 与 Xt+2 虽然通过 Xt+1 间接相关,其边际自相关 ρ2=ϕ2=0,但给定 Xt+1 后的条件相关系数为零。偏自相关函数正是为捕捉这一"净"相关性而引入的:
ϕkk=Corr(Xt,Xt+k∣Xt+1,…,Xt+k−1)
PACF 等价于用 Xt+1,…,Xt+k−1 对 Xt 和 Xt+k 分别做线性投影后残差之间的相关系数。其计算可通过Yule–Walker方程结合Durbin–Levinson算法递推实现,无需对每个 k 单独估计多元回归。
ACF 与 PACF 在模型识别中的联合应用
Box–Jenkins方法中,ACF 与 PACF 的衰减模式构成 ARMA 模型阶数识别的核心依据:
- AR(p):ACF 呈指数衰减或阻尼正弦波衰减(拖尾),PACF 在滞后 k>p 处截尾。利用 PACF 截尾性质可直接读取 AR 阶数。
- MA(q):ACF 在滞后 k>q 处截尾,PACF 呈拖尾衰减。利用 ACF 截尾性质可直接读取 MA 阶数。
- ARMA(p, q):ACF 与 PACF 均呈拖尾衰减,此时需借助信息准则(AIC、BIC、HQIC)或扩展自相关函数(EACF)联合确定阶数。
这一二元判别框架简洁直观,但需注意:当参数接近非平稳或可逆边界时,ACF 与 PACF 的衰减极慢,肉眼判别变得困难。此时单位根检验和KPSS检验的先验判断至关重要。
与谱密度函数的对偶关系
Wiener–Khinchin定理(又称Bochner定理在时间序列中的体现)建立了自协方差函数与谱密度函数之间的傅里叶对偶关系。对于离散时间弱平稳过程,若自协方差序列绝对可和(∑∣γk∣<∞),则谱密度函数存在且连续:
f(ω)=2π1k=−∞∑∞γke−iωk,ω∈[−π,π]
逆变换给出:
γk=∫−ππf(ω)eiωkdω
由此,ACF 的衰减行为与谱密度形状一一对应:ACF 快速衰减至零意味着谱密度平滑(趋近白噪声的平坦谱);ACF 呈缓慢双曲衰减则对应谱密度在零频率处出现极点,这是长记忆过程(Long Memory)的典型特征,其自相关函数满足 ρk∼Ck2d−1(0<d<0.5),谱密度在原点附近表现为 f(ω)∼C∣ω∣−2d。分数阶差分模型(ARFIMA)正是通过分整参数 d 来刻画这种跨尺度的自相关结构。这一时频对偶视角为理解时间序列的周期行为、滤波设计和谱估计提供了统一的数学语言,在金融计量学(波动率长记忆性)和宏观经济学(经济周期的频域分析)中有广泛应用。
估计量的偏差与改进
样本自相关函数虽具有一致性和渐近正态性,但在有限样本下存在不可忽略的偏差。对于短序列,ρ^k 的期望近似为 E[ρ^k]≈ρk−n∣k∣,即存在阶为 O(n−1) 的负偏差,滞后越大偏差越严重。此外,当过程存在显著的持续性(如接近单位根过程)时,标准渐近近似失效,ACF 的衰减偏慢,容易误判为长记忆。为此,统计学家提出多种修正方案:无偏自相关估计将分母中的 n 替换为 n−k,虽减小偏差但可能破坏正定性;Tapering(锥削)方法通过对序列两端施加权重来降低谱泄漏,在频域估计 ACF 时尤为常用;针对非平稳和近单位根过程,预白噪化(Prewhtening)先拟合低阶 AR 模型再对残差计算 ACF,可有效去除虚假的长记忆信号。在金融高频数据分析中,微观结构噪声常导致 ACF 在滞后 1 处显著为负,此时需采用去噪自相关估计(如基于已实现核的估计)以恢复真实的价格过程自相关结构。
多元推广:互相关函数与向量自相关
将单变量 ACF 推广至 m 维向量过程 Xt=(X1t,…,Xmt)′,引出自协方差矩阵序列:
Γk=E[(Xt−μ)(Xt+k−μ)′]∈Rm×m
其对角元素为各分量的自协方差,非对角元素为互协方差。互相关函数(Cross-Correlation Function, CCF)度量不同分量之间的领先-滞后关系:ρij(k)=γij(k)/γii(0)γjj(0)。不同于 ACF 的对称性,CCF 一般不满足 ρij(k)=ρij(−k),而是 ρij(k)=ρji(−k),因此可用于识别Granger因果关系的方向——若 Xjt 的过去值有助于预测 Xit,则 CCF 在正滞后处应显著。在向量自回归(VAR)建模中,多变量端口检验将 Ljung–Box 统计量推广为基于残差互相关矩阵迹的检验,用于联合诊断 VAR 模型残差是否为向量白噪声。此外,协整分析中,误差修正项的 ACF 结构为区分短期动态与长期均衡提供了关键的诊断信息。