ARTICLE

自回归

自回归 (Autoregression) 自回归 (Autoregression, AR) 是时间序列分析中最基础的建模框架之一,其核心思想是使用变量自身的滞后值来预测当期值。"自回归"之名由此而来——被解释变量对自身的过去进行"回归"。自回归模型由尤尔 (G. U. Yule) 于1927年在其对太阳黑子周期性波动的研究中首次提出,后经沃克 (G. T.

浏览 0 更新 2025-11-09

自回归 (Autoregression)

自回归 (Autoregression, AR) 是时间序列分析中最基础的建模框架之一,其核心思想是使用变量自身的滞后值来预测当期值。"自回归"之名由此而来——被解释变量对自身的过去进行"回归"。自回归模型由尤尔 (G. U. Yule) 于1927年在其对太阳黑子周期性波动的研究中首次提出,后经沃克 (G. T. Walker) 等人系统化,成为现代时间序列计量经济学的基石。

自回归模型的核心直觉在于:许多经济和金融时间序列呈现持续性 (persistence) 特征——今天的观测值与昨天的观测值高度相关。例如,GDP 增长率、通胀率股票收益率等序列均表现出显著的自相关性,使得利用历史信息进行预测成为可能。与标准的横截面回归不同,自回归模型处理的是同一变量在不同时点上的依赖关系,这要求研究者特别关注序列相关对统计推断的影响。德宾-沃森检验 (Durbin-Watson test) 即是早期用于诊断这种序列相关性的经典工具。

模型形式

一个 pp 阶自回归模型,记作 AR(p),的数学表达式为:

yt=c+ϕ1yt1+ϕ2yt2++ϕpytp+εty_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \varepsilon_t

其中 yty_t 为当期观测值,cc 为常数项,ϕ1,ϕ2,,ϕp\phi_1, \phi_2, \ldots, \phi_p 为自回归系数,εt\varepsilon_t白噪声误差项,满足 E[εt]=0\mathbb{E}[\varepsilon_t] = 0Var(εt)=σ2\operatorname{Var}(\varepsilon_t) = \sigma^2Cov(εt,εtk)=0\operatorname{Cov}(\varepsilon_t, \varepsilon_{t-k}) = 0 对所有 k0k \neq 0 成立。AR(1) 是其中最简情形:

yt=c+ϕ1yt1+εty_t = c + \phi_1 y_{t-1} + \varepsilon_t

这一模型的参数 ϕ1\phi_1 测量序列的一阶自相关系数。当 ϕ1<1|\phi_1| < 1 时序列为平稳过程,冲击影响随时间呈几何衰减;当 ϕ1=1\phi_1 = 1 时退化为随机游走 (Random Walk),冲击对序列具有永久效应——此为单位根过程的典型特征。

平稳性条件

AR(p) 模型的平稳性可通过其特征方程加以判定。将模型改写为滞后算子形式:

(1ϕ1Lϕ2L2ϕpLp)yt=c+εt(1 - \phi_1 L - \phi_2 L^2 - \cdots - \phi_p L^p) y_t = c + \varepsilon_t

其中 LL 为滞后算子,满足 Lkyt=ytkL^k y_t = y_{t-k}。对应的特征方程为:

1ϕ1zϕ2z2ϕpzp=01 - \phi_1 z - \phi_2 z^2 - \cdots - \phi_p z^p = 0

模型的协方差平稳 (covariance stationarity) 条件为该特征方程的所有根的模均大于 1(即所有根位于单位圆之外)。对于 AR(1) 模型,这一条件简化为 ϕ1<1|\phi_1| < 1。当任一根的模等于 1 时,序列包含单位根,为非平稳过程;当根的模小于 1 时,序列为爆炸性 (explosive) 过程。

自相关函数与偏自相关函数

自回归模型的阶数识别主要依赖自相关函数 (ACF) 和偏自相关函数 (PACF)。对于 AR(p) 过程,ACF 和 PACF 呈现出截然不同的模式:

  • ACF 呈拖尾 (tail off) 衰减形态。AR(1) 的 ACF 以几何速率衰减(ρk=ϕ1k\rho_k = \phi_1^k);高阶 AR(p) 的 ACF 则呈现混合指数或正弦波衰减模式。
  • PACF 在滞后 pp截尾 (cut off),即 k>pk > pϕkk=0\phi_{kk} = 0。这一特性是识别 AR 模型阶数的关键依据:若样本 PACF 在 pp 阶后迅速落入置信区间内,则可初步判定为 AR(p) 过程。

参数估计

AR(p) 模型的估计主要有三种方法:

  1. 普通最小二乘法 (OLS):由于模型为线性形式,可直接对 yty_t 关于 yt1,,ytpy_{t-1}, \ldots, y_{t-p} 进行 OLS 回归。在平稳性和误差项为鞅差序列的条件下,OLS 估计量具有一致性和渐近正态性。
  2. 尤尔-沃克方程 (Yule-Walker Equations):利用自协方差函数与模型参数之间的关系求解。对于 AR(p) 模型,尤尔-沃克方程为以下线性系统: \[ \begin{pmatrix} \gamma_0 & \gamma_1 & \cdots & \gamma_{p-1} \\ \gamma_1 & \gamma_0 & \cdots & \gamma_{p-2} \\ \vdots & \vdots & \ddots & \vdots \\ \gamma_{p-1} & \gamma_{p-2} & \cdots & \gamma_0 \end{pmatrix} \begin{pmatrix} \phi_1 \\ \phi_2 \\ \vdots \\ \phi_p \end{pmatrix} \] = \begin{pmatrix} γ1\gamma_1 \\ γ2\gamma_2 \\ \vdots \\ γp\gamma_p \[ \end{pmatrix} \] 其中 γk=Cov(yt,ytk)\gamma_k = \operatorname{Cov}(y_t, y_{t-k})。将样本自协方差代入即可得到参数估计值。
  3. 最大似然估计 (MLE):在假设 εt\varepsilon_t 服从正态分布的条件下,可通过条件似然或精确似然函数进行估计。样本量较大时,MLE 与 OLS 估计量渐近等价。

模型选择

AR 模型阶数的选择需要在拟合程度与模型简洁性之间取得平衡。常用准则包括:

  • 赤池信息准则 (AIC)AIC=ln(σ^2)+2pT\text{AIC} = \ln(\hat{\sigma}^2) + \frac{2p}{T},其中 σ^2\hat{\sigma}^2 为残差方差估计值,TT 为样本量。AIC 倾向于选择预测精度更高的模型,但渐近过一致 (over-consistent)。
  • 贝叶斯信息准则 (BIC)BIC=ln(σ^2)+plnTT\text{BIC} = \ln(\hat{\sigma}^2) + \frac{p\ln T}{T}。BIC 对参数个数的惩罚更严厉,在大样本下具有一致性,能够以概率 1 选出真实模型。
  • 修正 R2R^2:在比较嵌套模型时参考,但易导致过度参数化。

此外,残差的白噪声检验(如Ljung-Box Q 检验)是模型诊断的必要步骤:若残差仍呈现显著自相关,则需增加模型阶数。

与 ARMA 和 ARIMA 的关系

自回归模型是更为一般的 ARMA (自回归滑动平均) 和 ARIMA (整合自回归滑动平均) 模型族的组成部分。ARMA(p, q) 在 AR(p) 的基础上引入滑动平均 (MA) 部分,以捕捉误差项的滞后影响;ARIMA(p, d, q) 则进一步对非平稳序列先进行 dd 阶差分使之平稳,再应用 ARMA 建模。博克斯-詹金斯方法论 (Box-Jenkins methodology) 将这三个步骤系统化为"识别—估计—诊断"三阶段框架,是时间序列建模的经典范式。

应用领域

自回归模型在经济金融领域具有广泛的应用:

  • 宏观经济学:使用 AR 模型预测 GDP 增长率、通胀率和失业率等宏观指标的短期走势。拉姆齐坎贝尔的研究表明,许多宏观序列可被低阶 AR 模型良好拟合。
  • 金融学:资产收益率的均值方程常设定为简单的 AR 过程;自回归条件异方差 (ARCH) 模型更是在 AR 均值方程的基础上进一步建模波动率。
  • 面板数据:包含个体自回归项的动态面板模型(如 Arellano-Bond 估计量)在微观计量经济学中广泛用于分析公司投资、消费行为等滞后因变量效应。
  • 自然语言处理:N-gram 语言模型本质上是离散序列的自回归模型,当前词的出现概率依赖于前 n1n-1 个词的观测结果。生成式预训练变换器 (GPT)大语言模型的底层架构——自回归生成范式——也直接继承了这一思想。

现代自回归分析已从单一方程延伸至向量自回归 (VAR),将多个时间序列联合建模,捕捉变量之间的动态互动关系。VAR 模型由西姆斯 (Christopher Sims) 于1980年引入宏观经济学,并因此获得 2011 年诺贝尔经济学奖,标志着自回归方法从单变量到多变量的重要飞跃。此外,贝叶斯向量自回归 (BVAR) 通过引入先验分布(如明尼苏达先验)有效缓解了参数过多导致的过度拟合问题,在宏观预测中表现尤为突出。

自回归思想还催生了自回归分布滞后模型 (ARDL),该模型将因变量的滞后项与自变量的当期及滞后项纳入同一回归框架,特别适用于变量间存在协整关系时的长期均衡分析与短期动态调整建模。在格兰杰因果关系检验中,检验两个变量间是否存在预测能力的基础模型也通常是向量自回归模型,充分体现了自回归分析作为计量经济学