ARTICLE

时间序列数据

时间序列数据 (Time Series Data) 时间序列数据,是指按照时间顺序排列的一系列数据点的集合。这些数据点通常是在连续的、等间隔的时间点(如每小时、每天、每月、每季度、每年)上收集的观测值。时间序列数据在计量经济学、统计学、金融、宏观经济学以及众多自然科学和工程领域中都至关重要,因为它们提供了分析动态过程和进行预测的基础。 与横截面数据(Cros

浏览 42 更新 2025-10-26

时间序列数据 (Time Series Data)

时间序列数据,是指按照时间顺序排列的一系列数据点的集合。这些数据点通常是在连续的、等间隔的时间点(如每小时、每天、每月、每季度、每年)上收集的观测值。时间序列数据在计量经济学统计学金融宏观经济学以及众多自然科学和工程领域中都至关重要,因为它们提供了分析动态过程和进行预测的基础。

横截面数据(Cross-sectional Data,在同一时间点对不同个体进行观测)和面板数据(Panel Data,对同一组个体在多个时间点进行观测)不同,时间序列数据的核心特征是其内在的时间依赖性。这意味着一个观测值通常与其之前的值存在关联。这种关联性是时间序列分析 (Time Series Analysis) 的研究重点。

典型的例子包括:

  • 经济学:一个国家的季度国内生产总值 (GDP)、月度消费者价格指数 (CPI)、每日的股票收盘价。
  • 金融学:某个资产的每日回报率、每分钟的交易量。
  • 商业:一家公司的月度销售额、网站的每日访问量。
  • 气象学:一个城市的每日最高气温、每小时的降雨量。

时间序列数据的核心特征

理解时间序列数据需要掌握其几个关键特征,这些特征决定了我们如何对其进行建模和分析。

1. 时间依赖性 (Temporal Dependence) 或 自相关 (Autocorrelation)

这是时间序列数据最根本的属性。一个序列中的值 yt y_t 通常与它过去的值(如 yt1,yt2, y_{t-1}, y_{t-2}, \dots )相关。这种现象称为自相关。例如,今天的气温很可能与昨天的气温相似;本季度的GDP增长率会受到上个季度增长率的影响。

自相关可以用自相关函数 (Autocorrelation Function, ACF) 来度量,它测量了一个序列与其自身滞后版本之间的相关系数。一个k k 阶滞后的自相关系数 ρk \rho_k 定义为:

ρk=Cov(yt,ytk)Var(yt)Var(ytk)\rho_k = \frac{\text{Cov}(y_t, y_{t-k})}{\sqrt{\text{Var}(y_t)\text{Var}(y_{t-k})}}

其中 Cov \text{Cov} 表示协方差Var \text{Var} 表示方差。ACF图是识别时间序列模型的重要工具。

2. 平稳性 (Stationarity)

平稳性是时间序列分析中的一个核心概念。一个随机过程(时间序列是其一次实现)如果其统计特性不随时间推移而改变,则被称为是(弱)平稳的。具体来说,一个平稳的时间序列满足以下三个条件:

  • 恒定的均值 (Constant Mean)E(yt)=μ E(y_t) = \mu 对所有时间点 t t 成立。
  • 恒定的方差 (Constant Variance)Var(yt)=σ2 \text{Var}(y_t) = \sigma^2 对所有时间点 t t 成立。
  • 恒定的自协方差 (Constant Autocovariance)Cov(yt,ytk) \text{Cov}(y_t, y_{t-k}) 只依赖于时间间隔 k k 而不依赖于具体的时间点 t t

大多数经济和金融时间序列(如GDP、股价)都是非平稳的,它们通常表现出明显的趋势或随时间变化的波动性。非平稳序列不能直接使用标准的时间序列模型(如ARIMA模型)进行分析,因为它们的统计关系不稳定,会导致“伪回归”等问题。因此,在建模之前,通常需要通过差分 (Differencing) 等转换方法将非平稳序列转化为平稳序列。例如,对价格序列取对数再进行一阶差分,通常可以得到近似平稳的收益率序列。

时间序列数据的分解

传统上,一个时间序列 Yt Y_t 可以被概念性地分解为几个组成部分。这种分解有助于理解序列的内在结构。常见的分解模型是加法模型或乘法模型。

加法模型: Yt=Tt+St+Ct+It Y_t = T_t + S_t + C_t + I_t 乘法模型: Yt=Tt×St×Ct×It Y_t = T_t \times S_t \times C_t \times I_t (通常可以通过取对数转化为加法模型)

这些组成部分是:

  1. 趋势 (Trend, Tt T_t ):序列在长期内的总体方向,可以是上升、下降或保持平稳。例如,由于技术进步和人口增长,许多国家的GDP都呈现出长期上升的趋势。
  1. 季节性 (Seasonality, St S_t ):在固定且已知的周期内(如一年、一季度、一周)发生的、可预测的模式性波动。例如,零售销售额通常在年底的假日季达到高峰,而冰淇淋销量则在夏季更高。
  1. 周期性 (Cyclicality, Ct C_t ):围绕趋势线波动的、周期长度不固定的中长期起伏。商业周期是经济学中最典型的例子,它包括复苏、繁荣、衰退和萧条等阶段,但每个周期的持续时间并不相同。周期性与季节性的关键区别在于其周期的不固定性。
  1. 不规则/随机成分 (Irregular/Random Component, It I_t ):也称为噪声 (Noise)。这是剔除趋势、季节性和周期性成分后剩余的不可预测的、随机的波动。理想情况下,这一部分应该是一个白噪声序列,即一个均值为零、方差恒定且没有自相关的序列。

时间序列数据的分析模型

分析时间序列数据旨在描述其动态结构、解释其行为并进行预测。主要模型类别包括:

  • 描述性模型:主要用于平滑数据以突显趋势。
  • 移动平均 (Moving Average):通过计算连续子集数据的平均值来平滑短期波动。
  • 指数平滑 (Exponential Smoothing):一种加权平均方法,给予近期观测值更高的权重。Holt-Winters方法是其扩展,能够同时处理趋势和季节性。
  • 统计模型 (Box-Jenkins方法):基于平稳性和自相关性构建。
  • 自回归模型 (Autoregressive model, AR):假设当前值是其过去值的线性组合加上一个随机误差。一个p p 阶的AR模型,即AR(p) AR(p) ,表示为:
yt=c+ϕ1yt1+ϕ2yt2++ϕpytp+ϵty_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \dots + \phi_p y_{t-p} + \epsilon_t
  • 移动平均模型 (Moving Average model, MA):假设当前值是当前和过去随机误差项的线性组合。一个q q 阶的MA模型,即MA(q) MA(q) ,表示为:
yt=μ+ϵt+θ1ϵt1++θqϵtqy_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q}
  • ARIMA模型 (Autoregressive Integrated Moving Average model):将AR和MA模型结合起来,并引入了差分(Integrated)步骤来处理非平稳数据。一个ARIMA(p,d,q) ARIMA(p, d, q) 模型表示该序列经过 d d 阶差分后,可以用一个 AR(p) AR(p) MA(q) MA(q) 模型来描述。
  • 结构化模型
  • 状态空间模型 (State-Space Models):将系统表示为由不可观测的“状态”变量和可观测的测量变量组成的模型。卡尔曼滤波器是估计这类模型的标准算法。
  • 向量自回归 (Vector Autoregression, VAR):用于分析多个相关时间序列变量之间的动态关系。
  • 机器学习与深度学习模型
  • 近年来,如循环神经网络 (RNN) 及其变体长短期记忆网络 (LSTM)门控循环单元 (GRU) 在处理复杂非线性时间序列数据,尤其是在预测方面,表现出强大的能力。

应用总结

时间序列数据是理解世界动态变化的关键。通过对时间序列数据的分析,决策者可以:

  • 理解过去:分解历史数据,识别趋势、季节性模式和异常事件。
  • 解释现在:建立模型来解释变量之间的动态因果关系。
  • 预测未来:基于历史模式和当前信息,对未来的数值进行预测,这是其在经济和商业决策中最广泛的应用。