ARTICLE

时间序列数据

时间序列数据 (Time Series Data) 时间序列数据，是指按照时间顺序排列的一系列数据点的集合。这些数据点通常是在连续的、等间隔的时间点（如每小时、每天、每月、每季度、每年）上收集的观测值。时间序列数据在计量经济学、统计学、金融、宏观经济学以及众多自然科学和工程领域中都至关重要，因为它们提供了分析动态过程和进行预测的基础。与横截面数据（Cros

浏览 42 更新 2025-10-26

时间序列数据 (Time Series Data)

时间序列数据，是指按照时间顺序排列的一系列数据点的集合。这些数据点通常是在连续的、等间隔的时间点（如每小时、每天、每月、每季度、每年）上收集的观测值。时间序列数据在计量经济学、统计学、金融、宏观经济学以及众多自然科学和工程领域中都至关重要，因为它们提供了分析动态过程和进行预测的基础。

与横截面数据（Cross-sectional Data，在同一时间点对不同个体进行观测）和面板数据（Panel Data，对同一组个体在多个时间点进行观测）不同，时间序列数据的核心特征是其内在的时间依赖性。这意味着一个观测值通常与其之前的值存在关联。这种关联性是时间序列分析 (Time Series Analysis) 的研究重点。

典型的例子包括：

经济学：一个国家的季度国内生产总值 (GDP)、月度消费者价格指数 (CPI)、每日的股票收盘价。
金融学：某个资产的每日回报率、每分钟的交易量。
商业：一家公司的月度销售额、网站的每日访问量。
气象学：一个城市的每日最高气温、每小时的降雨量。

时间序列数据的核心特征

理解时间序列数据需要掌握其几个关键特征，这些特征决定了我们如何对其进行建模和分析。

1. 时间依赖性 (Temporal Dependence) 或自相关 (Autocorrelation)

这是时间序列数据最根本的属性。一个序列中的值 $y_t$ 通常与它过去的值（如 $y_{t-1}, y_{t-2}, \dots$ ）相关。这种现象称为自相关。例如，今天的气温很可能与昨天的气温相似；本季度的GDP增长率会受到上个季度增长率的影响。

自相关可以用自相关函数 (Autocorrelation Function, ACF) 来度量，它测量了一个序列与其自身滞后版本之间的相关系数。一个 $k$ 阶滞后的自相关系数 $\rho_k$ 定义为：

\rho_k = \frac{\text{Cov}(y_t, y_{t-k})}{\sqrt{\text{Var}(y_t)\text{Var}(y_{t-k})}}

其中 $\text{Cov}$ 表示协方差， $\text{Var}$ 表示方差。ACF图是识别时间序列模型的重要工具。

2. 平稳性 (Stationarity)

平稳性是时间序列分析中的一个核心概念。一个随机过程（时间序列是其一次实现）如果其统计特性不随时间推移而改变，则被称为是（弱）平稳的。具体来说，一个平稳的时间序列满足以下三个条件：

恒定的均值 (Constant Mean)： $E(y_t) = \mu$ 对所有时间点 $t$ 成立。
恒定的方差 (Constant Variance)： $\text{Var}(y_t) = \sigma^2$ 对所有时间点 $t$ 成立。
恒定的自协方差 (Constant Autocovariance)： $\text{Cov}(y_t, y_{t-k})$ 只依赖于时间间隔 $k$ 而不依赖于具体的时间点 $t$ 。

大多数经济和金融时间序列（如GDP、股价）都是非平稳的，它们通常表现出明显的趋势或随时间变化的波动性。非平稳序列不能直接使用标准的时间序列模型（如ARIMA模型）进行分析，因为它们的统计关系不稳定，会导致“伪回归”等问题。因此，在建模之前，通常需要通过差分 (Differencing) 等转换方法将非平稳序列转化为平稳序列。例如，对价格序列取对数再进行一阶差分，通常可以得到近似平稳的收益率序列。

时间序列数据的分解

传统上，一个时间序列 $Y_t$ 可以被概念性地分解为几个组成部分。这种分解有助于理解序列的内在结构。常见的分解模型是加法模型或乘法模型。

加法模型: $Y_t = T_t + S_t + C_t + I_t$ 乘法模型: $Y_t = T_t \times S_t \times C_t \times I_t$ （通常可以通过取对数转化为加法模型）

这些组成部分是：

趋势 (Trend, $T_t$ )：序列在长期内的总体方向，可以是上升、下降或保持平稳。例如，由于技术进步和人口增长，许多国家的GDP都呈现出长期上升的趋势。

季节性 (Seasonality, $S_t$ )：在固定且已知的周期内（如一年、一季度、一周）发生的、可预测的模式性波动。例如，零售销售额通常在年底的假日季达到高峰，而冰淇淋销量则在夏季更高。

周期性 (Cyclicality, $C_t$ )：围绕趋势线波动的、周期长度不固定的中长期起伏。商业周期是经济学中最典型的例子，它包括复苏、繁荣、衰退和萧条等阶段，但每个周期的持续时间并不相同。周期性与季节性的关键区别在于其周期的不固定性。

不规则/随机成分 (Irregular/Random Component, $I_t$ )：也称为噪声 (Noise)。这是剔除趋势、季节性和周期性成分后剩余的不可预测的、随机的波动。理想情况下，这一部分应该是一个白噪声序列，即一个均值为零、方差恒定且没有自相关的序列。

时间序列数据的分析模型

分析时间序列数据旨在描述其动态结构、解释其行为并进行预测。主要模型类别包括：

描述性模型：主要用于平滑数据以突显趋势。
移动平均 (Moving Average)：通过计算连续子集数据的平均值来平滑短期波动。
指数平滑 (Exponential Smoothing)：一种加权平均方法，给予近期观测值更高的权重。Holt-Winters方法是其扩展，能够同时处理趋势和季节性。

统计模型 (Box-Jenkins方法)：基于平稳性和自相关性构建。
自回归模型 (Autoregressive model, AR)：假设当前值是其过去值的线性组合加上一个随机误差。一个 $p$ 阶的AR模型，即 $AR(p)$ ，表示为：

y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \dots + \phi_p y_{t-p} + \epsilon_t

移动平均模型 (Moving Average model, MA)：假设当前值是当前和过去随机误差项的线性组合。一个 $q$ 阶的MA模型，即 $MA(q)$ ，表示为：

y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q}

ARIMA模型 (Autoregressive Integrated Moving Average model)：将AR和MA模型结合起来，并引入了差分（Integrated）步骤来处理非平稳数据。一个 $ARIMA(p, d, q)$ 模型表示该序列经过 $d$ 阶差分后，可以用一个 $AR(p)$ 和 $MA(q)$ 模型来描述。

结构化模型：
状态空间模型 (State-Space Models)：将系统表示为由不可观测的“状态”变量和可观测的测量变量组成的模型。卡尔曼滤波器是估计这类模型的标准算法。
向量自回归 (Vector Autoregression, VAR)：用于分析多个相关时间序列变量之间的动态关系。

机器学习与深度学习模型：
近年来，如循环神经网络 (RNN) 及其变体长短期记忆网络 (LSTM) 和门控循环单元 (GRU) 在处理复杂非线性时间序列数据，尤其是在预测方面，表现出强大的能力。

应用总结

时间序列数据是理解世界动态变化的关键。通过对时间序列数据的分析，决策者可以：

理解过去：分解历史数据，识别趋势、季节性模式和异常事件。
解释现在：建立模型来解释变量之间的动态因果关系。
预测未来：基于历史模式和当前信息，对未来的数值进行预测，这是其在经济和商业决策中最广泛的应用。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。