ARTICLE

长短期记忆网络

长短期记忆网络 (LSTM) 长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的循环神经网络（RNN）架构，由 Hochreiter 和 Schmidhuber 于 1997 年提出，专门设计用于解决传统 RNN 在处理长序列时面临的梯度消失和梯度爆炸问题。LSTM 的核心创新在于引入了一个"细胞状态"（Cell Stat

浏览 0 更新 2026-05-25

长短期记忆网络 (LSTM)

长短期记忆网络（Long Short-Term Memory, LSTM）是一种特殊的循环神经网络（RNN）架构，由 Hochreiter 和 Schmidhuber 于 1997 年提出，专门设计用于解决传统 RNN 在处理长序列时面临的梯度消失和梯度爆炸问题。LSTM 的核心创新在于引入了一个"细胞状态"（Cell State）和三个门控机制，使得网络能够学习何时记住、何时遗忘信息，从而有效地捕捉长期依赖关系。

传统 RNN 的局限

标准 RNN 通过将前一时刻的隐藏状态与当前输入结合来传播信息： $h_t = \sigma(W_h h_{t-1} + W_x x_t + b)$ 。然而，当序列变长时，反向传播中的梯度要么趋于零（梯度消失），要么指数爆炸（梯度爆炸）。这使得网络几乎无法学习相隔较远的时间步之间的依赖关系。LSTM 通过引入恒定的误差流（Constant Error Carousel，CEC）机制从根本上解决了这一问题。

LSTM 的核心架构

LSTM 单元在每个时间步 $t$ 维护三个关键向量：遗忘门 $f_t$ 、输入门 $i_t$ 、输出门 $o_t$ ，以及细胞状态 $C_t$ 和隐藏状态 $h_t$ 。每个门都是一个逻辑函数（sigmoid）激活的全连接层，输出值在 $(0, 1)$ 之间，控制信息的通过比例。

遗忘门决定从细胞状态中丢弃哪些信息：

f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

输入门决定哪些新信息存储到细胞状态中。它由两部分组成：一个 sigmoid 层决定更新哪些值，一个 $\tanh$ 层生成新的候选细胞状态 $\tilde{C}_t$ ：

i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)

\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)

随后，旧的细胞状态 $C_{t-1}$ 被更新为新的细胞状态 $C_t$ ——这是 LSTM 最关键的操作，通过逐元素的线性运算实现梯度的长距离流动：

C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t

输出门基于更新后的细胞状态决定输出什么：

o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)

h_t = o_t \odot \tanh(C_t)

其中 $\odot$ 表示逐元素乘法（哈达玛积）。

梯度流动与长期记忆

LSTM 通过加法操作 $C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ 而非矩阵乘法来更新细胞状态，这使得梯度在反向传播时可以不受阻碍地流过多层。当遗忘门 $f_t$ 接近 1 且输入门 $i_t$ 接近 0 时，细胞状态的信息可以被完整地保留到后面的时间步。这一设计使得 LSTM 在超过 1000 个时间步的序列上仍能有效训练，相比之下，传统 RNN 在序列长度超过 10-20 时就会出现明显的梯度衰减。

变体与应用

LSTM 有多种变体。窥视孔连接（Peephole Connections）允许门层直接查看细胞状态；Gers 和 Schmidhuber（2000）证明这有助于学习更精确的时间模式。门控循环单元（GRU）是 Cho 等人提出的简化版本，将遗忘门和输入门合并为"更新门"，参数量更少但在大多数任务上表现相近。

在应用层面，LSTM 长期主导了自然语言处理领域，被广泛用于机器翻译、情感分析和语音识别。Google 的神经网络机器翻译系统（GNMT）和Apple 的 Siri 语音识别引擎都曾深度依赖 LSTM。在金融预测中，LSTM 被用于股票价格预测、波动率建模和信用评分等任务，因其能够捕捉市场数据中的长期动态模式。尽管Transformer架构自 2017 年以来在许多序列建模任务上逐渐取代了 LSTM，但 LSTM 在时间序列预测、异常检测和边缘设备推理等场景中仍然广泛使用，因其推理效率高、延迟低且可解释性更强。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。