18 KiB
让AI拥有记忆——RNN → LSTM → GRU
一座城市用了三十年,才让它的每一个角落都记得住过去的故事。 从1986年到2017年,科学家们也在做同样的事——让AI不仅能"看见"眼前的信息,还能"记住"来时的路。
引言:城市的记忆问题
想象一座城市。
一座没有档案馆、没有博物馆、没有任何记录系统的城市。每一天,城市里的人都在工作、生活、做决定——但他们不记得昨天发生了什么,不记得上周谁来过,不记得一年前这座城市是什么样子。这听起来荒谬,但这就是早期人工智能面临的真实困境。
20世纪80年代的AI,能处理一个输入,给出一个输出。但当你问它:"这段话的上一个词是什么?"它会茫然地看着你——它没有记忆。
让AI拥有记忆,这条路,人类走了三十年。
第一章|RNN:城市的第一本日记
1.1 1982年,城市的第一个记忆碎片
1982年,物理学家John Hopfield在加州理工的实验室里,提出了Hopfield Network——这是人类第一次尝试让神经网络"记住"信息的方式。
但它太简陋了。就像一座城市的居民只能在彼此的口口相传中保留记忆,信息容量极小,而且动不动就"失忆"(陷入局部最优解)。
四年后,Michael Jordan(不是篮球明星)在1986年正式定义了Recurrent(循环)的概念,提出了Jordan Network。又过了四年,Jeffrey Elman在1990年简化了Jordan Network的结构,加入BP算法训练,形成了现代意义上最早的循环神经网络(Recurrent Neural Network, RNN)。
这就是这座"记忆城市"的第一本日记——简陋、容量有限,但它有了记录的能力。
1.2 RNN的核心原理:隐藏状态
RNN的核心机制用一个公式表达:
h_t = f(W_{xh} \cdot x_t + W_{hh} \cdot h_{t-1} + b_h)
其中:
x_t是当前时刻的输入(比如当前词语)h_{t-1}是上一时刻的隐藏状态(AI对过去的记忆)h_t是当前时刻的隐藏状态(更新后的记忆)W_{xh}, W_{hh}是共享的权重矩阵f是激活函数(通常为\tanh或 $\text{ReLU}$)
"共享权重"是关键——这意味着无论城市发展到第几天,用的是同一套"记忆规则"。城市的每一页日记都遵循相同的格式,这让RNN能够处理任意长度的序列。
展开来看,RNN的信息流动是这样的:
时间步 1: x₁ + 初始h₀ → h₁
时间步 2: x₂ + h₁ → h₂
时间步 3: x₃ + h₂ → h₃
...
时间步 t: xₜ + hₜ₋₁ → hₜ
每个时间步,AI都会把"现在的信息"和"过去的所有记忆"结合在一起,形成新的记忆。
1.3 训练:BPTT反向传播
RNN的训练使用BPTT(Backpropagation Through Time,通过时间反向传播)。
它的原理是:将RNN按时间步展开成一个深度前馈网络,然后用标准反向传播算法来训练。误差从最后一个时间步出发,一路传回第一个时间步。
问题就出在这里——"一路传回"。
1.4 RNN的致命缺陷:梯度消失与梯度爆炸
在BPTT中,梯度需要沿时间链回传,涉及对同一权重矩阵 W 的反复链式求导:
\frac{\partial h_t}{\partial h_{t-k}} = \prod_{i=k+1}^{t} \frac{\partial h_i}{\partial h_{i-1}} = \prod_{i=k+1}^{t} W^T \cdot \text{diag}(f'(h_{i-1}))
这里有两种灾难性的情况:
情况一:梯度爆炸(Exploding Gradient)
- 若权重矩阵
W的特征值 > 1,梯度会指数级增长 - 数值大到溢出,变成
NaN,训练直接崩溃 - 相当于城市里某个谣言无限放大,最终压垮整个系统
情况二:梯度消失(Vanishing Gradient)
- 若权重矩阵
W的特征值 < 1,梯度会指数级衰减 - 靠近序列开头的梯度趋近于零,网络几乎无法学习早期信息
- 相当于城市只记得最近发生的事,三个月前的档案完全空白
直观理解:城市在处理一本很长的日记时,写到第100页时,第1页上记录的关键信息早就被后面的内容稀释、覆盖、遗忘了。RNN只能记住不远处的过去,对于真正的长期依赖,它无能为力。
这就是RNN最核心的局限——它有记忆,但它记不住太远的事。
第二章|Word2Vec:给每个词语一张地图
在继续讲述RNN的进化之前,有必要先解决一个更基础的问题:
AI怎么理解一个"词"?
2.1 从独热编码到词向量
早期的做法是独热编码(One-Hot Encoding):假设词汇表有10000个词,就用10000维的向量,其中第 i 个词对应的向量只有第 i 位是1,其余全是0。
这种编码方式有两个致命问题:
- 维度灾难:10000维向量,99.99%都是0,极其稀疏
- 语义鸿沟:没有任何词与词之间的关系信息。"国王"和"女王"的向量正交,"男人"和"女人"的向量也正交——AI完全不知道它们的语义关联
2.2 词向量:用数学空间表达语义
2013年,Word2Vec横空出世,由Tomas Mikolov团队在Google提出。
它的核心思想是:将每个词映射到一个几百维的稠密向量空间中。
- 语义相近的词,向量在空间中距离更近
- 词语之间可以进行语义加减法:
\text{国王} - \text{男人} + \text{女人} \approx \text{女王}\text{巴黎} - \text{法国} + \text{日本} \approx \text{东京}
这相当于给城市里的每一个地点都画了一张地图——重要的地标彼此靠近,相似的区域自然聚集在一起。AI看到"巴黎"就知道它和"法国"、"东京"这些概念在空间上是什么关系。
Word2Vec解决的是"AI如何理解单个词汇"的问题,它让词语从抽象的符号变成了数学空间中的具体坐标,为RNN处理自然语言奠定了基础。
第三章|LSTM:城市的档案馆系统
3.1 1997年,革命的一天
1997年,Sepp Hochreiter 和 Jürgen Schmidhuber 在论文*"Long Short-Term Memory"*中提出了LSTM——长短期记忆网络(Long Short-Term Memory)。
这不仅仅是一个模型的改进,这是一次记忆架构的根本重构。
如果说RNN是城市里人手一本的日记本,那LSTM就是在城市中心建起了一座档案馆——有了专门管理记忆的系统,有了长期保存重要档案的能力。
3.2 核心创新:细胞状态——记忆的传输带
LSTM引入了一个全新的概念:细胞状态(Cell State) $C_t$。
它就像一条贯穿城市档案馆各楼层之间的传送带——档案从一楼原封不动地传送到五楼,中间不会遗失、不会损坏。信息可以沿着这条路径从序列的开头一直传递到结尾,而不会被后续的内容稀释。
这就是LSTM解决梯度消失的关键:细胞状态的更新是加法,而不是RNN中的矩阵连乘。
C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t
加法意味着梯度可以沿 C_t 这条路径几乎无损地反向传播——不像RNN里反复乘以 $W$,梯度衰减或爆炸的问题从根本上得到了缓解。
3.3 三道门:档案馆的管理员
光有传送带还不够,城市档案馆还需要管理员来决定什么该存档、什么该销毁。这就是LSTM的三道门机制:
遗忘门(Forget Gate)$f_t$——决定丢弃什么
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
遗忘门的输出是一个 [0, 1] 之间的向量。0 表示"完全遗忘",1 表示"完全保留"。
生活化理解:档案馆管理员在整理旧档案时,决定"这批十年前的采购记录已经没用了,清理掉"——这就是遗忘门在发挥作用。
输入门(Input Gate)i_t + 候选记忆 $\tilde{C}_t$——决定写入什么
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \\
\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)
输入门决定当前输入中有多少新信息值得写入长期记忆。候选记忆 \tilde{C}_t 是由当前输入和过去隐藏状态共同生成的新档案条目。
生活化理解:新的一天,城市里发生了很多事。管理员翻阅当天的记录,决定"这个新上任的市长叫什么名字,这条政策变更的内容是什么"——这些值得记入档案。
输出门(Output Gate)$o_t$——决定提取什么
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \\
h_t = o_t \odot \tanh(C_t)
输出门根据当前任务,从浩瀚的档案库中精准提取相关记忆。
生活化理解:有人来问"这座城市三年前的交通规划是什么?"管理员去档案馆里精准翻找交通相关的文件,而不是把所有档案都翻出来给对方看。
3.4 LSTM为什么能解决长期依赖
三个原因:
- 加法路径:细胞状态的更新是加法,梯度可以沿这条路径稳定传播,不会有指数级的衰减或爆炸
- 门控缩放:门控值在 $[0, 1]$,对梯度的缩放是可控的乘法,而不是RNN里不受约束的矩阵连乘
- 数据驱动:所有门都是通过 sigmoid 网络学习得到的——AI自己学会了在什么情况下该开什么门
LSTM的本质是:给信息流动加上了"门",让网络学会自主决定记住什么、遗忘什么。
第四章|GRU:让档案馆更高效
4.1 2014年,精简革命
2014年,Cho et al. 在论文*"Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation"*中提出了GRU(门控循环单元,Gated Recurrent Unit)。
LSTM已经很强大了,但它的结构确实复杂——三个门、独立的细胞状态、窥视孔连接……训练起来计算量大,推理速度也慢。
GRU的出现,就是对这个系统的一次工程精简。
4.2 核心变化:两个门 + 一条路径
变化一:合并遗忘门与输入门 → 更新门(Update Gate)z_t
z_t = \sigma(W_z \cdot [h_{t-1}, x_t])
LSTM有独立的遗忘门和输入门,GRU把它们合并成了一个更新门。
- 当
z_t \approx 1时:$(1 - z_t) \approx 0$,几乎完全保留旧状态(相当于遗忘) - 当
z_t \approx 0时:$z_t \approx 1$,几乎完全更新为新状态(相当于输入)
一个门同时完成了两个功能,简洁而高效。
变化二:引入重置门(Reset Gate)r_t
r_t = \sigma(W_r \cdot [h_{t-1}, x_t])
重置门决定有多少过去的记忆应该被"忽略",用于计算新的候选状态:
\tilde{h}_t = \tanh(W \cdot [r_t \odot h_{t-1}, x_t])
- 当
r_t \approx 0时:几乎忽略所有旧记忆,从头开始构建(适合需要"清空重来"的场景) - 当
r_t \approx 1时:保留所有旧记忆,正常计算新状态
最终隐藏状态
h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t
这个公式和LSTM的细胞状态更新惊人地相似——都是加法形式,保证了梯度流动的稳定性。
4.3 GRU vs LSTM:一目了然
| 对比维度 | LSTM | GRU |
|---|---|---|
| 门数量 | 3个(遗忘门、输入门、输出门) | 2个(更新门、重置门) |
| 细胞状态 | 独立 Cell State C_t |
无,直接用隐藏状态 |
| 输出门 | 有,独立控制输出 | 无 |
| 窥视孔连接 | 可选(增强门控精度) | 无 |
| 权重矩阵数量 | 12个 | 9个(约少25-30%) |
| 训练速度 | 较慢 | 较快 |
| 表达能力 | 更强,精细控制 | 适中 |
| 适用场景 | 长序列、复杂依赖 | 中短序列、资源受限 |
4.4 GRU的优势
- 训练更快:参数减少约25-30%,收敛速度通常快于LSTM
- 小数据集更友好:参数少意味着过拟合风险低
- 与LSTM性能相当:在许多任务上,GRU和LSTM表现几乎一致
- 结构更简洁:便于实现、调试和部署
GRU的哲学:不是更强大,而是更聪明地简化。 就像城市档案馆发现,不用每个房间都配一个专职管理员——两个通才管理员配合,效果一样好。
第五章|三足鼎立:RNN、LSTM、GRU全方位对比
5.1 数学公式总览
| 组件 | RNN | LSTM | GRU |
|---|---|---|---|
| 隐藏状态更新 | h_t = f(W[x_t, h_{t-1}]) |
h_t = o_t \odot \tanh(C_t) |
h_t = (1-z_t)h_{t-1} + z_t\tilde{h}_t |
| 信息选择性保留 | 无(全盘接受) | 遗忘门 f_t 控制 |
更新门 z_t 控制 |
| 梯度传播路径 | 反复矩阵乘法(不稳定) | 细胞状态加法路径(稳定) | 加法路径(稳定) |
| 长期信息保留 | ❌ 差 | ✅ 好 | ✅ 好 |
| 短期信息更新 | ✅ 好 | ✅ 好 | ✅ 好 |
| 门控机制 | 无 | 3个门 | 2个门 |
| 参数复杂度 | 低 | 高 | 中 |
5.2 核心问题的解决方案
| 问题 | RNN | LSTM | GRU |
|---|---|---|---|
| 梯度消失/爆炸 | ❌ 无法解决 | ✅ 加法路径解决 | ✅ 加法路径解决 |
| 长期依赖 | ❌ 差 | ✅ 好 | ✅ 好 |
| 计算效率 | ✅ 最高 | ❌ 最低 | ✅ 中等 |
| 实现复杂度 | ✅ 简单 | ❌ 复杂 | ✅ 中等 |
5.3 共同局限
即便强如LSTM和GRU,RNN系列架构也有两个共同的局限:
-
无法并行计算:必须按时间步串行处理,无法充分利用GPU的并行算力。城市里的档案馆管理员必须一页一页地翻阅日记,无法同时处理所有页面。
-
记忆距离仍有物理上限:面对数万字超长文本,开头的内容仍然会逐渐衰减。档案馆再完善,面对一本无限长的编年史,也终有容量极限。
这两个问题,最终由2017年的Transformer彻底解决——但那是另一个故事了。
第六章|完整时间线:从日记本到智能城市
1982 Hopfield Network(最早的RNN雏形)
John Hopfield,加州理工
→ 城市有了第一张"记忆草稿纸"
↓
1986 Jordan Network(Recurrent概念正式定义)
Michael Jordan,MIT
→ 城市开始有组织地记录信息
↓
1990 Elman Network + BP(现代RNN基础建立)
Jeffrey Elman
→ 城市学会了用标准方法训练记忆系统
↓
⚠️ 梯度消失/爆炸问题困扰学界整整十年
→ 城市发现日记本没法记太久的事情
↓
1997 LSTM(长短期记忆网络)横空出世
Hochreiter & Schmidhuber
→ 城市建立了档案馆,学会了选择性记忆
↓
1999 LSTM + Peephole Connection
Gers等人,档案馆管理员获得了"透视能力"
↓
2013 Word2Vec
Tomas Mikolov,Google
→ 城市给每个地点绘制了语义地图
↓
2014 GRU(门控循环单元)
Cho et al.
→ 档案馆精简了人员,效率反而更高
↓
2014 Seq2Seq + Attention(编解码+注意力机制)
Sutskever et al.,Google
→ 城市学会了"重点关注",不用记住所有内容
↓
2017 Transformer(注意力机制就是一切)
Vaswani et al.,Google
→ 城市档案馆被全新的并行系统彻底取代
↓
2018- BERT、GPT、预训练模型时代
→ 大模型时代开启,AI的记忆能力达到新高度
第七章|真实应用:记忆在城市中运转
7.1 网络安全:LSTM的第一场胜仗
2016年,研究者首次将LSTM应用于网络入侵检测。
传统方法依赖预定义的规则库,面对新型攻击束手无策。LSTM能分析网络流量的时序特征,识别长序列中的低频攻击行为。
结果:对长序列低频攻击的检测率比传统方法提升 20%以上,整体准确率突破 99%。
相当于城市的安全系统不只能识别已知的犯罪模式,还能通过"行为记忆"发现从未见过的新型威胁。
7.2 机器翻译:Seq2Seq的突破
LSTM和GRU为 Seq2Seq(序列到序列)架构 奠定了基础,推动了神经机器翻译的革命性进步。
2014年的Seq2Seq模型使用LSTM作为编码器,将源语言句子编码为隐藏状态,再由另一个LSTM作为解码器逐词生成目标语言——这本质上就是用两套档案馆系统,一套负责"理解"输入,一套负责"表达"输出。
这就是城市翻译官的工作:先读完所有档案理解原文,再用另一套档案系统组织目标语言表达出来。
7.3 时间序列与语音:实时记忆的需求
在语音识别、音乐生成、实时流处理等场景中,LSTM和GRU至今仍是常用选择——因为它们天然适合流式处理:来一个词更新一次记忆,不需要等待整个序列输入完毕。
城市新闻播报员不需要等整篇稿子写完才开始播报——他说一句,脑子里更新一句记忆,这正是RNN架构的天然优势。
结语:城市的记忆,永无止境
三十年,从Hopfield Network到Transformer,AI的记忆能力经历了翻天覆地的变化:
- 1986年:城市有了第一本日记(Elman RNN)
- 1997年:城市建起了档案馆(LSTM)
- 2014年:档案馆精简了人员变得更高效(GRU)
- 2017年:城市用上了并行处理系统(Transformer)
但这场进化没有终点。
Transformer解决了并行和长距离依赖问题,让大模型能够处理几千字甚至更长的上下文。但它也有自己的局限——对超长序列(比如一本书),注意力计算量仍是 $O(n^2)$,效率问题依然存在。
科学家们正在探索新的架构:Linear Attention、State Space Models、Mamba……
城市的故事还在继续。AI的记忆,永无止境。
参考资料
| 来源 | 内容 |
|---|---|
| Bilibili UP主「网络小白_Uncle城」视频 | RNN→LSTM→GRU科普讲解(2026-05-06字幕总结) |
| Hochreiter & Schmidhuber (1997) | "Long Short-Term Memory" 原始论文 |
| Cho et al. (2014) | "Learning Phrase Representations using RNN Encoder-Decoder" |
| Mikolov et al. (2013) | Word2Vec,Google |
| Vaswani et al. (2017) | "Attention Is All You Need",Google Brain |
报告生成时间:2026-05-06 综合素材:video_summary.md(城市视角科普)+ rnn_research.md(技术深度资料)