269 lines
9.0 KiB
Markdown
269 lines
9.0 KiB
Markdown
# AI 生成图片/视频:算法发展史
|
||
|
||
> 整理时间: 2026-05-06
|
||
|
||
---
|
||
|
||
## 一、生成模型的基石问题
|
||
|
||
让 AI「凭空」生成图片或视频,本质上是在解决一个核心问题:**如何从随机噪声中还原出有意义的信号?**
|
||
|
||
这个问题的解决路径经历了多条技术路线的迭代,每条路线都在不断解决前人的缺陷。
|
||
|
||
---
|
||
|
||
## 二、VAE(变分自编码器)— 潜空间的开创者
|
||
|
||
### 背景
|
||
|
||
2013 年,Kingma & Welling 提出了 VAE。核心思路是:让模型学习一个光滑的**潜空间**(latent space),在这个空间里,任意两点之间的插值都能产生有意义的过渡图像。
|
||
|
||
### 算法原理
|
||
|
||
- **编码器**:将图片压缩成一个低维潜向量
|
||
- **潜空间约束**:强迫潜向量服从标准正态分布(KL 散度正则化)
|
||
- **解码器**:从潜向量还原图片
|
||
|
||
### 前人问题 vs 解决
|
||
|
||
| 问题 | VAE 的解法 |
|
||
|------|-----------|
|
||
| 传统自编码器潜空间不光滑 | KL 散度约束使潜空间连续 |
|
||
| 无法生成新图片 | 从正态分布采样潜向量即可生成 |
|
||
|
||
### 遗留问题
|
||
|
||
- 重建图片**模糊**(收敛到均值)
|
||
- 后续出现了 β-VAE、PixelVAE 等改进版本
|
||
|
||
---
|
||
|
||
## 三、GAN(生成对抗网络)— 对抗博弈的诞生
|
||
|
||
### 背景
|
||
|
||
2014 年,Ian Goodfellow 提出了 GAN,被认为是生成式 AI 的重大突破。
|
||
|
||
### 算法原理
|
||
|
||
- **生成器(G)**:从随机噪声生成假图片
|
||
- **判别器(D)**:判断图片是真实还是生成
|
||
- 两者对抗训练:D 越来越强,G 也越来越能骗过 D
|
||
|
||
### 关键里程碑
|
||
|
||
| 年份 | 模型 | 贡献 |
|
||
|------|------|------|
|
||
| 2015 | DCGAN | 首次将卷积层用于 GAN,生成质量大幅提升 |
|
||
| 2017 | WGAN/WGAN-GP | 解决训练不稳定、模式崩溃(mode collapse)问题 |
|
||
| 2017 | Progressive GAN | 渐进式增大分辨率,从 1024×1024 生成高清人脸 |
|
||
| 2018 | StyleGAN | 引入风格迁移机制,潜空间可操控性大幅提升 |
|
||
| 2020 | StyleGAN2 | 改进架构,消除伪影,成为人脸生成的标准 |
|
||
|
||
### 前人问题 vs 解决
|
||
|
||
| 问题 | GAN 的解法 |
|
||
|------|-----------|
|
||
| VAE 生成的图片模糊 | GAN 的对抗训练生成更清晰、更锐利的图片 |
|
||
| 潜空间不可操控 | StyleGAN 的风格向量支持独立控制不同层级的特征 |
|
||
|
||
### 遗留问题
|
||
|
||
- **模式崩溃(Mode Collapse)**:生成器只学会生成几种模式,缺乏多样性
|
||
- **训练不稳定**:需要精心平衡 G 和 D 的训练节奏
|
||
- **无显式似然**:无法计算生成图片的概率
|
||
|
||
---
|
||
|
||
## 四、Normalizing Flows(可逆流模型)
|
||
|
||
### 背景
|
||
|
||
2014 年 RealNVP(Dinh et al.),2018 年 Glow 进一步发展。
|
||
|
||
### 算法原理
|
||
|
||
通过一系列**可逆变换**(invertible transformations),将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。
|
||
|
||
### 优势
|
||
|
||
- 精确的密度估计
|
||
- 可逆推理
|
||
|
||
### 劣势
|
||
|
||
- 计算开销大,必须满足严格的可逆性约束
|
||
- 逐渐被扩散模型超越
|
||
|
||
---
|
||
|
||
## 五、自回归模型(Autoregressive Models)— 离散 token 的力量
|
||
|
||
### 背景
|
||
|
||
PixelCNN(2016)开始用自回归方式逐像素生成图片,但速度极慢。
|
||
|
||
### 关键突破:离散潜空间
|
||
|
||
2019 年 VQ-VAE 引入**离散token化**:
|
||
- 图片被编码成离散的 token 序列
|
||
- 自回归模型在 token 序列上生成
|
||
|
||
2020 年 VQ-GAN 在此基础上加入 GAN 损失,生成质量大幅提升。
|
||
|
||
### 前人问题 vs 解决
|
||
|
||
| 问题 | VQ-VAE/VQ-GAN 的解法 |
|
||
|------|---------------------|
|
||
| 连续潜空间计算复杂 | 离散 token 化使计算更高效 |
|
||
| 生成质量不足 | GAN 判别器提升局部纹理质量 |
|
||
|
||
### 代表作
|
||
|
||
| 年份 | 模型 | 贡献 |
|
||
|------|------|------|
|
||
| 2021 | DALL·E | 12 亿参数 Transformer,CLIP 重排序,震撼业界 |
|
||
| 2022 | Parti | Transformer 完全自回归,ViT-VQGAN tokenizer |
|
||
|
||
---
|
||
|
||
## 六、Diffusion Model(扩散模型)— 当下的主流范式
|
||
|
||
### 核心原理
|
||
|
||
扩散模型分为两个对称过程:
|
||
|
||
**前向过程(Forward / 加噪)**:
|
||
- 对真实图片逐步添加高斯噪声
|
||
- 经过 T 步,变成纯噪声
|
||
- 模型在这个过程中学会"噪声是如何被添加的"
|
||
|
||
**反向过程(Reverse / 去噪)**:
|
||
- 从纯噪声出发
|
||
- 模型逐步预测并去除噪声
|
||
- 最终还原出清晰图片
|
||
|
||
### DDPM(2020)— 理论基础
|
||
|
||
Jonathan Ho 等人证明了 DDPM 可以生成高质量图片,核心是学习一个去噪网络。
|
||
|
||
### 关键突破时间线
|
||
|
||
| 年份 | 突破 | 意义 |
|
||
|------|------|------|
|
||
| 2021 | **Classifier-Free Guidance** | 无需单独训练分类器即可实现条件生成(文字控制),大幅提升文字-图片对齐 |
|
||
| 2021 | **Latent Diffusion(LDM / Stable Diffusion)** | Rombach et al. 将扩散过程搬到潜空间(VAE 压缩),大幅降低计算开销 |
|
||
| 2022 | **DiT(Diffusion Transformer)** | 用 Transformer 替代 U-Net 作为去噪网络,证实了 scaling law |
|
||
| 2022 | **DALL·E 2(CLIP + Diffusion)** | CLIP 语义空间 + 扩散模型,组合式生成能力大幅提升 |
|
||
|
||
### 前人问题 vs 解决
|
||
|
||
| 问题 | Diffusion 的解法 |
|
||
|------|----------------|
|
||
| GAN 训练不稳定、模式崩溃 | 扩散模型的训练目标简单(预测噪声),极其稳定 |
|
||
| 自回归模型慢 | 一次生成整张图(并行去噪),速度远快于逐像素自回归 |
|
||
| GAN 潜空间难操控 | 扩散模型的引导机制(classifier guidance)精确控制生成方向 |
|
||
|
||
### 为什么 Diffusion 超越了 GAN?
|
||
|
||
1. **训练稳定性**:GAN 的对抗博弈容易崩溃,扩散模型的噪声预测是凸优化问题,天然稳定
|
||
2. **可扩展性**:DiT 证明了扩散模型同样遵循 scaling law,参数量越大效果越好
|
||
3. **多模态条件控制**:classifier-free guidance 让文字条件控制变得简单可靠
|
||
|
||
---
|
||
|
||
## 七、Transformer 统一一切:DiT → 视频生成
|
||
|
||
### ViT(Vision Transformer,2020)
|
||
|
||
将 Transformer 引入图像领域,把图片切成 16×16 的 patch,作为 token 输入 Transformer。
|
||
|
||
### DiT(2022)
|
||
|
||
将 ViT 的 patch 思想与扩散模型结合:
|
||
- 图片被切成 patch,patch 被嵌入为 token
|
||
- 在潜空间中对噪声 patch 进行 Transformer 处理
|
||
- 证实了 scale 法则:大模型 + 大数据 = 更好的生成效果
|
||
|
||
### 视频生成的关键:时空 patch
|
||
|
||
视频生成的突破在于将 2D patch 扩展到 3D 时空 patch:
|
||
- **Sora(2024)**:将视频切成 spatiotemporal patches,在 DiT 架构下生成视频
|
||
- 每一帧既考虑空间关系(物体形状、光影),也考虑时间关系(运动轨迹)
|
||
|
||
---
|
||
|
||
## 八、视频生成:从伪影到工业级
|
||
|
||
### 早期方案(2022-2023)
|
||
|
||
| 模型 | 方法 |
|
||
|------|------|
|
||
| Imagen Video(Google) | 级联扩散模型,从低分辨率到高分辨率逐步生成 |
|
||
| Make-A-Video | 用伪卷积层(pseudo-convolution)扩展 2D 扩散到时间维度 |
|
||
| Stable Video Diffusion | 开源视频扩散模型,社区广泛使用 |
|
||
|
||
### 当前状态(2024-2025)
|
||
|
||
- **Sora**:DiT 架构 + 时空 patch,成为视频生成的世界模拟器基准
|
||
- **Seedance(字节)**:双分支音画同步 + 时空耦合建模
|
||
- **Kling(快手)**:注重物理真实感的视频生成
|
||
- **Runway Gen-3 / Pika 2.0**:面向创作者的短视频生成工具
|
||
|
||
---
|
||
|
||
## 九、最新技术:Flow Matching & 单步生成
|
||
|
||
### Rectified Flow / Flow Matching(2022-2023)
|
||
|
||
传统扩散模型需要多步迭代(通常 20-50 步),速度慢。
|
||
|
||
Rectified Flow 将前向和反向路径变成**直线插值**,大幅简化采样轨迹。
|
||
|
||
### Consistency Models & Lightning
|
||
|
||
- **Consistency Models**:学习一步从噪声直接到生成
|
||
- **SDXL Turbo / LCM(Latent Consistency Models)**:实现了单步或极少步(如 1-4 步)生成,质量接近多步模型
|
||
|
||
### 前人问题 vs 解决
|
||
|
||
| 问题 | Flow Matching / 单步生成的解法 |
|
||
|------|------------------------------|
|
||
| 多步去噪速度慢 | 直线轨迹 → 更少采样步骤 |
|
||
| 单步生成质量差 | Consistency Models 通过蒸馏保留质量 |
|
||
|
||
---
|
||
|
||
## 十、总结:技术演进脉络
|
||
|
||
```
|
||
2013 VAE ── 生成式潜空间
|
||
↓
|
||
2014 GAN ── 对抗博弈,清晰图片
|
||
↓ (同一时期)
|
||
2014 Normalizing Flows ── 精确密度估计
|
||
↓
|
||
2016-2020 Autoregressive ── Transformer + VQ-VAE
|
||
↓
|
||
2020 DDPM ── 扩散模型理论基础
|
||
2021 LDM ── 潜空间扩散,效率突破
|
||
↓
|
||
2022 DiT ── Transformer + Diffusion,scale 法则
|
||
↓
|
||
2024 Sora ── 时空 patch,视频生成
|
||
↓
|
||
2024-2025 Flow Matching + 单步生成 ── 速度革命
|
||
```
|
||
|
||
### 核心范式转移
|
||
|
||
1. **GAN → Diffusion**:训练稳定性和可控性
|
||
2. **U-Net → Transformer**:Scaling law 成为可能
|
||
3. **像素空间 → 潜空间**:效率提升 100 倍以上
|
||
4. **静态图片 → 视频**:时空建模成为新的核心挑战
|
||
5. **纯视觉 → 多模态(音视频)**:Seedance 等开始音画联合生成
|
||
|
||
---
|
||
|
||
*本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程,参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。*
|