# AI 生成图片/视频：算法发展史

> 整理时间: 2026-05-06

---

## 一、生成模型的基石问题

让 AI「凭空」生成图片或视频，本质上是在解决一个核心问题：**如何从随机噪声中还原出有意义的信号？**

这个问题的解决路径经历了多条技术路线的迭代，每条路线都在不断解决前人的缺陷。

---

## 二、VAE（变分自编码器）— 潜空间的开创者

### 背景

2013 年，Kingma & Welling 提出了 VAE。核心思路是：让模型学习一个光滑的**潜空间**（latent space），在这个空间里，任意两点之间的插值都能产生有意义的过渡图像。

### 算法原理

- **编码器**：将图片压缩成一个低维潜向量
- **潜空间约束**：强迫潜向量服从标准正态分布（KL 散度正则化）
- **解码器**：从潜向量还原图片

### 前人问题 vs 解决

| 问题 | VAE 的解法 |
|------|-----------|
| 传统自编码器潜空间不光滑 | KL 散度约束使潜空间连续 |
| 无法生成新图片 | 从正态分布采样潜向量即可生成 |

### 遗留问题

- 重建图片**模糊**（收敛到均值）
- 后续出现了 β-VAE、PixelVAE 等改进版本

---

## 三、GAN（生成对抗网络）— 对抗博弈的诞生

### 背景

2014 年，Ian Goodfellow 提出了 GAN，被认为是生成式 AI 的重大突破。

### 算法原理

- **生成器（G）**：从随机噪声生成假图片
- **判别器（D）**：判断图片是真实还是生成
- 两者对抗训练：D 越来越强，G 也越来越能骗过 D

### 关键里程碑

| 年份 | 模型 | 贡献 |
|------|------|------|
| 2015 | DCGAN | 首次将卷积层用于 GAN，生成质量大幅提升 |
| 2017 | WGAN/WGAN-GP | 解决训练不稳定、模式崩溃（mode collapse）问题 |
| 2017 | Progressive GAN | 渐进式增大分辨率，从 1024×1024 生成高清人脸 |
| 2018 | StyleGAN | 引入风格迁移机制，潜空间可操控性大幅提升 |
| 2020 | StyleGAN2 | 改进架构，消除伪影，成为人脸生成的标准 |

### 前人问题 vs 解决

| 问题 | GAN 的解法 |
|------|-----------|
| VAE 生成的图片模糊 | GAN 的对抗训练生成更清晰、更锐利的图片 |
| 潜空间不可操控 | StyleGAN 的风格向量支持独立控制不同层级的特征 |

### 遗留问题

- **模式崩溃（Mode Collapse）**：生成器只学会生成几种模式，缺乏多样性
- **训练不稳定**：需要精心平衡 G 和 D 的训练节奏
- **无显式似然**：无法计算生成图片的概率

---

## 四、Normalizing Flows（可逆流模型）

### 背景

2014 年 RealNVP（Dinh et al.），2018 年 Glow 进一步发展。

### 算法原理

通过一系列**可逆变换**（invertible transformations），将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。

### 优势

- 精确的密度估计
- 可逆推理

### 劣势

- 计算开销大，必须满足严格的可逆性约束
- 逐渐被扩散模型超越

---

## 五、自回归模型（Autoregressive Models）— 离散 token 的力量

### 背景

PixelCNN（2016）开始用自回归方式逐像素生成图片，但速度极慢。

### 关键突破：离散潜空间

2019 年 VQ-VAE 引入**离散token化**：
- 图片被编码成离散的 token 序列
- 自回归模型在 token 序列上生成

2020 年 VQ-GAN 在此基础上加入 GAN 损失，生成质量大幅提升。

### 前人问题 vs 解决

| 问题 | VQ-VAE/VQ-GAN 的解法 |
|------|---------------------|
| 连续潜空间计算复杂 | 离散 token 化使计算更高效 |
| 生成质量不足 | GAN 判别器提升局部纹理质量 |

### 代表作

| 年份 | 模型 | 贡献 |
|------|------|------|
| 2021 | DALL·E | 12 亿参数 Transformer，CLIP 重排序，震撼业界 |
| 2022 | Parti | Transformer 完全自回归，ViT-VQGAN tokenizer |

---

## 六、Diffusion Model（扩散模型）— 当下的主流范式

### 核心原理

扩散模型分为两个对称过程：

**前向过程（Forward / 加噪）**：
- 对真实图片逐步添加高斯噪声
- 经过 T 步，变成纯噪声
- 模型在这个过程中学会"噪声是如何被添加的"

**反向过程（Reverse / 去噪）**：
- 从纯噪声出发
- 模型逐步预测并去除噪声
- 最终还原出清晰图片

### DDPM（2020）— 理论基础

Jonathan Ho 等人证明了 DDPM 可以生成高质量图片，核心是学习一个去噪网络。

### 关键突破时间线

| 年份 | 突破 | 意义 |
|------|------|------|
| 2021 | **Classifier-Free Guidance** | 无需单独训练分类器即可实现条件生成（文字控制），大幅提升文字-图片对齐 |
| 2021 | **Latent Diffusion（LDM / Stable Diffusion）** | Rombach et al. 将扩散过程搬到潜空间（VAE 压缩），大幅降低计算开销 |
| 2022 | **DiT（Diffusion Transformer）** | 用 Transformer 替代 U-Net 作为去噪网络，证实了 scaling law |
| 2022 | **DALL·E 2（CLIP + Diffusion）** | CLIP 语义空间 + 扩散模型，组合式生成能力大幅提升 |

### 前人问题 vs 解决

| 问题 | Diffusion 的解法 |
|------|----------------|
| GAN 训练不稳定、模式崩溃 | 扩散模型的训练目标简单（预测噪声），极其稳定 |
| 自回归模型慢 | 一次生成整张图（并行去噪），速度远快于逐像素自回归 |
| GAN 潜空间难操控 | 扩散模型的引导机制（classifier guidance）精确控制生成方向 |

### 为什么 Diffusion 超越了 GAN？

1. **训练稳定性**：GAN 的对抗博弈容易崩溃，扩散模型的噪声预测是凸优化问题，天然稳定
2. **可扩展性**：DiT 证明了扩散模型同样遵循 scaling law，参数量越大效果越好
3. **多模态条件控制**：classifier-free guidance 让文字条件控制变得简单可靠

---

## 七、Transformer 统一一切：DiT → 视频生成

### ViT（Vision Transformer，2020）

将 Transformer 引入图像领域，把图片切成 16×16 的 patch，作为 token 输入 Transformer。

### DiT（2022）

将 ViT 的 patch 思想与扩散模型结合：
- 图片被切成 patch，patch 被嵌入为 token
- 在潜空间中对噪声 patch 进行 Transformer 处理
- 证实了 scale 法则：大模型 + 大数据 = 更好的生成效果

### 视频生成的关键：时空 patch

视频生成的突破在于将 2D patch 扩展到 3D 时空 patch：
- **Sora（2024）**：将视频切成 spatiotemporal patches，在 DiT 架构下生成视频
- 每一帧既考虑空间关系（物体形状、光影），也考虑时间关系（运动轨迹）

---

## 八、视频生成：从伪影到工业级

### 早期方案（2022-2023）

| 模型 | 方法 |
|------|------|
| Imagen Video（Google） | 级联扩散模型，从低分辨率到高分辨率逐步生成 |
| Make-A-Video | 用伪卷积层（pseudo-convolution）扩展 2D 扩散到时间维度 |
| Stable Video Diffusion | 开源视频扩散模型，社区广泛使用 |

### 当前状态（2024-2025）

- **Sora**：DiT 架构 + 时空 patch，成为视频生成的世界模拟器基准
- **Seedance（字节）**：双分支音画同步 + 时空耦合建模
- **Kling（快手）**：注重物理真实感的视频生成
- **Runway Gen-3 / Pika 2.0**：面向创作者的短视频生成工具

---

## 九、最新技术：Flow Matching & 单步生成

### Rectified Flow / Flow Matching（2022-2023）

传统扩散模型需要多步迭代（通常 20-50 步），速度慢。

Rectified Flow 将前向和反向路径变成**直线插值**，大幅简化采样轨迹。

### Consistency Models & Lightning

- **Consistency Models**：学习一步从噪声直接到生成
- **SDXL Turbo / LCM（Latent Consistency Models）**：实现了单步或极少步（如 1-4 步）生成，质量接近多步模型

### 前人问题 vs 解决

| 问题 | Flow Matching / 单步生成的解法 |
|------|------------------------------|
| 多步去噪速度慢 | 直线轨迹 → 更少采样步骤 |
| 单步生成质量差 | Consistency Models 通过蒸馏保留质量 |

---

## 十、总结：技术演进脉络

```
2013 VAE ── 生成式潜空间
   ↓
2014 GAN ── 对抗博弈，清晰图片
   ↓ （同一时期）
2014 Normalizing Flows ── 精确密度估计
   ↓
2016-2020 Autoregressive ── Transformer + VQ-VAE
   ↓
2020 DDPM ── 扩散模型理论基础
2021 LDM ── 潜空间扩散，效率突破
   ↓
2022 DiT ── Transformer + Diffusion，scale 法则
   ↓
2024 Sora ── 时空 patch，视频生成
   ↓
2024-2025 Flow Matching + 单步生成 ── 速度革命
```

### 核心范式转移

1. **GAN → Diffusion**：训练稳定性和可控性
2. **U-Net → Transformer**：Scaling law 成为可能
3. **像素空间 → 潜空间**：效率提升 100 倍以上
4. **静态图片 → 视频**：时空建模成为新的核心挑战
5. **纯视觉 → 多模态（音视频）**：Seedance 等开始音画联合生成

---

*本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程，参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。*