9.0 KiB
AI 生成图片/视频:算法发展史
整理时间: 2026-05-06
一、生成模型的基石问题
让 AI「凭空」生成图片或视频,本质上是在解决一个核心问题:如何从随机噪声中还原出有意义的信号?
这个问题的解决路径经历了多条技术路线的迭代,每条路线都在不断解决前人的缺陷。
二、VAE(变分自编码器)— 潜空间的开创者
背景
2013 年,Kingma & Welling 提出了 VAE。核心思路是:让模型学习一个光滑的潜空间(latent space),在这个空间里,任意两点之间的插值都能产生有意义的过渡图像。
算法原理
- 编码器:将图片压缩成一个低维潜向量
- 潜空间约束:强迫潜向量服从标准正态分布(KL 散度正则化)
- 解码器:从潜向量还原图片
前人问题 vs 解决
| 问题 | VAE 的解法 |
|---|---|
| 传统自编码器潜空间不光滑 | KL 散度约束使潜空间连续 |
| 无法生成新图片 | 从正态分布采样潜向量即可生成 |
遗留问题
- 重建图片模糊(收敛到均值)
- 后续出现了 β-VAE、PixelVAE 等改进版本
三、GAN(生成对抗网络)— 对抗博弈的诞生
背景
2014 年,Ian Goodfellow 提出了 GAN,被认为是生成式 AI 的重大突破。
算法原理
- 生成器(G):从随机噪声生成假图片
- 判别器(D):判断图片是真实还是生成
- 两者对抗训练:D 越来越强,G 也越来越能骗过 D
关键里程碑
| 年份 | 模型 | 贡献 |
|---|---|---|
| 2015 | DCGAN | 首次将卷积层用于 GAN,生成质量大幅提升 |
| 2017 | WGAN/WGAN-GP | 解决训练不稳定、模式崩溃(mode collapse)问题 |
| 2017 | Progressive GAN | 渐进式增大分辨率,从 1024×1024 生成高清人脸 |
| 2018 | StyleGAN | 引入风格迁移机制,潜空间可操控性大幅提升 |
| 2020 | StyleGAN2 | 改进架构,消除伪影,成为人脸生成的标准 |
前人问题 vs 解决
| 问题 | GAN 的解法 |
|---|---|
| VAE 生成的图片模糊 | GAN 的对抗训练生成更清晰、更锐利的图片 |
| 潜空间不可操控 | StyleGAN 的风格向量支持独立控制不同层级的特征 |
遗留问题
- 模式崩溃(Mode Collapse):生成器只学会生成几种模式,缺乏多样性
- 训练不稳定:需要精心平衡 G 和 D 的训练节奏
- 无显式似然:无法计算生成图片的概率
四、Normalizing Flows(可逆流模型)
背景
2014 年 RealNVP(Dinh et al.),2018 年 Glow 进一步发展。
算法原理
通过一系列可逆变换(invertible transformations),将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。
优势
- 精确的密度估计
- 可逆推理
劣势
- 计算开销大,必须满足严格的可逆性约束
- 逐渐被扩散模型超越
五、自回归模型(Autoregressive Models)— 离散 token 的力量
背景
PixelCNN(2016)开始用自回归方式逐像素生成图片,但速度极慢。
关键突破:离散潜空间
2019 年 VQ-VAE 引入离散token化:
- 图片被编码成离散的 token 序列
- 自回归模型在 token 序列上生成
2020 年 VQ-GAN 在此基础上加入 GAN 损失,生成质量大幅提升。
前人问题 vs 解决
| 问题 | VQ-VAE/VQ-GAN 的解法 |
|---|---|
| 连续潜空间计算复杂 | 离散 token 化使计算更高效 |
| 生成质量不足 | GAN 判别器提升局部纹理质量 |
代表作
| 年份 | 模型 | 贡献 |
|---|---|---|
| 2021 | DALL·E | 12 亿参数 Transformer,CLIP 重排序,震撼业界 |
| 2022 | Parti | Transformer 完全自回归,ViT-VQGAN tokenizer |
六、Diffusion Model(扩散模型)— 当下的主流范式
核心原理
扩散模型分为两个对称过程:
前向过程(Forward / 加噪):
- 对真实图片逐步添加高斯噪声
- 经过 T 步,变成纯噪声
- 模型在这个过程中学会"噪声是如何被添加的"
反向过程(Reverse / 去噪):
- 从纯噪声出发
- 模型逐步预测并去除噪声
- 最终还原出清晰图片
DDPM(2020)— 理论基础
Jonathan Ho 等人证明了 DDPM 可以生成高质量图片,核心是学习一个去噪网络。
关键突破时间线
| 年份 | 突破 | 意义 |
|---|---|---|
| 2021 | Classifier-Free Guidance | 无需单独训练分类器即可实现条件生成(文字控制),大幅提升文字-图片对齐 |
| 2021 | Latent Diffusion(LDM / Stable Diffusion) | Rombach et al. 将扩散过程搬到潜空间(VAE 压缩),大幅降低计算开销 |
| 2022 | DiT(Diffusion Transformer) | 用 Transformer 替代 U-Net 作为去噪网络,证实了 scaling law |
| 2022 | DALL·E 2(CLIP + Diffusion) | CLIP 语义空间 + 扩散模型,组合式生成能力大幅提升 |
前人问题 vs 解决
| 问题 | Diffusion 的解法 |
|---|---|
| GAN 训练不稳定、模式崩溃 | 扩散模型的训练目标简单(预测噪声),极其稳定 |
| 自回归模型慢 | 一次生成整张图(并行去噪),速度远快于逐像素自回归 |
| GAN 潜空间难操控 | 扩散模型的引导机制(classifier guidance)精确控制生成方向 |
为什么 Diffusion 超越了 GAN?
- 训练稳定性:GAN 的对抗博弈容易崩溃,扩散模型的噪声预测是凸优化问题,天然稳定
- 可扩展性:DiT 证明了扩散模型同样遵循 scaling law,参数量越大效果越好
- 多模态条件控制:classifier-free guidance 让文字条件控制变得简单可靠
七、Transformer 统一一切:DiT → 视频生成
ViT(Vision Transformer,2020)
将 Transformer 引入图像领域,把图片切成 16×16 的 patch,作为 token 输入 Transformer。
DiT(2022)
将 ViT 的 patch 思想与扩散模型结合:
- 图片被切成 patch,patch 被嵌入为 token
- 在潜空间中对噪声 patch 进行 Transformer 处理
- 证实了 scale 法则:大模型 + 大数据 = 更好的生成效果
视频生成的关键:时空 patch
视频生成的突破在于将 2D patch 扩展到 3D 时空 patch:
- Sora(2024):将视频切成 spatiotemporal patches,在 DiT 架构下生成视频
- 每一帧既考虑空间关系(物体形状、光影),也考虑时间关系(运动轨迹)
八、视频生成:从伪影到工业级
早期方案(2022-2023)
| 模型 | 方法 |
|---|---|
| Imagen Video(Google) | 级联扩散模型,从低分辨率到高分辨率逐步生成 |
| Make-A-Video | 用伪卷积层(pseudo-convolution)扩展 2D 扩散到时间维度 |
| Stable Video Diffusion | 开源视频扩散模型,社区广泛使用 |
当前状态(2024-2025)
- Sora:DiT 架构 + 时空 patch,成为视频生成的世界模拟器基准
- Seedance(字节):双分支音画同步 + 时空耦合建模
- Kling(快手):注重物理真实感的视频生成
- Runway Gen-3 / Pika 2.0:面向创作者的短视频生成工具
九、最新技术:Flow Matching & 单步生成
Rectified Flow / Flow Matching(2022-2023)
传统扩散模型需要多步迭代(通常 20-50 步),速度慢。
Rectified Flow 将前向和反向路径变成直线插值,大幅简化采样轨迹。
Consistency Models & Lightning
- Consistency Models:学习一步从噪声直接到生成
- SDXL Turbo / LCM(Latent Consistency Models):实现了单步或极少步(如 1-4 步)生成,质量接近多步模型
前人问题 vs 解决
| 问题 | Flow Matching / 单步生成的解法 |
|---|---|
| 多步去噪速度慢 | 直线轨迹 → 更少采样步骤 |
| 单步生成质量差 | Consistency Models 通过蒸馏保留质量 |
十、总结:技术演进脉络
2013 VAE ── 生成式潜空间
↓
2014 GAN ── 对抗博弈,清晰图片
↓ (同一时期)
2014 Normalizing Flows ── 精确密度估计
↓
2016-2020 Autoregressive ── Transformer + VQ-VAE
↓
2020 DDPM ── 扩散模型理论基础
2021 LDM ── 潜空间扩散,效率突破
↓
2022 DiT ── Transformer + Diffusion,scale 法则
↓
2024 Sora ── 时空 patch,视频生成
↓
2024-2025 Flow Matching + 单步生成 ── 速度革命
核心范式转移
- GAN → Diffusion:训练稳定性和可控性
- U-Net → Transformer:Scaling law 成为可能
- 像素空间 → 潜空间:效率提升 100 倍以上
- 静态图片 → 视频:时空建模成为新的核心挑战
- 纯视觉 → 多模态(音视频):Seedance 等开始音画联合生成
本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程,参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。