Files
AgentMessage/Video-Generation/02-Algorithm-History.md

9.0 KiB
Raw Permalink Blame History

AI 生成图片/视频:算法发展史

整理时间: 2026-05-06


一、生成模型的基石问题

让 AI「凭空」生成图片或视频本质上是在解决一个核心问题如何从随机噪声中还原出有意义的信号?

这个问题的解决路径经历了多条技术路线的迭代,每条路线都在不断解决前人的缺陷。


二、VAE变分自编码器— 潜空间的开创者

背景

2013 年Kingma & Welling 提出了 VAE。核心思路是让模型学习一个光滑的潜空间latent space在这个空间里任意两点之间的插值都能产生有意义的过渡图像。

算法原理

  • 编码器:将图片压缩成一个低维潜向量
  • 潜空间约束强迫潜向量服从标准正态分布KL 散度正则化)
  • 解码器:从潜向量还原图片

前人问题 vs 解决

问题 VAE 的解法
传统自编码器潜空间不光滑 KL 散度约束使潜空间连续
无法生成新图片 从正态分布采样潜向量即可生成

遗留问题

  • 重建图片模糊(收敛到均值)
  • 后续出现了 β-VAE、PixelVAE 等改进版本

三、GAN生成对抗网络— 对抗博弈的诞生

背景

2014 年Ian Goodfellow 提出了 GAN被认为是生成式 AI 的重大突破。

算法原理

  • 生成器G:从随机噪声生成假图片
  • 判别器D:判断图片是真实还是生成
  • 两者对抗训练D 越来越强G 也越来越能骗过 D

关键里程碑

年份 模型 贡献
2015 DCGAN 首次将卷积层用于 GAN生成质量大幅提升
2017 WGAN/WGAN-GP 解决训练不稳定、模式崩溃mode collapse问题
2017 Progressive GAN 渐进式增大分辨率,从 1024×1024 生成高清人脸
2018 StyleGAN 引入风格迁移机制,潜空间可操控性大幅提升
2020 StyleGAN2 改进架构,消除伪影,成为人脸生成的标准

前人问题 vs 解决

问题 GAN 的解法
VAE 生成的图片模糊 GAN 的对抗训练生成更清晰、更锐利的图片
潜空间不可操控 StyleGAN 的风格向量支持独立控制不同层级的特征

遗留问题

  • 模式崩溃Mode Collapse:生成器只学会生成几种模式,缺乏多样性
  • 训练不稳定:需要精心平衡 G 和 D 的训练节奏
  • 无显式似然:无法计算生成图片的概率

四、Normalizing Flows可逆流模型

背景

2014 年 RealNVPDinh et al.2018 年 Glow 进一步发展。

算法原理

通过一系列可逆变换invertible transformations将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。

优势

  • 精确的密度估计
  • 可逆推理

劣势

  • 计算开销大,必须满足严格的可逆性约束
  • 逐渐被扩散模型超越

五、自回归模型Autoregressive Models— 离散 token 的力量

背景

PixelCNN2016开始用自回归方式逐像素生成图片但速度极慢。

关键突破:离散潜空间

2019 年 VQ-VAE 引入离散token化

  • 图片被编码成离散的 token 序列
  • 自回归模型在 token 序列上生成

2020 年 VQ-GAN 在此基础上加入 GAN 损失,生成质量大幅提升。

前人问题 vs 解决

问题 VQ-VAE/VQ-GAN 的解法
连续潜空间计算复杂 离散 token 化使计算更高效
生成质量不足 GAN 判别器提升局部纹理质量

代表作

年份 模型 贡献
2021 DALL·E 12 亿参数 TransformerCLIP 重排序,震撼业界
2022 Parti Transformer 完全自回归ViT-VQGAN tokenizer

六、Diffusion Model扩散模型— 当下的主流范式

核心原理

扩散模型分为两个对称过程:

前向过程Forward / 加噪)

  • 对真实图片逐步添加高斯噪声
  • 经过 T 步,变成纯噪声
  • 模型在这个过程中学会"噪声是如何被添加的"

反向过程Reverse / 去噪)

  • 从纯噪声出发
  • 模型逐步预测并去除噪声
  • 最终还原出清晰图片

DDPM2020— 理论基础

Jonathan Ho 等人证明了 DDPM 可以生成高质量图片,核心是学习一个去噪网络。

关键突破时间线

年份 突破 意义
2021 Classifier-Free Guidance 无需单独训练分类器即可实现条件生成(文字控制),大幅提升文字-图片对齐
2021 Latent DiffusionLDM / Stable Diffusion Rombach et al. 将扩散过程搬到潜空间VAE 压缩),大幅降低计算开销
2022 DiTDiffusion Transformer 用 Transformer 替代 U-Net 作为去噪网络,证实了 scaling law
2022 DALL·E 2CLIP + Diffusion CLIP 语义空间 + 扩散模型,组合式生成能力大幅提升

前人问题 vs 解决

问题 Diffusion 的解法
GAN 训练不稳定、模式崩溃 扩散模型的训练目标简单(预测噪声),极其稳定
自回归模型慢 一次生成整张图(并行去噪),速度远快于逐像素自回归
GAN 潜空间难操控 扩散模型的引导机制classifier guidance精确控制生成方向

为什么 Diffusion 超越了 GAN

  1. 训练稳定性GAN 的对抗博弈容易崩溃,扩散模型的噪声预测是凸优化问题,天然稳定
  2. 可扩展性DiT 证明了扩散模型同样遵循 scaling law参数量越大效果越好
  3. 多模态条件控制classifier-free guidance 让文字条件控制变得简单可靠

七、Transformer 统一一切DiT → 视频生成

ViTVision Transformer2020

将 Transformer 引入图像领域,把图片切成 16×16 的 patch作为 token 输入 Transformer。

DiT2022

将 ViT 的 patch 思想与扩散模型结合:

  • 图片被切成 patchpatch 被嵌入为 token
  • 在潜空间中对噪声 patch 进行 Transformer 处理
  • 证实了 scale 法则:大模型 + 大数据 = 更好的生成效果

视频生成的关键:时空 patch

视频生成的突破在于将 2D patch 扩展到 3D 时空 patch

  • Sora2024:将视频切成 spatiotemporal patches在 DiT 架构下生成视频
  • 每一帧既考虑空间关系(物体形状、光影),也考虑时间关系(运动轨迹)

八、视频生成:从伪影到工业级

早期方案2022-2023

模型 方法
Imagen VideoGoogle 级联扩散模型,从低分辨率到高分辨率逐步生成
Make-A-Video 用伪卷积层pseudo-convolution扩展 2D 扩散到时间维度
Stable Video Diffusion 开源视频扩散模型,社区广泛使用

当前状态2024-2025

  • SoraDiT 架构 + 时空 patch成为视频生成的世界模拟器基准
  • Seedance字节:双分支音画同步 + 时空耦合建模
  • Kling快手:注重物理真实感的视频生成
  • Runway Gen-3 / Pika 2.0:面向创作者的短视频生成工具

九、最新技术Flow Matching & 单步生成

Rectified Flow / Flow Matching2022-2023

传统扩散模型需要多步迭代(通常 20-50 步),速度慢。

Rectified Flow 将前向和反向路径变成直线插值,大幅简化采样轨迹。

Consistency Models & Lightning

  • Consistency Models:学习一步从噪声直接到生成
  • SDXL Turbo / LCMLatent Consistency Models:实现了单步或极少步(如 1-4 步)生成,质量接近多步模型

前人问题 vs 解决

问题 Flow Matching / 单步生成的解法
多步去噪速度慢 直线轨迹 → 更少采样步骤
单步生成质量差 Consistency Models 通过蒸馏保留质量

十、总结:技术演进脉络

2013 VAE ── 生成式潜空间
   ↓
2014 GAN ── 对抗博弈,清晰图片
   ↓ (同一时期)
2014 Normalizing Flows ── 精确密度估计
   ↓
2016-2020 Autoregressive ── Transformer + VQ-VAE
   ↓
2020 DDPM ── 扩散模型理论基础
2021 LDM ── 潜空间扩散,效率突破
   ↓
2022 DiT ── Transformer + Diffusionscale 法则
   ↓
2024 Sora ── 时空 patch视频生成
   ↓
2024-2025 Flow Matching + 单步生成 ── 速度革命

核心范式转移

  1. GAN → Diffusion:训练稳定性和可控性
  2. U-Net → TransformerScaling law 成为可能
  3. 像素空间 → 潜空间:效率提升 100 倍以上
  4. 静态图片 → 视频:时空建模成为新的核心挑战
  5. 纯视觉 → 多模态(音视频)Seedance 等开始音画联合生成

本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程,参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。