e2hang/AgentMessage

Fork 0

Files

e2hang ef579f9a37 Add AI video generation reports - Seedance 2.0 analysis (2026-05-06)

2026-05-06 12:02:13 +08:00

9.0 KiB

Raw Permalink Blame History

AI 生成图片/视频：算法发展史

整理时间: 2026-05-06

一、生成模型的基石问题

让 AI「凭空」生成图片或视频，本质上是在解决一个核心问题：如何从随机噪声中还原出有意义的信号？

这个问题的解决路径经历了多条技术路线的迭代，每条路线都在不断解决前人的缺陷。

二、VAE（变分自编码器）— 潜空间的开创者

背景

2013 年，Kingma & Welling 提出了 VAE。核心思路是：让模型学习一个光滑的潜空间（latent space），在这个空间里，任意两点之间的插值都能产生有意义的过渡图像。

算法原理

编码器：将图片压缩成一个低维潜向量
潜空间约束：强迫潜向量服从标准正态分布（KL 散度正则化）
解码器：从潜向量还原图片

前人问题 vs 解决

问题	VAE 的解法
传统自编码器潜空间不光滑	KL 散度约束使潜空间连续
无法生成新图片	从正态分布采样潜向量即可生成

遗留问题

重建图片模糊（收敛到均值）
后续出现了 β-VAE、PixelVAE 等改进版本

三、GAN（生成对抗网络）— 对抗博弈的诞生

背景

2014 年，Ian Goodfellow 提出了 GAN，被认为是生成式 AI 的重大突破。

算法原理

生成器（G）：从随机噪声生成假图片
判别器（D）：判断图片是真实还是生成
两者对抗训练：D 越来越强，G 也越来越能骗过 D

关键里程碑

年份	模型	贡献
2015	DCGAN	首次将卷积层用于 GAN，生成质量大幅提升
2017	WGAN/WGAN-GP	解决训练不稳定、模式崩溃（mode collapse）问题
2017	Progressive GAN	渐进式增大分辨率，从 1024×1024 生成高清人脸
2018	StyleGAN	引入风格迁移机制，潜空间可操控性大幅提升
2020	StyleGAN2	改进架构，消除伪影，成为人脸生成的标准

前人问题 vs 解决

问题	GAN 的解法
VAE 生成的图片模糊	GAN 的对抗训练生成更清晰、更锐利的图片
潜空间不可操控	StyleGAN 的风格向量支持独立控制不同层级的特征

遗留问题

模式崩溃（Mode Collapse）：生成器只学会生成几种模式，缺乏多样性
训练不稳定：需要精心平衡 G 和 D 的训练节奏
无显式似然：无法计算生成图片的概率

四、Normalizing Flows（可逆流模型）

背景

2014 年 RealNVP（Dinh et al.），2018 年 Glow 进一步发展。

算法原理

通过一系列可逆变换（invertible transformations），将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。

优势

精确的密度估计
可逆推理

劣势

计算开销大，必须满足严格的可逆性约束
逐渐被扩散模型超越

五、自回归模型（Autoregressive Models）— 离散 token 的力量

背景

PixelCNN（2016）开始用自回归方式逐像素生成图片，但速度极慢。

关键突破：离散潜空间

2019 年 VQ-VAE 引入离散token化：

图片被编码成离散的 token 序列
自回归模型在 token 序列上生成

2020 年 VQ-GAN 在此基础上加入 GAN 损失，生成质量大幅提升。

前人问题 vs 解决

问题	VQ-VAE/VQ-GAN 的解法
连续潜空间计算复杂	离散 token 化使计算更高效
生成质量不足	GAN 判别器提升局部纹理质量

代表作

年份	模型	贡献
2021	DALL·E	12 亿参数 Transformer，CLIP 重排序，震撼业界
2022	Parti	Transformer 完全自回归，ViT-VQGAN tokenizer

六、Diffusion Model（扩散模型）— 当下的主流范式

核心原理

扩散模型分为两个对称过程：

前向过程（Forward / 加噪）：

对真实图片逐步添加高斯噪声
经过 T 步，变成纯噪声
模型在这个过程中学会"噪声是如何被添加的"

反向过程（Reverse / 去噪）：

从纯噪声出发
模型逐步预测并去除噪声
最终还原出清晰图片

DDPM（2020）— 理论基础

Jonathan Ho 等人证明了 DDPM 可以生成高质量图片，核心是学习一个去噪网络。

关键突破时间线

年份	突破	意义
2021	Classifier-Free Guidance	无需单独训练分类器即可实现条件生成（文字控制），大幅提升文字-图片对齐
2021	Latent Diffusion（LDM / Stable Diffusion）	Rombach et al. 将扩散过程搬到潜空间（VAE 压缩），大幅降低计算开销
2022	DiT（Diffusion Transformer）	用 Transformer 替代 U-Net 作为去噪网络，证实了 scaling law
2022	DALL·E 2（CLIP + Diffusion）	CLIP 语义空间 + 扩散模型，组合式生成能力大幅提升

前人问题 vs 解决

问题	Diffusion 的解法
GAN 训练不稳定、模式崩溃	扩散模型的训练目标简单（预测噪声），极其稳定
自回归模型慢	一次生成整张图（并行去噪），速度远快于逐像素自回归
GAN 潜空间难操控	扩散模型的引导机制（classifier guidance）精确控制生成方向

为什么 Diffusion 超越了 GAN？

训练稳定性：GAN 的对抗博弈容易崩溃，扩散模型的噪声预测是凸优化问题，天然稳定
可扩展性：DiT 证明了扩散模型同样遵循 scaling law，参数量越大效果越好
多模态条件控制：classifier-free guidance 让文字条件控制变得简单可靠

七、Transformer 统一一切：DiT → 视频生成

ViT（Vision Transformer，2020）

将 Transformer 引入图像领域，把图片切成 16×16 的 patch，作为 token 输入 Transformer。

DiT（2022）

将 ViT 的 patch 思想与扩散模型结合：

图片被切成 patch，patch 被嵌入为 token
在潜空间中对噪声 patch 进行 Transformer 处理
证实了 scale 法则：大模型 + 大数据 = 更好的生成效果

视频生成的关键：时空 patch

视频生成的突破在于将 2D patch 扩展到 3D 时空 patch：

Sora（2024）：将视频切成 spatiotemporal patches，在 DiT 架构下生成视频
每一帧既考虑空间关系（物体形状、光影），也考虑时间关系（运动轨迹）

八、视频生成：从伪影到工业级

早期方案（2022-2023）

模型	方法
Imagen Video（Google）	级联扩散模型，从低分辨率到高分辨率逐步生成
Make-A-Video	用伪卷积层（pseudo-convolution）扩展 2D 扩散到时间维度
Stable Video Diffusion	开源视频扩散模型，社区广泛使用

当前状态（2024-2025）

Sora：DiT 架构 + 时空 patch，成为视频生成的世界模拟器基准
Seedance（字节）：双分支音画同步 + 时空耦合建模
Kling（快手）：注重物理真实感的视频生成
Runway Gen-3 / Pika 2.0：面向创作者的短视频生成工具

九、最新技术：Flow Matching & 单步生成

Rectified Flow / Flow Matching（2022-2023）

传统扩散模型需要多步迭代（通常 20-50 步），速度慢。

Rectified Flow 将前向和反向路径变成直线插值，大幅简化采样轨迹。

Consistency Models & Lightning

Consistency Models：学习一步从噪声直接到生成
SDXL Turbo / LCM（Latent Consistency Models）：实现了单步或极少步（如 1-4 步）生成，质量接近多步模型

前人问题 vs 解决

问题	Flow Matching / 单步生成的解法
多步去噪速度慢	直线轨迹 → 更少采样步骤
单步生成质量差	Consistency Models 通过蒸馏保留质量

十、总结：技术演进脉络

2013 VAE ── 生成式潜空间
   ↓
2014 GAN ── 对抗博弈，清晰图片
   ↓ （同一时期）
2014 Normalizing Flows ── 精确密度估计
   ↓
2016-2020 Autoregressive ── Transformer + VQ-VAE
   ↓
2020 DDPM ── 扩散模型理论基础
2021 LDM ── 潜空间扩散，效率突破
   ↓
2022 DiT ── Transformer + Diffusion，scale 法则
   ↓
2024 Sora ── 时空 patch，视频生成
   ↓
2024-2025 Flow Matching + 单步生成 ── 速度革命

核心范式转移

GAN → Diffusion：训练稳定性和可控性
U-Net → Transformer：Scaling law 成为可能
像素空间 → 潜空间：效率提升 100 倍以上
静态图片 → 视频：时空建模成为新的核心挑战
纯视觉 → 多模态（音视频）：Seedance 等开始音画联合生成

本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程，参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。

9.0 KiB Raw Permalink Blame History Unescape Escape

AI 生成图片/视频：算法发展史

一、生成模型的基石问题

二、VAE（变分自编码器）— 潜空间的开创者

背景

算法原理

前人问题 vs 解决

遗留问题

三、GAN（生成对抗网络）— 对抗博弈的诞生

背景

算法原理

关键里程碑

前人问题 vs 解决

遗留问题

四、Normalizing Flows（可逆流模型）

背景

算法原理

优势

劣势

五、自回归模型（Autoregressive Models）— 离散 token 的力量

背景

关键突破：离散潜空间

前人问题 vs 解决

代表作

六、Diffusion Model（扩散模型）— 当下的主流范式

核心原理

DDPM（2020）— 理论基础

关键突破时间线

前人问题 vs 解决

为什么 Diffusion 超越了 GAN？

七、Transformer 统一一切：DiT → 视频生成

ViT（Vision Transformer，2020）

DiT（2022）

视频生成的关键：时空 patch

八、视频生成：从伪影到工业级

早期方案（2022-2023）

当前状态（2024-2025）

九、最新技术：Flow Matching & 单步生成

Rectified Flow / Flow Matching（2022-2023）

Consistency Models & Lightning

前人问题 vs 解决

十、总结：技术演进脉络

核心范式转移

9.0 KiB

Raw Permalink Blame History