# AI 生成图片/视频:算法发展史 > 整理时间: 2026-05-06 --- ## 一、生成模型的基石问题 让 AI「凭空」生成图片或视频,本质上是在解决一个核心问题:**如何从随机噪声中还原出有意义的信号?** 这个问题的解决路径经历了多条技术路线的迭代,每条路线都在不断解决前人的缺陷。 --- ## 二、VAE(变分自编码器)— 潜空间的开创者 ### 背景 2013 年,Kingma & Welling 提出了 VAE。核心思路是:让模型学习一个光滑的**潜空间**(latent space),在这个空间里,任意两点之间的插值都能产生有意义的过渡图像。 ### 算法原理 - **编码器**:将图片压缩成一个低维潜向量 - **潜空间约束**:强迫潜向量服从标准正态分布(KL 散度正则化) - **解码器**:从潜向量还原图片 ### 前人问题 vs 解决 | 问题 | VAE 的解法 | |------|-----------| | 传统自编码器潜空间不光滑 | KL 散度约束使潜空间连续 | | 无法生成新图片 | 从正态分布采样潜向量即可生成 | ### 遗留问题 - 重建图片**模糊**(收敛到均值) - 后续出现了 β-VAE、PixelVAE 等改进版本 --- ## 三、GAN(生成对抗网络)— 对抗博弈的诞生 ### 背景 2014 年,Ian Goodfellow 提出了 GAN,被认为是生成式 AI 的重大突破。 ### 算法原理 - **生成器(G)**:从随机噪声生成假图片 - **判别器(D)**:判断图片是真实还是生成 - 两者对抗训练:D 越来越强,G 也越来越能骗过 D ### 关键里程碑 | 年份 | 模型 | 贡献 | |------|------|------| | 2015 | DCGAN | 首次将卷积层用于 GAN,生成质量大幅提升 | | 2017 | WGAN/WGAN-GP | 解决训练不稳定、模式崩溃(mode collapse)问题 | | 2017 | Progressive GAN | 渐进式增大分辨率,从 1024×1024 生成高清人脸 | | 2018 | StyleGAN | 引入风格迁移机制,潜空间可操控性大幅提升 | | 2020 | StyleGAN2 | 改进架构,消除伪影,成为人脸生成的标准 | ### 前人问题 vs 解决 | 问题 | GAN 的解法 | |------|-----------| | VAE 生成的图片模糊 | GAN 的对抗训练生成更清晰、更锐利的图片 | | 潜空间不可操控 | StyleGAN 的风格向量支持独立控制不同层级的特征 | ### 遗留问题 - **模式崩溃(Mode Collapse)**:生成器只学会生成几种模式,缺乏多样性 - **训练不稳定**:需要精心平衡 G 和 D 的训练节奏 - **无显式似然**:无法计算生成图片的概率 --- ## 四、Normalizing Flows(可逆流模型) ### 背景 2014 年 RealNVP(Dinh et al.),2018 年 Glow 进一步发展。 ### 算法原理 通过一系列**可逆变换**(invertible transformations),将简单分布转换为复杂分布。每一步都可精确计算 log-likelihood。 ### 优势 - 精确的密度估计 - 可逆推理 ### 劣势 - 计算开销大,必须满足严格的可逆性约束 - 逐渐被扩散模型超越 --- ## 五、自回归模型(Autoregressive Models)— 离散 token 的力量 ### 背景 PixelCNN(2016)开始用自回归方式逐像素生成图片,但速度极慢。 ### 关键突破:离散潜空间 2019 年 VQ-VAE 引入**离散token化**: - 图片被编码成离散的 token 序列 - 自回归模型在 token 序列上生成 2020 年 VQ-GAN 在此基础上加入 GAN 损失,生成质量大幅提升。 ### 前人问题 vs 解决 | 问题 | VQ-VAE/VQ-GAN 的解法 | |------|---------------------| | 连续潜空间计算复杂 | 离散 token 化使计算更高效 | | 生成质量不足 | GAN 判别器提升局部纹理质量 | ### 代表作 | 年份 | 模型 | 贡献 | |------|------|------| | 2021 | DALL·E | 12 亿参数 Transformer,CLIP 重排序,震撼业界 | | 2022 | Parti | Transformer 完全自回归,ViT-VQGAN tokenizer | --- ## 六、Diffusion Model(扩散模型)— 当下的主流范式 ### 核心原理 扩散模型分为两个对称过程: **前向过程(Forward / 加噪)**: - 对真实图片逐步添加高斯噪声 - 经过 T 步,变成纯噪声 - 模型在这个过程中学会"噪声是如何被添加的" **反向过程(Reverse / 去噪)**: - 从纯噪声出发 - 模型逐步预测并去除噪声 - 最终还原出清晰图片 ### DDPM(2020)— 理论基础 Jonathan Ho 等人证明了 DDPM 可以生成高质量图片,核心是学习一个去噪网络。 ### 关键突破时间线 | 年份 | 突破 | 意义 | |------|------|------| | 2021 | **Classifier-Free Guidance** | 无需单独训练分类器即可实现条件生成(文字控制),大幅提升文字-图片对齐 | | 2021 | **Latent Diffusion(LDM / Stable Diffusion)** | Rombach et al. 将扩散过程搬到潜空间(VAE 压缩),大幅降低计算开销 | | 2022 | **DiT(Diffusion Transformer)** | 用 Transformer 替代 U-Net 作为去噪网络,证实了 scaling law | | 2022 | **DALL·E 2(CLIP + Diffusion)** | CLIP 语义空间 + 扩散模型,组合式生成能力大幅提升 | ### 前人问题 vs 解决 | 问题 | Diffusion 的解法 | |------|----------------| | GAN 训练不稳定、模式崩溃 | 扩散模型的训练目标简单(预测噪声),极其稳定 | | 自回归模型慢 | 一次生成整张图(并行去噪),速度远快于逐像素自回归 | | GAN 潜空间难操控 | 扩散模型的引导机制(classifier guidance)精确控制生成方向 | ### 为什么 Diffusion 超越了 GAN? 1. **训练稳定性**:GAN 的对抗博弈容易崩溃,扩散模型的噪声预测是凸优化问题,天然稳定 2. **可扩展性**:DiT 证明了扩散模型同样遵循 scaling law,参数量越大效果越好 3. **多模态条件控制**:classifier-free guidance 让文字条件控制变得简单可靠 --- ## 七、Transformer 统一一切:DiT → 视频生成 ### ViT(Vision Transformer,2020) 将 Transformer 引入图像领域,把图片切成 16×16 的 patch,作为 token 输入 Transformer。 ### DiT(2022) 将 ViT 的 patch 思想与扩散模型结合: - 图片被切成 patch,patch 被嵌入为 token - 在潜空间中对噪声 patch 进行 Transformer 处理 - 证实了 scale 法则:大模型 + 大数据 = 更好的生成效果 ### 视频生成的关键:时空 patch 视频生成的突破在于将 2D patch 扩展到 3D 时空 patch: - **Sora(2024)**:将视频切成 spatiotemporal patches,在 DiT 架构下生成视频 - 每一帧既考虑空间关系(物体形状、光影),也考虑时间关系(运动轨迹) --- ## 八、视频生成:从伪影到工业级 ### 早期方案(2022-2023) | 模型 | 方法 | |------|------| | Imagen Video(Google) | 级联扩散模型,从低分辨率到高分辨率逐步生成 | | Make-A-Video | 用伪卷积层(pseudo-convolution)扩展 2D 扩散到时间维度 | | Stable Video Diffusion | 开源视频扩散模型,社区广泛使用 | ### 当前状态(2024-2025) - **Sora**:DiT 架构 + 时空 patch,成为视频生成的世界模拟器基准 - **Seedance(字节)**:双分支音画同步 + 时空耦合建模 - **Kling(快手)**:注重物理真实感的视频生成 - **Runway Gen-3 / Pika 2.0**:面向创作者的短视频生成工具 --- ## 九、最新技术:Flow Matching & 单步生成 ### Rectified Flow / Flow Matching(2022-2023) 传统扩散模型需要多步迭代(通常 20-50 步),速度慢。 Rectified Flow 将前向和反向路径变成**直线插值**,大幅简化采样轨迹。 ### Consistency Models & Lightning - **Consistency Models**:学习一步从噪声直接到生成 - **SDXL Turbo / LCM(Latent Consistency Models)**:实现了单步或极少步(如 1-4 步)生成,质量接近多步模型 ### 前人问题 vs 解决 | 问题 | Flow Matching / 单步生成的解法 | |------|------------------------------| | 多步去噪速度慢 | 直线轨迹 → 更少采样步骤 | | 单步生成质量差 | Consistency Models 通过蒸馏保留质量 | --- ## 十、总结:技术演进脉络 ``` 2013 VAE ── 生成式潜空间 ↓ 2014 GAN ── 对抗博弈,清晰图片 ↓ (同一时期) 2014 Normalizing Flows ── 精确密度估计 ↓ 2016-2020 Autoregressive ── Transformer + VQ-VAE ↓ 2020 DDPM ── 扩散模型理论基础 2021 LDM ── 潜空间扩散,效率突破 ↓ 2022 DiT ── Transformer + Diffusion,scale 法则 ↓ 2024 Sora ── 时空 patch,视频生成 ↓ 2024-2025 Flow Matching + 单步生成 ── 速度革命 ``` ### 核心范式转移 1. **GAN → Diffusion**:训练稳定性和可控性 2. **U-Net → Transformer**:Scaling law 成为可能 3. **像素空间 → 潜空间**:效率提升 100 倍以上 4. **静态图片 → 视频**:时空建模成为新的核心挑战 5. **纯视觉 → 多模态(音视频)**:Seedance 等开始音画联合生成 --- *本文档综合了 GAN、VAE、Normalizing Flow、Autoregressive、Diffusion、Transformer 等技术路线的发展历程,参考了 DDPM、LDM、DiT、Sora 等关键论文及行业资料。*