93 lines
5.3 KiB
Markdown
93 lines
5.3 KiB
Markdown
# 【【城】10 分钟看懂 Seedance:AI 是怎么凭空生成一段逼真视频的?-哔哩哔哩】
|
||
|
||
> 来源: Bilibili(https://b23.tv/oKTaPQw)| 时长: 10:26 | 总结时间: 2026-05-06
|
||
|
||
---
|
||
|
||
## 总结
|
||
|
||
这是一期技术科普视频,UP 主(城)用浅显的语言拆解了字节跳动 **Seedance 2.0**(集梦 AI 视频生成大模型)背后的工作原理,以及它相比传统 AI 视频模型的突破点。
|
||
|
||
---
|
||
|
||
## 一、扩散模型(Diffusion)的基本原理
|
||
|
||
AI 生成视频的核心引擎是**扩散模型**,其工作机制分两个对称阶段:
|
||
|
||
### 1. 前向加噪(训练阶段)
|
||
|
||
给海量的真实视频/图片不断叠加高斯噪声,像素矩阵从有序逐渐变成纯随机乱码。AI 在这个过程中学会"噪声是如何被添加进去的"——即像素分布与噪声之间的映射关系,掌握了物体边缘概率梯度、光影变化统计规律等。
|
||
|
||
### 2. 反向去噪(生成阶段)
|
||
|
||
从一张纯随机噪声画布出发,用户输入文字指令后:
|
||
- 文本编码器将文字转化为数学向量
|
||
- AI 预测当前乱码中有多少像素是"多余的噪声"
|
||
- 每秒进行多次减法迭代,逐步剔除不符合描述的随机值
|
||
- 最终还原出符合要求的高清画面
|
||
|
||
### 3. 视频生成的难点
|
||
|
||
视频由连续帧组成,不仅要在单帧的空间维度上去噪,还需在时间维度上计算——Seedance 2.0 引入了**时空注意力机制**,生成后续帧时会参考前一帧的像素分布,确保物体位置、光影、形状在帧间连续变化。
|
||
|
||
---
|
||
|
||
## 二、传统 AI 视频的两大致命缺陷
|
||
|
||
| 问题 | 原因 | 表现 |
|
||
|------|------|------|
|
||
| **连贯性缺陷** | 传统 diffusion 本质为静态图片设计,逐帧计算,缺乏全局动作的长期记忆,微小误差随视频时长累积 | 脸崩、背景物体消失/变形、穿模 |
|
||
| **多模态融合缺失** | 画面与音频由独立模型串行生成,运行在不同潜空间,无实时参数交换 | 口型与声音对不上,物体撞击与音效无法微秒级对齐 |
|
||
|
||
---
|
||
|
||
## 三、Seedance 2.0 的核心技术突破
|
||
|
||
### 1. 双分支并行架构(解决音画同步问题)
|
||
|
||
- **画面分支**:负责像素的扩散还原
|
||
- **音频分支**:负责声波频率的扩散还原
|
||
|
||
关键点:两个分支运行在**同一时空潜空间**内,从去噪第一步起,每帧像素分布都实时参与音频波形概率计算,反之亦然(如计算出嘴唇张开的像素特征 → 音频分支同步预测对应声谱)。从根本上实现了**原声多模态生成**,音画绝对同步。
|
||
|
||
### 2. 时空耦合影视场建模(解决画面崩坏问题)
|
||
|
||
不单独处理每一张图片,而是将整个视频视为连续的四维坐标体(长、宽、高 + 时间)。
|
||
|
||
生成像素前,模型先通过**全局约束函数**计算全局约束条件:
|
||
- **运动矢量场**:物体在时间轴上的精确运动轨迹
|
||
- **全局光场参数**:光影随时间变化的物理规律
|
||
|
||
配合**双通路交叉注意力机制**,每轮去噪迭代同时进行:
|
||
- **帧内校验**:单张画面纹理材质符合高分辨率标准
|
||
- **帧间校验**:两帧像素偏移符合物理逻辑
|
||
|
||
结果:从根源消除了人变形、物体瞬移、场景穿模等现象,具备工业级稳定性。
|
||
|
||
### 3. 完整的四步生成流程
|
||
|
||
1. **特征提取与对齐**:多模态编码器将文字、参考图人物特征、参考视频动作、音频节奏全部转化为统一维度的数学向量,锁定人物 ID、动作坐标、镜头速度等约束条件
|
||
2. **全局时空约束网格预构建**:预先设定人物位移路径、光影折射变化、音频波峰时间戳,从根本上杜绝形变和跳变
|
||
3. **双分支并行去噪**:画面分支先生成低分辨率轮廓再逐步增加细节,音频分支同步计算声谱并实时注入像素计算过程,两分支每一步都在互相校验
|
||
4. **全局一致性计算 + 超分辨率映射**:对比首尾帧人物特征值,利用帧间蒸馏技术将低分辨率潜空间数据映射到高像素空间,补充皮肤纹理、衣服褶皱、光影折射等高频细节
|
||
|
||
---
|
||
|
||
## 四、Seedance 2.0 的标志性能力
|
||
|
||
- **全模态条件注入**:支持文本、图片、视频、音频四种模态混合输入;锁定角色参考图的身份特征向量后,无论镜头如何切换,AI 在每一帧都会不断比对这组固定参数,从根源解决多镜头人物变脸问题
|
||
- **智能叙事分镜**:接收到长文本后,模型先进行语义逻辑拆解,根据影视工业参数自动规划远景/中景/特写的切换逻辑,在同一全局时空蓝图下生成镜头,保证镜头间场景纵深、光影、角色动作的统计一致性
|
||
- **真实世界物理分布学习**:通过海量实拍视频训练,模型掌握了光线在不同介质的反射/折射率、物体受重力影响的运动矢量、生物组织形变模态等,生成流体、烟雾、肌肉牵引等细节严格遵循物理世界逻辑
|
||
|
||
---
|
||
|
||
## 五、局限与展望
|
||
|
||
Seedance 2.0 并非万能,在**超长视频生成**和**极端复杂的多人物交互场景**上仍有优化空间。但它真正将 AI 视频从"玩具"拉高到了"工业生产力"的水准。
|
||
|
||
> 视频结尾金句:"技术进步永远在把创作的门槛不断拉低。以前创作的门槛是技术和设备,而现在创作唯一的门槛只有你的想象力。"
|
||
|
||
---
|
||
|
||
*总结时间: 2026-05-06*
|