【【城】10 分钟看懂 Seedance：AI 是怎么凭空生成一段逼真视频的？-哔哩哔哩】

来源: Bilibili（https://b23.tv/oKTaPQw）| 时长: 10:26 | 总结时间: 2026-05-06

总结

这是一期技术科普视频，UP 主（城）用浅显的语言拆解了字节跳动 Seedance 2.0（集梦 AI 视频生成大模型）背后的工作原理，以及它相比传统 AI 视频模型的突破点。

AI 生成视频的核心引擎是扩散模型，其工作机制分两个对称阶段：

给海量的真实视频/图片不断叠加高斯噪声，像素矩阵从有序逐渐变成纯随机乱码。AI 在这个过程中学会"噪声是如何被添加进去的"——即像素分布与噪声之间的映射关系，掌握了物体边缘概率梯度、光影变化统计规律等。

从一张纯随机噪声画布出发，用户输入文字指令后：

视频由连续帧组成，不仅要在单帧的空间维度上去噪，还需在时间维度上计算——Seedance 2.0 引入了时空注意力机制，生成后续帧时会参考前一帧的像素分布，确保物体位置、光影、形状在帧间连续变化。

问题	原因	表现
连贯性缺陷	传统 diffusion 本质为静态图片设计，逐帧计算，缺乏全局动作的长期记忆，微小误差随视频时长累积	脸崩、背景物体消失/变形、穿模
多模态融合缺失	画面与音频由独立模型串行生成，运行在不同潜空间，无实时参数交换	口型与声音对不上，物体撞击与音效无法微秒级对齐

关键点：两个分支运行在同一时空潜空间内，从去噪第一步起，每帧像素分布都实时参与音频波形概率计算，反之亦然（如计算出嘴唇张开的像素特征 → 音频分支同步预测对应声谱）。从根本上实现了原声多模态生成，音画绝对同步。

不单独处理每一张图片，而是将整个视频视为连续的四维坐标体（长、宽、高 + 时间）。

生成像素前，模型先通过全局约束函数计算全局约束条件：

配合双通路交叉注意力机制，每轮去噪迭代同时进行：

结果：从根源消除了人变形、物体瞬移、场景穿模等现象，具备工业级稳定性。

特征提取与对齐：多模态编码器将文字、参考图人物特征、参考视频动作、音频节奏全部转化为统一维度的数学向量，锁定人物 ID、动作坐标、镜头速度等约束条件
全局时空约束网格预构建：预先设定人物位移路径、光影折射变化、音频波峰时间戳，从根本上杜绝形变和跳变
双分支并行去噪：画面分支先生成低分辨率轮廓再逐步增加细节，音频分支同步计算声谱并实时注入像素计算过程，两分支每一步都在互相校验
全局一致性计算 + 超分辨率映射：对比首尾帧人物特征值，利用帧间蒸馏技术将低分辨率潜空间数据映射到高像素空间，补充皮肤纹理、衣服褶皱、光影折射等高频细节

全模态条件注入：支持文本、图片、视频、音频四种模态混合输入；锁定角色参考图的身份特征向量后，无论镜头如何切换，AI 在每一帧都会不断比对这组固定参数，从根源解决多镜头人物变脸问题
智能叙事分镜：接收到长文本后，模型先进行语义逻辑拆解，根据影视工业参数自动规划远景/中景/特写的切换逻辑，在同一全局时空蓝图下生成镜头，保证镜头间场景纵深、光影、角色动作的统计一致性
真实世界物理分布学习：通过海量实拍视频训练，模型掌握了光线在不同介质的反射/折射率、物体受重力影响的运动矢量、生物组织形变模态等，生成流体、烟雾、肌肉牵引等细节严格遵循物理世界逻辑

Seedance 2.0 并非万能，在超长视频生成和极端复杂的多人物交互场景上仍有优化空间。但它真正将 AI 视频从"玩具"拉高到了"工业生产力"的水准。

视频结尾金句："技术进步永远在把创作的门槛不断拉低。以前创作的门槛是技术和设备，而现在创作唯一的门槛只有你的想象力。"

总结时间: 2026-05-06