Kaleido – 智谱AI开源的多主体视频生成框架
Kaleido是什么
Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。Kaleido 在多主体视频生成中达到 SOTA 效果,为视频生成领域提供强大的开源方案,助力开发者实现高质量的多主体视频创作。

Kaleido的主要功能
-
多主体一致性生成:框架能在视频中保持多个主体(如人物、物体等)的视觉一致性,在复杂场景和多人交互中能维持稳定的主体特征。
-
背景解耦:框架能有效分离主体与背景信息,避免生成视频中出现参考图像中的无关背景细节,使主体在不同背景中具有更好的适应性。
-
高质量视频生成:通过优化的数据构建和训练方法,生成高质量、高保真度的视频内容,适用多种应用场景,如广告、影视制作等。
-
灵活的条件控制:框架支持通过多张参考图像和文本提示进行视频生成,为创作者提供更灵活的创作空间。
Kaleido的技术原理
- 数据构建管线:Kaleido 采用创新的数据构建管线,解决多主体视频生成中的背景纠缠和主体一致性问题。管线通过跨配对数据合成(将不同实例的主体与背景组合)和背景修复技术,强迫模型在训练时解耦主体特征,避免简单复制参考图像中的背景信息。通过多阶段的数据增强(如主体定位、分割、质量过滤等),确保数据的多样性和高质量,提升模型在复杂场景下的生成能力。
- R-RoPE(Reference Rotary Positional Encoding):为精确区分不同参考图像与视频 Token,Kaleido 引入 R-RoPE 机制。通过为参考图像的 Token 提供独立的旋转位置编码,显式地在注意力计算中确立不同主体与视频帧之间的边界。R-RoPE 通过空间位移确保参考图像 Token 在模型的时空嵌入空间中占据独特位置,有效避免多主体特征混淆,显著提升多主体生成的时空一致性。
- 模型架构与条件注入:Kaleido 基于扩散模型和 Diffusion Transformer 架构,通过简单而高效的条件注入策略,将多张参考图像与视频生成过程结合。模型将参考图像 Token 与视频噪声表示沿序列维度拼接,同时用 R-RoPE 机制区分图像和视频信息。
Kaleido的项目地址
- 项目官网:https://criliasmiller.github.io/Kaleido_Project/
- GitHub仓库:https://github.com/zai-org/Kaleido
- HuggingFace模型库:https://huggingface.co/zai-org/Kaleido-14B-S2V
- arXiv技术论文:https://arxiv.org/pdf/2510.18573
Kaleido的应用场景
-
影视制作:Kaleido 能根据角色的多张参考图生成高质量的动画视频,帮助动画师快速生成初步动画素材,提高制作效率。
-
广告创意:通过多主体视频生成,Kaleido 能为广告创作者提供灵活的素材生成方案,快速生成包含多个产品或人物的广告视频。
-
虚拟试穿:在电商领域,Kaleido 能生成用户试穿虚拟服装或佩戴虚拟饰品的视频,提升用户体验。
-
虚拟角色互动:为虚拟主播或虚拟角色生成自然的互动视频,使其在直播、游戏等场景中表现出更丰富的动态效果。
-
教育与培训:用在生成教学视频,例如通过多主体生成展示实验过程或多人协作场景,增强教学的直观性和趣味性。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号