Kaleido – 智谱AI开源的多主体视频生成框架

AI框架 2025-12-12

Kaleido是什么

Kaleido 是智谱AI开源的多主体视频生成框架，能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE（Reference Rotary Positional Encoding）机制，有效分离主体与背景信息，在多主体场景下保持主体特征一致性。Kaleido 在多主体视频生成中达到 SOTA 效果，为视频生成领域提供强大的开源方案，助力开发者实现高质量的多主体视频创作。

Kaleido的主要功能

多主体一致性生成：框架能在视频中保持多个主体（如人物、物体等）的视觉一致性，在复杂场景和多人交互中能维持稳定的主体特征。
背景解耦：框架能有效分离主体与背景信息，避免生成视频中出现参考图像中的无关背景细节，使主体在不同背景中具有更好的适应性。
高质量视频生成：通过优化的数据构建和训练方法，生成高质量、高保真度的视频内容，适用多种应用场景，如广告、影视制作等。
灵活的条件控制：框架支持通过多张参考图像和文本提示进行视频生成，为创作者提供更灵活的创作空间。

Kaleido的技术原理

数据构建管线：Kaleido 采用创新的数据构建管线，解决多主体视频生成中的背景纠缠和主体一致性问题。管线通过跨配对数据合成（将不同实例的主体与背景组合）和背景修复技术，强迫模型在训练时解耦主体特征，避免简单复制参考图像中的背景信息。通过多阶段的数据增强（如主体定位、分割、质量过滤等），确保数据的多样性和高质量，提升模型在复杂场景下的生成能力。
R-RoPE（Reference Rotary Positional Encoding）：为精确区分不同参考图像与视频 Token，Kaleido 引入 R-RoPE 机制。通过为参考图像的 Token 提供独立的旋转位置编码，显式地在注意力计算中确立不同主体与视频帧之间的边界。R-RoPE 通过空间位移确保参考图像 Token 在模型的时空嵌入空间中占据独特位置，有效避免多主体特征混淆，显著提升多主体生成的时空一致性。
模型架构与条件注入：Kaleido 基于扩散模型和 Diffusion Transformer 架构，通过简单而高效的条件注入策略，将多张参考图像与视频生成过程结合。模型将参考图像 Token 与视频噪声表示沿序列维度拼接，同时用 R-RoPE 机制区分图像和视频信息。