UnityVideo – 快手可灵联合港科大开源的视频生成框架

AI框架 2025-12-15

UnityVideo是什么

UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训练范式,提升视频生成模型对物理世界的理解能力。框架通过动态噪声注入和模态自适应学习机制,实现 RGB 视频与辅助模态之间的双向学习,加速模型收敛,显著增强零样本泛化能力。

UnityVideo

UnityVideo的主要功能

  • 多模态视频生成:框架能从文本描述生成高质量的 RGB 视频,结合多种辅助模态(如深度图、光流、分割掩码、人体骨架、DensePose 等)进行联合生成,提升视频的物理真实性和一致性。
  • 可控视频生成:支持基于多种模态条件(如深度图、光流等)的可控视频生成,根据给定的模态信息生成符合特定要求的视频内容。
  • 模态估计:从 RGB 视频中估计出其他辅助模态信息(如深度图、光流、分割掩码等),实现视频内容的多模态解析。
  • 零样本泛化:具有强大的零样本泛化能力,能在训练数据之外的场景和对象上生成高质量的视频,准确估计多种模态信息。
  • 多任务联合训练:在一个框架内同时支持视频生成、可控生成和模态估计等多种任务,通过多任务联合训练提升模型的综合性能和泛化能力。

UnityVideo的技术原理

  • 统一的多模态框架:用一个基于扩散模型的统一框架(如扩散变换器 DiT),将 RGB 视频和多种辅助模态信息整合到一个共享的特征空间中。通过动态噪声注入策略,在训练过程中随机选择不同的任务(如条件生成、模态估计、联合生成),使模型能同时学习多种任务和模态的联合分布。
  • 模态自适应学习:引入模态自适应开关(Modality-Adaptive Switcher),为每种模态分配独立的参数表(如 AdaLN 参数),使模型能根据不同的模态动态调整网络参数。用上下文学习器(In-Context Learner),通过注入模态类型的文本提示(如“深度图”“光流”等),使模型在语义层面区分不同模态,增强模态感知能力。
  • 动态噪声调度:在训练过程中,动态调整噪声注入策略,根据任务类型(条件生成、模态估计、联合生成)分别对 RGB 和辅助模态施加不同的噪声,促进跨任务的协同学习。通过概率任务选择机制,平衡不同任务的学习难度,避免模型在联合训练中偏向某一任务。
  • 课程学习策略:采用分阶段的课程学习方法,先在单人数据上训练像素对齐的模态(如深度、光流),建立空间对应关系的基础,再扩展到多人数据和更多模态,逐步提升模型对复杂场景的理解能力。
  • 大规模多模态数据集:构建 OpenUni 数据集,包含 130 万对多模态视频样本,涵盖 RGB、深度、光流、分割掩码、骨架等多种模态,为模型训练提供丰富的数据支持。提供 UniBench 基准测试集,用于评估模型在多模态视频任务上的性能,确保模型的泛化能力和准确性。

UnityVideo的项目地址

  • 项目官网:https://jackailab.github.io/Projects/UnityVideo/
  • GitHub仓库:https://github.com/dvlab-research/UnityVideo
  • HuggingFace模型库:https://huggingface.co/JackAILab/UnityVideo
  • arXiv技术论文:https://arxiv.org/pdf/2512.07831

UnityVideo的应用场景

  • 影视特效制作:框架能快速生成逼真的特效视频,如瀑布、极光、液体流动等,为影视后期制作提供高效预览和创意验证。
  • 虚拟现实(VR)和增强现实(AR):框架能生成高度逼真的虚拟场景和动态背景,增强用户的沉浸感和交互体验。
  • 教育与培训:根据教学内容生成科学现象的模拟视频,如物理实验、生物动画,帮助学生更好地理解复杂概念。
  • 游戏开发:框架能生成游戏中的动态场景、角色动作和过场动画,提升游戏的视觉效果和开发效率。
  • 广告与营销:根据品牌描述快速生成创意广告视频,用于社交媒体、电视广告等,满足多样化的营销需求。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章