LongCat-Video-Avatar – 美团开源的数字人视频生成模型
LongCat-Video-Avatar是什么
LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video-Avatar支持多种生成模式,包括音频文本生成视频(AT2V)、音频文本图像生成视频(ATI2V)和视频续写。通过解耦音频信号与动作、避免重复内容和减少 VAE 错误累积等技术,实现高质量、长时间的视频生成,可用于演员表演、歌手动态、播客、销售演示及多人互动场景。
LongCat-Video-Avatar的主要功能
-
多模式视频生成:支持音频文本生成视频(AT2V)、音频文本图像生成视频(ATI2V)和视频续写,满足不同场景的多样化需求。
-
自然动态与身份一致性:模型能保持人物身份一致,生成自然的面部表情、口型同步和肢体动作,在多人互动场景中能维持自然流畅的对话行为。
-
高质量视频生成:通过解耦音频信号与动作,避免静音时的僵硬行为,减少像素退化,确保长视频的稳定性和一致性。
-
多样化应用场景:适用演员表演、歌手展示、播客、销售演示等场景,为不同领域提供高质量的视频生成解决方案。
LongCat-Video-Avatar的技术原理
-
解耦语音与动作(Disentangled Unconditional Guidance):通过区分语音信号与整体动作,模型在静音片段中也能生成自然的肢体动作,避免因过度依赖语音信号导致的静态行为,实现更自然的动态表现。
-
参考跳过注意力机制(Reference Skip Attention):该机制有选择性地引入参考图像信息,能保持人物身份的一致性,防止因参考图像过度泄漏导致的“复制粘贴”现象,平衡视觉保真度与动作多样性。
-
跨块潜在缝合策略(Cross-Chunk Latent Stitching):通过减少自回归生成中冗余的 VAE 解码 – 编码循环,降低像素退化问题,避免长视频生成中的累积误差,确保视频的连贯性和一致性。
-
基于扩散模型的统一框架(Unified DiT-based Framework):采用基于扩散模型(Diffusion Model)的架构,能生成超逼真的长时长视频,支持多种生成模式,包括音频文本到视频(AT2V)、音频文本图像到视频(ATI2V)以及视频续写。
-
多流音频输入支持:支持单流或多流音频输入,通过 L-ROPE(Learnable Relative Positional Encoding)技术实现音频与视觉信息的绑定,适应复杂的多人交互场景。
LongCat-Video-Avatar的项目地址
- 项目官网:https://meigen-ai.github.io/LongCat-Video-Avatar/
- GitHub仓库:https://github.com/MeiGen-AI/LongCat-Video-Avatar
- HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
LongCat-Video-Avatar的应用场景
-
影视制作:用于生成演员的自然表情和口型同步,降低特效成本,提升影视角色的逼真度。
-
音乐与娱乐:为歌手和虚拟偶像生成生动的肢体动作和舞台表现,增强音乐视频和虚拟表演的视觉效果。
-
内容创作与教育:为主播和教师生成高质量视频,提升播客、视频博客和在线教育的吸引力和互动性。
-
商业与销售:模型能生成自然流畅的产品演示和虚拟客服视频,提升销售效果和品牌形象。
-
多人互动场景:模型支持多人对话和互动,保持自然交流动态,适用会议、访谈和社交娱乐。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号