Live Avatar – 阿里联合高校开源的实时数字人模型

AI项目 2025-12-16

Live Avatar是什么

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。Live Avatar 依托 140 亿参数扩散模型,实现 20FPS 的实时流式生成,支持长达 10000 秒以上稳定输出,避免长时生成中的面部漂移和色彩失真。可用在电商直播、新闻播报、虚拟助手等多种场景,提供高保真、低延迟的交互体验。

Live Avatar

Live Avatar的主要功能

  • 实时音视频驱动:通过麦克风和摄像头捕捉用户的语音和表情动作,驱动数字人进行口型、表情的同步响应,实现低延迟的面对面交互。
  • 无限时长稳定生成:支持长达 10,000 秒以上的连续视频生成,过程中数字人的面容、肤色、风格等特征保持一致,避免长时生成中的身份漂移和画质下降。
  • 高保真画质:基于 140 亿参数的扩散模型,生成细节丰富、清晰自然的数字人画面。
  • 流式生成:采用流式处理技术,支持实时视频流的连续扩展,适用于直播等实时应用场景。

Live Avatar的技术原理

  • 扩散模型优化用 140 亿参数的扩散模型,通过 Distribution Matching Distillation(分布匹配蒸馏)技术,将多步双向扩散模型转化为高效的 4 步流式扩散模型,大幅提升生成速度。采用 Timestep-forcing Pipeline Parallelism(时间步强制流水线并行)技术,将去噪阶段解耦并分配到多个设备上,实现线性加速,支持大规模并行计算。
  • 无限时长生成机制
    • 滚动 RoPE(Relative Positional Encoding):动态更新参考帧的相对位置编码,保持生成帧与参考帧的相对位置关系,避免身份漂移。
    • 自适应注意力池(Adaptive Attention Sink):将初始参考帧替换为生成帧,消除导致分布漂移的持续因素,保持生成帧的分布一致性。
    • 历史干扰机制:向 KV 缓存注入噪声,模拟推理中的误差,引导模型从历史帧中提取运动信息,从参考帧中提取稳定细节,避免误差积累。
  • 实时交互技术结合麦克风和摄像头输入,通过音频和视频信号实时驱动数字人模型,实现低延迟的交互响应。优化生成速度和延迟,达到 20FPS 的实时生成速度,首帧延迟仅 2.89 秒,确保流畅的交互体验。

Live Avatar的项目地址

  • 项目官网:https://liveavatar.github.io/
  • GitHub仓库:https://github.com/Alibaba-Quark/LiveAvatar
  • HuggingFace模型库:https://huggingface.co/Quark-Vision/Live-Avatar

Live Avatar的应用场景

  • 电商直播:Live Avatar 能实现 7×24 小时不间断产品展示与讲解,降低人力成本,提升直播效率。
  • 新闻播报:模型支持自动生成虚拟主播播报新闻,快速生成多语言视频,提高新闻时效性。
  • 娱乐直播:虚拟偶像通过 Live Avatar 实时互动表演,举办线上演唱会等活动,增强观众参与感。
  • 智能客服:数字人客服可实时回答用户问题,提供 24 小时不间断服务,提升用户体验。
  • 银行柜员:虚拟金融顾问提供标准化业务咨询,辅助人工服务,提升银行运营效率。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章