Live Avatar – 阿里联合高校开源的实时数字人模型
Live Avatar是什么
Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。Live Avatar 依托 140 亿参数扩散模型,实现 20FPS 的实时流式生成,支持长达 10000 秒以上稳定输出,避免长时生成中的面部漂移和色彩失真。可用在电商直播、新闻播报、虚拟助手等多种场景,提供高保真、低延迟的交互体验。
Live Avatar的主要功能
-
实时音视频驱动:通过麦克风和摄像头捕捉用户的语音和表情动作,驱动数字人进行口型、表情的同步响应,实现低延迟的面对面交互。
-
无限时长稳定生成:支持长达 10,000 秒以上的连续视频生成,过程中数字人的面容、肤色、风格等特征保持一致,避免长时生成中的身份漂移和画质下降。
-
高保真画质:基于 140 亿参数的扩散模型,生成细节丰富、清晰自然的数字人画面。
-
流式生成:采用流式处理技术,支持实时视频流的连续扩展,适用于直播等实时应用场景。
Live Avatar的技术原理
-
扩散模型优化:用 140 亿参数的扩散模型,通过 Distribution Matching Distillation(分布匹配蒸馏)技术,将多步双向扩散模型转化为高效的 4 步流式扩散模型,大幅提升生成速度。采用 Timestep-forcing Pipeline Parallelism(时间步强制流水线并行)技术,将去噪阶段解耦并分配到多个设备上,实现线性加速,支持大规模并行计算。
-
无限时长生成机制:
-
滚动 RoPE(Relative Positional Encoding):动态更新参考帧的相对位置编码,保持生成帧与参考帧的相对位置关系,避免身份漂移。
-
自适应注意力池(Adaptive Attention Sink):将初始参考帧替换为生成帧,消除导致分布漂移的持续因素,保持生成帧的分布一致性。
-
历史干扰机制:向 KV 缓存注入噪声,模拟推理中的误差,引导模型从历史帧中提取运动信息,从参考帧中提取稳定细节,避免误差积累。
-
-
实时交互技术:结合麦克风和摄像头输入,通过音频和视频信号实时驱动数字人模型,实现低延迟的交互响应。优化生成速度和延迟,达到 20FPS 的实时生成速度,首帧延迟仅 2.89 秒,确保流畅的交互体验。
Live Avatar的项目地址
- 项目官网:https://liveavatar.github.io/
- GitHub仓库:https://github.com/Alibaba-Quark/LiveAvatar
- HuggingFace模型库:https://huggingface.co/Quark-Vision/Live-Avatar
Live Avatar的应用场景
-
电商直播:Live Avatar 能实现 7×24 小时不间断产品展示与讲解,降低人力成本,提升直播效率。
-
新闻播报:模型支持自动生成虚拟主播播报新闻,快速生成多语言视频,提高新闻时效性。
-
娱乐直播:虚拟偶像通过 Live Avatar 实时互动表演,举办线上演唱会等活动,增强观众参与感。
-
智能客服:数字人客服可实时回答用户问题,提供 24 小时不间断服务,提升用户体验。
-
银行柜员:虚拟金融顾问提供标准化业务咨询,辅助人工服务,提升银行运营效率。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号