Live Avatar – 阿里联合高校开源的实时数字人模型

AI项目 2025-12-16

Live Avatar是什么

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型，能通过音视频驱动生成无限时长的数字人视频。Live Avatar 依托 140 亿参数扩散模型，实现 20FPS 的实时流式生成，支持长达 10000 秒以上稳定输出，避免长时生成中的面部漂移和色彩失真。可用在电商直播、新闻播报、虚拟助手等多种场景，提供高保真、低延迟的交互体验。

Live Avatar的主要功能

实时音视频驱动：通过麦克风和摄像头捕捉用户的语音和表情动作，驱动数字人进行口型、表情的同步响应，实现低延迟的面对面交互。
无限时长稳定生成：支持长达 10,000 秒以上的连续视频生成，过程中数字人的面容、肤色、风格等特征保持一致，避免长时生成中的身份漂移和画质下降。
高保真画质：基于 140 亿参数的扩散模型，生成细节丰富、清晰自然的数字人画面。
流式生成：采用流式处理技术，支持实时视频流的连续扩展，适用于直播等实时应用场景。

Live Avatar的技术原理

扩散模型优化：用 140 亿参数的扩散模型，通过 Distribution Matching Distillation（分布匹配蒸馏）技术，将多步双向扩散模型转化为高效的 4 步流式扩散模型，大幅提升生成速度。采用 Timestep-forcing Pipeline Parallelism（时间步强制流水线并行）技术，将去噪阶段解耦并分配到多个设备上，实现线性加速，支持大规模并行计算。
无限时长生成机制：
- 滚动 RoPE（Relative Positional Encoding）：动态更新参考帧的相对位置编码，保持生成帧与参考帧的相对位置关系，避免身份漂移。
- 自适应注意力池（Adaptive Attention Sink）：将初始参考帧替换为生成帧，消除导致分布漂移的持续因素，保持生成帧的分布一致性。
- 历史干扰机制：向 KV 缓存注入噪声，模拟推理中的误差，引导模型从历史帧中提取运动信息，从参考帧中提取稳定细节，避免误差积累。
实时交互技术：结合麦克风和摄像头输入，通过音频和视频信号实时驱动数字人模型，实现低延迟的交互响应。优化生成速度和延迟，达到 20FPS 的实时生成速度，首帧延迟仅 2.89 秒，确保流畅的交互体验。