Wan-Streamer – 阿里开源的实时全双工多模态基础模型

AI框架 2026-07-01

Wan-Streamer是什么

Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型,通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列,实现亚秒级实时双向视频交互,模型响应延迟仅 200ms,端到端总延迟 550ms,稳定输出 25FPS 同步音视频。

Wan-Streamer

Wan-Streamer的主要功能

  • 实时音视频对话:支持用户与 AI 数字人进行双向视频通话,AI 可同步输出语音与面部表情。
  • 全双工交互:支持用户实时打断、AI 主动提问,实现自然流畅的人机对话。
  • 多模态输入理解:同时接收并理解用户的视频画面、语音和文字输入。
  • 流式分片生成:采用 160ms 短时流式分片,边接收信息边生成反馈,无需等待全帧。
  • 长时序一致性:全局 KV 上下文缓存保证长时间对话中人物形象、语气稳定统一。

Wan-Streamer的技术原理

  • 统一单 Transformer 流式架构:将用户画面、人声、文字输入与 AI 语音、表情、字幕输出交错为一条因果 token 流,文本自回归预测,音视频条件流匹配联合生成。
  • 全因果技术栈设计:编码器、解码器、VAE 到注意力层全部遵循因果约束,仅使用历史时序信息预测下一单元,核心块因果注意力限制未来 token 不可见。
  • 三段式训练流程:多任务预训练混合图文语音对话数据,全双工微调学习倾听插话停顿行为,流式蒸馏大教师模型轻量化并采用滚动自强制策略。
  • Thinker-Performer 双 GPU 推理:Thinker 处理用户音视频编码与上下文更新,Performer 执行流匹配音视频去噪生成,两者共享上下文并行执行。

如何使用Wan-Streamer

目前 Wan-Streamer 仅发布论文与项目官网演示,完整代码和模型权重尚未开源,暂无法本地部署。

Wan-Streamer的核心优势

  • 超低延迟:模型侧 200ms 响应,端到端仅 550ms,远低于行业 1 秒以上水平。
  • 端到端一体化:单一模型完成感知、理解、生成全流程,无需 ASR、LLM、TTS、渲染多模块拼接。
  • 全双工实时交互:支持边听边回应、中途打断,交互自然度媲美真人。
  • 音视频同步:语音与面部动作同步约束生成,无需后期对齐修复,口型零错位。
  • 长对话稳定性:全局 KV 上下文保证人物容貌与语气长时间不漂移。

Wan-Streamer的项目地址

  • 项目官网:https://wan-streamer.com/
  • arXiv技术论文:https://arxiv.org/pdf/2606.25041

Wan-Streamer的同类竞品对比

对比维度 Wan-Streamer GPT-4o Realtime
开发方 阿里达摩院 OpenAI
视频输入 ✅ 支持 ✅ 支持
同步视频输出 ✅ 数字人视频 ❌ 仅语音
全双工交互 ✅ 实时打断/插话 ⚠️ 部分支持
端到端架构 ✅ 单一 Transformer ❌ ASR+LLM+TTS 拼接
模型响应延迟 200ms 230ms
端到端总延迟 ~0.55s ~0.8s
渲染延迟 含端到端内 不含(仅语音)
口型同步 ✅ 原生同步生成 ❌ 无视频输出
长时序一致性 ✅ 全局 KV 缓存 ⚠️ 依赖外部系统
当前分辨率 192p(原型) 无视频输出

Wan-Streamer的应用场景

  • 虚拟客服:银行、电商等场景提供面对面实时视频咨询服务。
  • 直播互动:AI 主播实时回应观众弹幕与语音提问,提升直播间互动体验。
  • AI 陪伴:情感陪伴数字人支持实时视频聊天,提供沉浸式陪伴体验。
  • 游戏 NPC:交互式游戏角色与玩家实时视频对话,增强游戏沉浸感。
  • 在线教育:AI 虚拟教师进行实时视频答疑与个性化辅导。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章