Wan-Streamer – 阿里开源的实时全双工多模态基础模型
Wan-Streamer是什么
Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型,通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列,实现亚秒级实时双向视频交互,模型响应延迟仅 200ms,端到端总延迟 550ms,稳定输出 25FPS 同步音视频。

Wan-Streamer的主要功能
- 实时音视频对话:支持用户与 AI 数字人进行双向视频通话,AI 可同步输出语音与面部表情。
- 全双工交互:支持用户实时打断、AI 主动提问,实现自然流畅的人机对话。
- 多模态输入理解:同时接收并理解用户的视频画面、语音和文字输入。
- 流式分片生成:采用 160ms 短时流式分片,边接收信息边生成反馈,无需等待全帧。
- 长时序一致性:全局 KV 上下文缓存保证长时间对话中人物形象、语气稳定统一。
Wan-Streamer的技术原理
- 统一单 Transformer 流式架构:将用户画面、人声、文字输入与 AI 语音、表情、字幕输出交错为一条因果 token 流,文本自回归预测,音视频条件流匹配联合生成。
- 全因果技术栈设计:编码器、解码器、VAE 到注意力层全部遵循因果约束,仅使用历史时序信息预测下一单元,核心块因果注意力限制未来 token 不可见。
- 三段式训练流程:多任务预训练混合图文语音对话数据,全双工微调学习倾听插话停顿行为,流式蒸馏大教师模型轻量化并采用滚动自强制策略。
- Thinker-Performer 双 GPU 推理:Thinker 处理用户音视频编码与上下文更新,Performer 执行流匹配音视频去噪生成,两者共享上下文并行执行。
如何使用Wan-Streamer
目前 Wan-Streamer 仅发布论文与项目官网演示,完整代码和模型权重尚未开源,暂无法本地部署。
Wan-Streamer的核心优势
-
超低延迟:模型侧 200ms 响应,端到端仅 550ms,远低于行业 1 秒以上水平。
-
端到端一体化:单一模型完成感知、理解、生成全流程,无需 ASR、LLM、TTS、渲染多模块拼接。
-
全双工实时交互:支持边听边回应、中途打断,交互自然度媲美真人。
-
音视频同步:语音与面部动作同步约束生成,无需后期对齐修复,口型零错位。
-
长对话稳定性:全局 KV 上下文保证人物容貌与语气长时间不漂移。
Wan-Streamer的项目地址
- 项目官网:https://wan-streamer.com/
- arXiv技术论文:https://arxiv.org/pdf/2606.25041
Wan-Streamer的同类竞品对比
| 对比维度 | Wan-Streamer | GPT-4o Realtime |
|---|---|---|
| 开发方 | 阿里达摩院 | OpenAI |
| 视频输入 | ✅ 支持 | ✅ 支持 |
| 同步视频输出 | ✅ 数字人视频 | ❌ 仅语音 |
| 全双工交互 | ✅ 实时打断/插话 | ⚠️ 部分支持 |
| 端到端架构 | ✅ 单一 Transformer | ❌ ASR+LLM+TTS 拼接 |
| 模型响应延迟 | 200ms | 230ms |
| 端到端总延迟 | ~0.55s | ~0.8s |
| 渲染延迟 | 含端到端内 | 不含(仅语音) |
| 口型同步 | ✅ 原生同步生成 | ❌ 无视频输出 |
| 长时序一致性 | ✅ 全局 KV 缓存 | ⚠️ 依赖外部系统 |
| 当前分辨率 | 192p(原型) | 无视频输出 |
Wan-Streamer的应用场景
-
虚拟客服:银行、电商等场景提供面对面实时视频咨询服务。
-
直播互动:AI 主播实时回应观众弹幕与语音提问,提升直播间互动体验。
-
AI 陪伴:情感陪伴数字人支持实时视频聊天,提供沉浸式陪伴体验。
-
游戏 NPC:交互式游戏角色与玩家实时视频对话,增强游戏沉浸感。
-
在线教育:AI 虚拟教师进行实时视频答疑与个性化辅导。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号