Wan-Streamer – 阿里开源的实时全双工多模态基础模型

AI框架 2026-07-01

Wan-Streamer是什么

Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型，通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列，实现亚秒级实时双向视频交互，模型响应延迟仅 200ms，端到端总延迟 550ms，稳定输出 25FPS 同步音视频。

Wan-Streamer

Wan-Streamer的主要功能

实时音视频对话：支持用户与 AI 数字人进行双向视频通话，AI 可同步输出语音与面部表情。
全双工交互：支持用户实时打断、AI 主动提问，实现自然流畅的人机对话。
多模态输入理解：同时接收并理解用户的视频画面、语音和文字输入。
流式分片生成：采用 160ms 短时流式分片，边接收信息边生成反馈，无需等待全帧。
长时序一致性：全局 KV 上下文缓存保证长时间对话中人物形象、语气稳定统一。

Wan-Streamer的技术原理

统一单 Transformer 流式架构：将用户画面、人声、文字输入与 AI 语音、表情、字幕输出交错为一条因果 token 流，文本自回归预测，音视频条件流匹配联合生成。
全因果技术栈设计：编码器、解码器、VAE 到注意力层全部遵循因果约束，仅使用历史时序信息预测下一单元，核心块因果注意力限制未来 token 不可见。
三段式训练流程：多任务预训练混合图文语音对话数据，全双工微调学习倾听插话停顿行为，流式蒸馏大教师模型轻量化并采用滚动自强制策略。
Thinker-Performer 双 GPU 推理：Thinker 处理用户音视频编码与上下文更新，Performer 执行流匹配音视频去噪生成，两者共享上下文并行执行。

如何使用Wan-Streamer

目前 Wan-Streamer 仅发布论文与项目官网演示，完整代码和模型权重尚未开源，暂无法本地部署。

Wan-Streamer的核心优势

超低延迟：模型侧 200ms 响应，端到端仅 550ms，远低于行业 1 秒以上水平。
端到端一体化：单一模型完成感知、理解、生成全流程，无需 ASR、LLM、TTS、渲染多模块拼接。
全双工实时交互：支持边听边回应、中途打断，交互自然度媲美真人。
音视频同步：语音与面部动作同步约束生成，无需后期对齐修复，口型零错位。
长对话稳定性：全局 KV 上下文保证人物容貌与语气长时间不漂移。

Wan-Streamer的项目地址

项目官网：https://wan-streamer.com/
arXiv技术论文：https://arxiv.org/pdf/2606.25041

Wan-Streamer的同类竞品对比

对比维度	Wan-Streamer	GPT-4o Realtime
开发方	阿里达摩院	OpenAI
视频输入	✅ 支持	✅ 支持
同步视频输出	✅ 数字人视频	❌ 仅语音
全双工交互	✅ 实时打断/插话	⚠️ 部分支持
端到端架构	✅ 单一 Transformer	❌ ASR+LLM+TTS 拼接
模型响应延迟	200ms	230ms
端到端总延迟	~0.55s	~0.8s
渲染延迟	含端到端内	不含（仅语音）
口型同步	✅ 原生同步生成	❌ 无视频输出
长时序一致性	✅ 全局 KV 缓存	⚠️ 依赖外部系统
当前分辨率	192p（原型）	无视频输出

Wan-Streamer的应用场景

虚拟客服：银行、电商等场景提供面对面实时视频咨询服务。
直播互动：AI 主播实时回应观众弹幕与语音提问，提升直播间互动体验。
AI 陪伴：情感陪伴数字人支持实时视频聊天，提供沉浸式陪伴体验。
游戏 NPC：交互式游戏角色与玩家实时视频对话，增强游戏沉浸感。
在线教育：AI 虚拟教师进行实时视频答疑与个性化辅导。

©️版权声明：若无特殊声明，本站所有文章版权均归AI工具集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI工具箱收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明区小号债务重组个人债务重组债务重组优化

Copyright © AI导航爱途网络粤ICP备15040630号-11

粤公网安备 123456789号