JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型

AI框架 2026-06-24

JoyAI-VL-Interaction是什么

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。JoyAI-VL-Interaction让大模型从一问一答转向边看边说,可持续观察视频流、自主判断何时发声、实时响应画面变化,支持将复杂任务委托给后台 Agent 处理。在 58 项真人盲评中,对比豆包视频通话助手胜率 77.6%,对比 Gemini 胜率 87.9%。

JoyAI-VL-Interaction

JoyAI-VL-Interaction的主要功能

  • 主动视觉响应:持续观察摄像头/直播流/监控流,自主判断何时说话、何时沉默,无需用户逐轮提问。
  • 实时流式交互:面向正在发生的视频流即时响应,画面变化时秒级反馈,而非事后总结完整视频。
  • 智能体委托:遇到代码生成、工具调用、复杂推理等任务时,自动交给后台大模型或 Agent,前台继续观察。
  • 多模态输入输出:支持语音输入输出、可视化界面、长期记忆,ASR/TTS/界面均可按需替换。
  • 长时记忆:具备分钟级视觉记忆,可回溯数分钟前的画面细节并准确回答。

JoyAI-VL-Interaction的技术原理

  • 视觉优先的交互决策:模型核心是一个每秒自动执行的决策——说话、沉默或委托。模型基于 JoyAI-VL-8B 视觉语言指令模型构建,将语音作为可插拔的输入输出,模型的唯一任务是观察画面并判断行动时机。
  • 预测性视频编解码:采用 AdaCodec 预测性视频编解码器,对可预测帧仅消耗少量 token,在场景实际变化时保留完整细节,使 token 预算随时间缓慢增长而非逐帧膨胀,支撑长时实时流处理。
  • 时序对齐的行为学习:模型通过超过 400 万条逐秒标注的时序交互片段进行训练,每条数据精确标注何时该说话、沉默或委托,并辅以强化学习微调,使行为从数据中学习。
  • 可插拔的系统架构:围绕核心模型构建完整部署系统,包括流式 ASR/TTS、长时记忆模块、可视化 UI、后台模型桥接。所有组件均可独立替换,整体基于标准 vLLM 基础设施运行,获得 vLLM-Omni 的 day-0 原生支持。
挖挖GitHub

微信关注回复 “开源”,加入AI开源项目交流群

如何使用JoyAI-VL-Interaction

  • 克隆仓库:访问 GitHub 开源仓库 jd-opensource/JoyAI-VL-Interaction 获取完整代码与部署系统。
  • 获取模型:从 Hugging Face 下载 jdopensource/JoyAI-VL-Interaction-Preview 模型权重。
  • 准备环境:基于标准 vLLM 基础设施部署,支持摄像头、RTSP 监控流、直播流等多种视频输入。
  • 自定义组件:按需替换 ASR、TTS、语音服务、Agent、API 或前端界面,接入自有业务系统。
  • 运行体验:启动后指向摄像头或直播流,模型即进入实时观察与交互状态。

JoyAI-VL-Interaction的核心优势

  • 全栈开源:8B 模型、训练配方、400 万条时序数据、完整可部署系统全部开放,可复现可扩展。
  • 实时在场:能在直播流中持续观察数小时,响应延迟低于 1 秒,真正”在场”而非轮询唤醒。
  • 视觉触发主动性:从画面内容自主决策发言时机,在监控预警、实时翻译等场景中实现零延迟告警。
  • 前后台分离:前台模型保持视觉观察不间断,后台处理复杂任务,结果自然接回对话,不中断交互流。
  • 轻量可部署:8B 参数规模紧凑,可在标准基础设施上运行,降低实时 AI 助手的部署门槛。

JoyAI-VL-Interaction的项目地址

  • 项目官网:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
  • GitHub仓库:https://github.com/jd-opensource/JoyAI-VL-Interaction/
  • HuggingFace模型库:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
  • 技术论文:https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf

JoyAI-VL-Interaction的同类竞品对比

对比维度 JoyAI-VL-Interaction 豆包视频通话模型
模型规模 8B 参数,轻量视觉语言交互模型 大参数规模,通用多模态模型
核心范式 视觉优先的主动交互模型,每秒自主决策”说/沉默/委托” 轮询式问答模型,依赖用户触发后才处理当前帧
实时处理 面向流式视频持续观察,画面变化即时响应 主要处理用户提问瞬间的静态画面快照
时序感知 内置时间感知能力,可执行”20秒后提醒””每3秒播报”等时序任务 时序任务表现不稳定,测试中未按时提醒
记忆机制 分钟级长时视觉记忆,可回溯数分钟前的画面细节 长时视觉记忆易出错,如测试中给出错误的肉丸数量
视觉触发 由画面事件自主触发语音输出,无需用户提问 需用户主动提问才能生成回复,无法自主告警
持续跟踪 可持续跟踪字幕变化、重复动作计数、App界面切换 难以维持跨帧状态,计数和翻译易中断

JoyAI-VL-Interaction的应用场景

  • 安防监控:实时观察监控流,对异常事件(如摔倒、入侵)即时语音告警,无需人工盯屏。
  • 老人/儿童看护:持续观察居家画面,发现危险行为(靠近 stove、独自外出)主动提醒。
  • 直播导览/电商导购:实时解说直播画面,自动介绍商品细节,或根据用户穿搭主动给出搭配建议。
  • 实时翻译:观看外语视频或面对面交流时,持续识别字幕/对话并实时口播翻译。
  • 操作指导:指导用户操作 App 或设备,跟随屏幕变化逐步提示,而非仅描述静态截图。
  • AI 眼镜/无障碍辅助:作为 AI 眼镜的核心视觉大脑,为视障人士实时描述周围环境并主动提示障碍。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章