Xiaomi-Robotics-0 – 小米开源的机器人VLA模型

AI项目 2026-02-15

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA(视觉-语言-动作)大模型,拥有47亿参数,采用MoT混合架构,Qwen3-VL多模态模型作为”大脑”理解视觉语言指令,Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码,解决推理延迟导致的动作卡顿,实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA,成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

Xiaomi-Robotics-0-

Xiaomi-Robotics-0的主要功能

  • 自然语言理解:模型能解析人类模糊指令,从视觉输入中识别空间关系与操作意图。
  • 动作生成控制:模型能输出高频平滑的动作序列,驱动机器人完成精确物理操作。
  • 实时异步执行:支持推理与执行并行,消除延迟卡顿,保障动作连贯流畅。
  • 双臂协同操作:支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
  • 自适应策略调整:模型能在抓取失败或环境变化时,自动切换动作策略灵活应对。
  • 多模态能力保持:模型保留了视觉问答、物体检测等通用理解能力,防止灾难性遗忘。

Xiaomi-Robotics-0的技术原理

  • MoT混合架构:以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入,Diffusion Transformer作为”小脑”负责动作生成,总参数量47亿,兼顾通用理解与精细控制。
  • 两阶段训练:第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间,混合视觉语言与机器人数据防止遗忘;第二阶段冻结VLM,专项训练DiT通过流匹配从噪声中恢复精准动作序列。
  • 异步执行机制:机器人执行当前动作块的同时并行推理下一区块,用Clean Action Prefix将前一时刻动作作为输入条件,确保轨迹时序连续,从机制上消除推理延迟导致的动作断层。
  • Λ-shape注意力掩码:替换DiT的因果注意力掩码,支持紧邻前缀的噪声token关注历史动作实现平滑过渡,同时禁止后续token访问前缀,强制其关注视觉信号,避免模型复制惯性动作,提升对环境突发变化的反应灵敏度。

Xiaomi-Robotics-0的项目地址

  • 项目官网:https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的应用场景

  • 工业精密装配:模型可精准拆解由多达20块积木组成的复杂装配体,适用电子产品、汽车零部件等精密组装场景。
  • 家庭服务清洁:模型能主动甩动毛巾暴露遮挡角落,识别多余物品并放回,适用于家务辅助与养老护理场景。
  • 物流仓储分拣:模型凭借高频平滑的动作生成能力,适应不同形状、材质的多样化商品处理需求。
  • 科研教育开发:模型支持高校与研究机构开展具身智能算法研究、机器人控制策略开发及教学演示。
  • 商业交互展示:模型可在展厅、门店、发布会等场景部署,展现低延迟、高流畅度的人机协作能力,提升品牌技术形象。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章