RynnBrain – 阿里达摩院开源的具身智能大脑基础模型

AI框架 2026-02-11

RynnBrain是什么

RynnBrain是阿里巴巴达摩院推出的开源具身智能大脑基础模型,首次让机器人拥有时空记忆和物理空间推理能力。模型基于Qwen3-VL训练,采用自研RynnScale架构,训练数据超2000万对。模型在16项具身开源评测中刷新纪录(SOTA),超越谷歌Gemini Robotics ER 1.5等顶尖模型。阿里一次开源了7个全系列模型,包括业界首个30B MoE架构具身模型,仅需3B激活参数即可实现高效推理,让机器人动作更快更丝滑,为复杂移动操作和长期任务规划提供”大脑”级支持。

RynnBrain

RynnBrain的主要功能

  • 时空记忆:机器人可在完整历史记忆中定位物体与目标区域,预测运动轨迹,实现全局时空回溯能力。
  • 物理空间推理:模型采用文本与空间定位交错的推理策略,确保推理过程紧密扎根于物理环境,大幅减弱幻觉问题。
  • 任务连续性:机器人在执行A任务被中断转做B任务后,能记住A任务的时间和空间状态,完成后自动续接。
  • 多维度感知:模型支持环境感知、对象推理、第一人称视觉问答、空间推理与轨迹预测等16项具身能力。
  • 快速拓展:基于基础模型仅需几百条数据微调,可后训练出导航、规划、动作等多种具身专有模型。

RynnBrain的技术原理

  • 多模态融合架构:RynnBrain 采用端到端的多模态架构,将第一人称视频、语言指令与物理环境信息统一编码,通过跨模态注意力实现视觉-语言对齐,并入物理约束模块,使推理过程兼顾统计模式与物体 affordance、几何关系等物理规律,最终输出可执行的动作序列。
  • 自我中心认知:针对动态第一人称视角,模型采用视频 Transformer 处理长时序序列,建立跨帧一致性,通过 3D 场景图或神经辐射场构建可查询的空间记忆,支持对历史观测的回溯推理,准确回答涉及时空关系的问题。
  • 时空定位:RynnBrain 将历史视频编码为 episodic 记忆向量,支持基于自然语言的时序检索与关键帧定位,结合视觉 grounding 技术将文本映射到图像区域,通过空间坐标回归输出 3D 位置,能预测运动轨迹支持预测性规划。
  • 物理感知规划:区别于直接预测动作的 VLA 模型,RynnBrain 显式引入物理世界模型:提取物体 affordance、验证动作可行性、用层次化规划器将高层意图分解为带条件分支的低层动作,确保复杂长程任务的成功率。
  • 模型变体:提供 Dense(2B/8B)与 MoE(30B-A3B)两类架构:Dense 全参数激活适合实时边缘部署;MoE 稀疏激活兼顾大容量与低推理成本,并针对规划、导航、空间推理任务提供专门优化版本。

RynnBrain的项目地址

  • 项目官网:https://alibaba-damo-academy.github.io/RynnBrain.github.io/
  • GitHub仓库:https://github.com/alibaba-damo-academy/RynnBrain
  • HuggingFace模型库:https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

RynnBrain的应用场景

  • 工业制造:模型支持复杂装配线上的多步骤操作,任务中断后可自动续接,提升产线柔性。
  • 家庭服务:智能管家可记住物品摆放位置,完成跨房间取物指令并预测人员轨迹主动避让。
  • 医疗护理:辅助机器人记忆患者位置与状态,紧急中断后能恢复护理流程,精准递送器械。
  • 物流仓储:叉车与AGV在动态货架间实时更新环境记忆,预测运动轨迹避免碰撞。
  • 科研探索:野外考察机器人记录采样点时空信息,支持长期科考任务与灾难救援搜索。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章