MAI-UI – 阿里通义开源的全尺寸GUI智能体基座模型
MAI-UI是什么
MAI-UI 是通义实验室推出的全尺寸 GUI 智能体基座模型,具备用户交互、工具调用和端云协同三大核心能力。框架通过自主进化数据管线和大规模在线强化学习技术,实现了从 2B 到 235B-A22B 的全尺寸覆盖,适用于多种场景。在 GUI 视觉定位和任务执行能力上全面领先,登顶多个权威评测集。MAI-UI的端云协同架构保障隐私的同时提升性能,动态环境适应性使其在真实任务中表现出色,为下一代人机交互提供强大支持。

MAI-UI的主要功能
-
用户交互:当用户指令不完整或模糊时,MAI-UI 能主动提问以澄清关键信息,确保任务执行符合用户的真实意图。
-
工具调用(MCP):通过 Model-Callable Protocol(MCP)直接调用外部工具,将复杂的 UI 操作简化为高效、可靠的 API 调用。
-
端云协同:本地轻量模型负责日常任务,复杂任务可无缝切换至云端模型,同时保障用户隐私和数据安全。
-
任务执行:在多种操作系统中实现高效的 GUI 任务自动化,支持跨应用操作和复杂场景下的任务规划。
-
动态环境适应性:面对真实环境中的弹窗、广告、UI 变化等干扰,MAI-UI 能自主回退或重新定位,确保任务连贯性。
MAI-UI的技术原理
-
自主进化数据管线:MAI-UI 采用自主进化数据管线,将用户交互、MCP 工具调用等多维度数据集成到训练过程中。通过人工标注和模型自动生成高质量的训练数据,数据管线能持续更新,使模型在复杂场景中不断进化,提升对真实任务的理解和执行能力。
-
大规模在线强化学习:模型通过大规模在线强化学习提升泛化性和稳健性。在动态环境中进行训练,支持超长轨迹(最长 50 步)和动态扰动注入机制(如弹窗、权限、UI 偏移)。使模型能适应真实 GUI 任务中的各种干扰,确保任务执行的连贯性和成功率。
-
端云协同架构:MAI-UI 设计了端云协同架构,轻量级本地模型作为“轨迹监控器”,实时判断任务执行路径是否偏离用户意图。当任务在端侧卡住且不涉及隐私信息时,系统会触发云端模型接力,确保任务顺利完成。同时,涉及隐私的操作始终在本地执行,保障用户数据安全。
-
多模态交互能力:基于多模态大语言模型(如 Qwen3-VL),MAI-UI 实现对 GUI 界面的视觉感知和语言理解。模型支持多种操作,如点击、滑动、输入等,能完成复杂的任务序列,从而在多种操作系统(如手机、电脑、网页)上实现高效的 GUI 任务自动化。
MAI-UI的项目地址
- GitHub仓库:https://github.com/Tongyi-MAI/MAI-UI
- HuggingFace模型库:https://huggingface.co/Tongyi-MAI/models
- arXiv技术论文:https://arxiv.org/pdf/2512.22047
MAI-UI的应用场景
-
家庭生活场景:在家庭购物时,MAI-UI 能根据日历中的待办事项,主动提示是否将车厘子、洗衣液等商品加入购物车,确保用户不会遗漏重要物品。
-
办公场景:在办公中协助用户处理文件,如查找简历文件并发送给 HR 同事,同时主动询问关键信息,确保任务顺利完成。
-
出行场景:用户能要求 MAI-UI 规划从一个地点到另一个地点的最优路线,将结果记录在笔记中,方便随时查看。
-
社交场景:在社交群组中同步重要信息,如到达时间、在群内 @ 相关人员,确保信息及时传达。
-
学习与教育场景:用户能要求 MAI-UI 打开学习平台,找到指定课程,记录课程中的重点内容,方便后续复习。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号