MAI-UI – 阿里通义开源的全尺寸GUI智能体基座模型

AI框架 2025-12-29

MAI-UI是什么

MAI-UI 是通义实验室推出的全尺寸 GUI 智能体基座模型，具备用户交互、工具调用和端云协同三大核心能力。框架通过自主进化数据管线和大规模在线强化学习技术，实现了从 2B 到 235B-A22B 的全尺寸覆盖，适用于多种场景。在 GUI 视觉定位和任务执行能力上全面领先，登顶多个权威评测集。MAI-UI的端云协同架构保障隐私的同时提升性能，动态环境适应性使其在真实任务中表现出色，为下一代人机交互提供强大支持。

MAI-UI的主要功能

用户交互：当用户指令不完整或模糊时，MAI-UI 能主动提问以澄清关键信息，确保任务执行符合用户的真实意图。
工具调用（MCP）：通过 Model-Callable Protocol（MCP）直接调用外部工具，将复杂的 UI 操作简化为高效、可靠的 API 调用。
端云协同：本地轻量模型负责日常任务，复杂任务可无缝切换至云端模型，同时保障用户隐私和数据安全。
任务执行：在多种操作系统中实现高效的 GUI 任务自动化，支持跨应用操作和复杂场景下的任务规划。
动态环境适应性：面对真实环境中的弹窗、广告、UI 变化等干扰，MAI-UI 能自主回退或重新定位，确保任务连贯性。

MAI-UI的技术原理

自主进化数据管线：MAI-UI 采用自主进化数据管线，将用户交互、MCP 工具调用等多维度数据集成到训练过程中。通过人工标注和模型自动生成高质量的训练数据，数据管线能持续更新，使模型在复杂场景中不断进化，提升对真实任务的理解和执行能力。
大规模在线强化学习：模型通过大规模在线强化学习提升泛化性和稳健性。在动态环境中进行训练，支持超长轨迹（最长 50 步）和动态扰动注入机制（如弹窗、权限、UI 偏移）。使模型能适应真实 GUI 任务中的各种干扰，确保任务执行的连贯性和成功率。
端云协同架构：MAI-UI 设计了端云协同架构，轻量级本地模型作为“轨迹监控器”，实时判断任务执行路径是否偏离用户意图。当任务在端侧卡住且不涉及隐私信息时，系统会触发云端模型接力，确保任务顺利完成。同时，涉及隐私的操作始终在本地执行，保障用户数据安全。
多模态交互能力：基于多模态大语言模型（如 Qwen3-VL），MAI-UI 实现对 GUI 界面的视觉感知和语言理解。模型支持多种操作，如点击、滑动、输入等，能完成复杂的任务序列，从而在多种操作系统（如手机、电脑、网页）上实现高效的 GUI 任务自动化。