PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型
PhoneBuddy是什么
PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock App混合 RL 训练方案,在 150 个真机评测任务中,单 App 和微信小程序任务成功率均超过 GPT-5.4,AndroidWorld 达 83.2%,证明小模型通过环境设计优化可具备强竞争力。

PhoneBuddy的主要功能
-
手机 GUI 理解与操作:识别手机屏幕截图,预测点击、滑动、输入等下一步动作。
-
单 App 任务执行:在单个原生应用内完成搜索、设置、内容创建等操作。
-
跨 App 信息流转:在多应用间传递信息,完成需要协作的复杂任务。
-
微信小程序操作:支持在微信小程序生态内完成搜索、预订、查询等任务。
-
真实环境任务验证:验证任务是否真正完成,如消息是否发出、文档是否保存。
PhoneBuddy的技术原理
- 两阶段训练架构:通过 Shared SFT 让模型同时学习真实 App 和 Mock App 的操作轨迹,建立统一的手机操作基础能力;进入 RL 阶段,分别对比仅在真实环境训练和真实+Mock 混合训练的效果。
- Real+Mock 混合 RL:真实 App 提供真实业务逻辑、账号状态和副作用;PhoneWorld Mock App 提供可重置、可验证、可规模化的训练信号,两者互补解决真实但难训练与可控但不真实的矛盾。
- PhoneWorld 环境构建:从真实 GUI 使用结构中重建可运行的 Android Mock App,保留页面结构、跳转关系、可交互元素和任务验证器,使 RL 获得稳定的 reward 信号。
- 任务级验证机制:直接检查任务最终状态,如酒店预算是否被筛选、请假条内容是否正确粘贴,确保 Agent 真正完成用户目标。

微信关注回复 “开源”,加入AI开源项目交流群
如何使用PhoneBuddy
- 环境准备:下载并配置 PhoneBuddy-4B 模型权重与依赖环境,准备 Android 真机或模拟器作为执行环境。
- 数据收集:采集真实 App 操作轨迹用于 SFT 阶段训练,同时构建或接入 PhoneWorld Mock App 获取可验证的交互数据。
- 模型训练:先执行 Shared SFT 训练使模型掌握统一操作格式,再选择 Real-only 或 Real+Mock 环境进行 RL 微调。
- 任务部署:将训练好的模型接入手机执行层(如 PhoneHarness),通过 GUI 或 CLI 方式下发任务指令。
- 结果验证:用任务验证器检查最终执行状态,确认任务是否真正完成而非仅页面看起来正确。
PhoneBuddy的核心优势
-
真实场景导向:训练直接面向真实手机和真实 App,而非仅优化离线 Benchmark 分数。
-
小模型高性能:仅 4B 参数就在单 App 和微信小程序任务上超过 GPT-5.4,证明环境设计比单纯堆参数更重要。
-
可验证的 RL 训练:PhoneWorld Mock 环境提供稳定 reward,使 RL 训练可规模化扩展。
-
完整技术栈开源:从环境、训练、执行到安全隐私评估全部公开。
-
任务完成度保障:通过约束跟随和信息转移验证,确保 Agent 真正执行用户意图。
PhoneBuddy的项目地址
- 项目官网:https://phonebuddyai.github.io/
- GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy
- HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
- 技术论文:https://phonebuddyai.github.io/assets/paper.pdf
PhoneBuddy的同类竞品对比
| 对比维度 | PhoneBuddy-4B-Real+Mock | GPT-5.4 |
|---|---|---|
| 模型规模 | 4B(开源) | 闭源大模型(估计数百B级) |
| 训练方式 | Real+Mock 混合 RL | 未公开具体手机 Agent 训练方案 |
| 单 App 成功率 | 62.0% | 50.0% |
| 微信小程序成功率 | 56.0% | 40.0% |
| AndroidWorld | 83.2% | 70.7% |
| 跨 App 成功率 | 18.0% | 未明确列出(文章未提) |
| 平均成功率 | 54.8% | 48.2% |
| 环境可控性 | 支持 Mock 环境重置与验证 | 依赖真实 API/环境 |
PhoneBuddy的应用场景
-
智能手机助手:用户通过自然语言指令让 Agent 完成查快递、订酒店、发消息等日常操作。
-
自动化测试:在真实 App 中自动执行 UI 测试流程,验证功能完整性和业务逻辑。
-
无障碍辅助:帮助视障或操作不便用户自动完成复杂的手机多步操作。
-
跨应用工作流:自动从邮件提取信息填入表格,或在多个办公 App 间传递数据。
-
小程序服务自动化:在微信小程序内完成查询、预约、下单等无需安装原生 App 的任务。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号