PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型

AI项目 2026-06-26

PhoneBuddy是什么

PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock App混合 RL 训练方案,在 150 个真机评测任务中,单 App 和微信小程序任务成功率均超过 GPT-5.4,AndroidWorld 达 83.2%,证明小模型通过环境设计优化可具备强竞争力。

PhoneBuddy

PhoneBuddy的主要功能

  • 手机 GUI 理解与操作:识别手机屏幕截图,预测点击、滑动、输入等下一步动作。
  • 单 App 任务执行:在单个原生应用内完成搜索、设置、内容创建等操作。
  • 跨 App 信息流转:在多应用间传递信息,完成需要协作的复杂任务。
  • 微信小程序操作:支持在微信小程序生态内完成搜索、预订、查询等任务。
  • 真实环境任务验证:验证任务是否真正完成,如消息是否发出、文档是否保存。

PhoneBuddy的技术原理

  • 两阶段训练架构:通过 Shared SFT 让模型同时学习真实 App 和 Mock App 的操作轨迹,建立统一的手机操作基础能力;进入 RL 阶段,分别对比仅在真实环境训练和真实+Mock 混合训练的效果。
  • Real+Mock 混合 RL:真实 App 提供真实业务逻辑、账号状态和副作用;PhoneWorld Mock App 提供可重置、可验证、可规模化的训练信号,两者互补解决真实但难训练与可控但不真实的矛盾。
  • PhoneWorld 环境构建:从真实 GUI 使用结构中重建可运行的 Android Mock App,保留页面结构、跳转关系、可交互元素和任务验证器,使 RL 获得稳定的 reward 信号。
  • 任务级验证机制:直接检查任务最终状态,如酒店预算是否被筛选、请假条内容是否正确粘贴,确保 Agent 真正完成用户目标。
挖挖GitHub

微信关注回复 “开源”,加入AI开源项目交流群

如何使用PhoneBuddy

  • 环境准备:下载并配置 PhoneBuddy-4B 模型权重与依赖环境,准备 Android 真机或模拟器作为执行环境。
  • 数据收集:采集真实 App 操作轨迹用于 SFT 阶段训练,同时构建或接入 PhoneWorld Mock App 获取可验证的交互数据。
  • 模型训练:先执行 Shared SFT 训练使模型掌握统一操作格式,再选择 Real-only 或 Real+Mock 环境进行 RL 微调。
  • 任务部署:将训练好的模型接入手机执行层(如 PhoneHarness),通过 GUI 或 CLI 方式下发任务指令。
  • 结果验证:用任务验证器检查最终执行状态,确认任务是否真正完成而非仅页面看起来正确。

PhoneBuddy的核心优势

  • 真实场景导向:训练直接面向真实手机和真实 App,而非仅优化离线 Benchmark 分数。
  • 小模型高性能:仅 4B 参数就在单 App 和微信小程序任务上超过 GPT-5.4,证明环境设计比单纯堆参数更重要。
  • 可验证的 RL 训练:PhoneWorld Mock 环境提供稳定 reward,使 RL 训练可规模化扩展。
  • 完整技术栈开源:从环境、训练、执行到安全隐私评估全部公开。
  • 任务完成度保障:通过约束跟随和信息转移验证,确保 Agent 真正执行用户意图。

PhoneBuddy的项目地址

  • 项目官网:https://phonebuddyai.github.io/
  • GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy
  • HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
  • 技术论文:https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的同类竞品对比

对比维度 PhoneBuddy-4B-Real+Mock GPT-5.4
模型规模 4B(开源) 闭源大模型(估计数百B级)
训练方式 Real+Mock 混合 RL 未公开具体手机 Agent 训练方案
单 App 成功率 62.0% 50.0%
微信小程序成功率 56.0% 40.0%
AndroidWorld 83.2% 70.7%
跨 App 成功率 18.0% 未明确列出(文章未提)
平均成功率 54.8% 48.2%
环境可控性 支持 Mock 环境重置与验证 依赖真实 API/环境

PhoneBuddy的应用场景

  • 智能手机助手:用户通过自然语言指令让 Agent 完成查快递、订酒店、发消息等日常操作。
  • 自动化测试:在真实 App 中自动执行 UI 测试流程,验证功能完整性和业务逻辑。
  • 无障碍辅助:帮助视障或操作不便用户自动完成复杂的手机多步操作。
  • 跨应用工作流:自动从邮件提取信息填入表格,或在多个办公 App 间传递数据。
  • 小程序服务自动化:在微信小程序内完成查询、预约、下单等无需安装原生 App 的任务。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章