PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型

AI项目 2026-06-26

PhoneBuddy是什么

PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型，核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock App混合 RL 训练方案，在 150 个真机评测任务中，单 App 和微信小程序任务成功率均超过 GPT-5.4，AndroidWorld 达 83.2%，证明小模型通过环境设计优化可具备强竞争力。

PhoneBuddy

PhoneBuddy的主要功能

手机 GUI 理解与操作：识别手机屏幕截图，预测点击、滑动、输入等下一步动作。
单 App 任务执行：在单个原生应用内完成搜索、设置、内容创建等操作。
跨 App 信息流转：在多应用间传递信息，完成需要协作的复杂任务。
微信小程序操作：支持在微信小程序生态内完成搜索、预订、查询等任务。
真实环境任务验证：验证任务是否真正完成，如消息是否发出、文档是否保存。

PhoneBuddy的技术原理

两阶段训练架构：通过 Shared SFT 让模型同时学习真实 App 和 Mock App 的操作轨迹，建立统一的手机操作基础能力；进入 RL 阶段，分别对比仅在真实环境训练和真实+Mock 混合训练的效果。
Real+Mock 混合 RL：真实 App 提供真实业务逻辑、账号状态和副作用；PhoneWorld Mock App 提供可重置、可验证、可规模化的训练信号，两者互补解决真实但难训练与可控但不真实的矛盾。
PhoneWorld 环境构建：从真实 GUI 使用结构中重建可运行的 Android Mock App，保留页面结构、跳转关系、可交互元素和任务验证器，使 RL 获得稳定的 reward 信号。
任务级验证机制：直接检查任务最终状态，如酒店预算是否被筛选、请假条内容是否正确粘贴，确保 Agent 真正完成用户目标。

挖挖GitHub

微信关注回复 “开源”，加入AI开源项目交流群

如何使用PhoneBuddy

环境准备：下载并配置 PhoneBuddy-4B 模型权重与依赖环境，准备 Android 真机或模拟器作为执行环境。
数据收集：采集真实 App 操作轨迹用于 SFT 阶段训练，同时构建或接入 PhoneWorld Mock App 获取可验证的交互数据。
模型训练：先执行 Shared SFT 训练使模型掌握统一操作格式，再选择 Real-only 或 Real+Mock 环境进行 RL 微调。
任务部署：将训练好的模型接入手机执行层（如 PhoneHarness），通过 GUI 或 CLI 方式下发任务指令。
结果验证：用任务验证器检查最终执行状态，确认任务是否真正完成而非仅页面看起来正确。

PhoneBuddy的核心优势

真实场景导向：训练直接面向真实手机和真实 App，而非仅优化离线 Benchmark 分数。
小模型高性能：仅 4B 参数就在单 App 和微信小程序任务上超过 GPT-5.4，证明环境设计比单纯堆参数更重要。
可验证的 RL 训练：PhoneWorld Mock 环境提供稳定 reward，使 RL 训练可规模化扩展。
完整技术栈开源：从环境、训练、执行到安全隐私评估全部公开。
任务完成度保障：通过约束跟随和信息转移验证，确保 Agent 真正执行用户意图。

PhoneBuddy的项目地址

项目官网：https://phonebuddyai.github.io/
GitHub仓库：https://github.com/PhoneBuddyAI/phonebuddy
HuggingFace模型库：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
技术论文：https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的同类竞品对比

对比维度	PhoneBuddy-4B-Real+Mock	GPT-5.4
模型规模	4B（开源）	闭源大模型（估计数百B级）
训练方式	Real+Mock 混合 RL	未公开具体手机 Agent 训练方案
单 App 成功率	62.0%	50.0%
微信小程序成功率	56.0%	40.0%
AndroidWorld	83.2%	70.7%
跨 App 成功率	18.0%	未明确列出（文章未提）
平均成功率	54.8%	48.2%
环境可控性	支持 Mock 环境重置与验证	依赖真实 API/环境

PhoneBuddy的应用场景

智能手机助手：用户通过自然语言指令让 Agent 完成查快递、订酒店、发消息等日常操作。
自动化测试：在真实 App 中自动执行 UI 测试流程，验证功能完整性和业务逻辑。
无障碍辅助：帮助视障或操作不便用户自动完成复杂的手机多步操作。
跨应用工作流：自动从邮件提取信息填入表格，或在多个办公 App 间传递数据。
小程序服务自动化：在微信小程序内完成查询、预约、下单等无需安装原生 App 的任务。

©️版权声明：若无特殊声明，本站所有文章版权均归AI工具集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI工具箱收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明区小号债务重组个人债务重组债务重组优化

Copyright © AI导航爱途网络粤ICP备15040630号-11

粤公网安备 123456789号