Computer Use Preview – 谷歌开源的AI浏览器自动化工具

AI框架 2025-12-30

Computer Use Preview是什么

Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力,通过“截图 – 分析 – 行动”能模拟人类操作网页,无需依赖固定的元素定位。工具能处理复杂任务,如跨网站数据搬运和视觉交互,且在任务完成测试中表现优异,得分为 69%,优于同类工具。Computer Use Preview集成 Gemini API 和 Vertex AI,具备强大的任务理解能力,适用 Web 测试、数据采集及日常操作,是零代码入门的理想选择。

Computer Use Preview

Computer Use Preview的主要功能

  • 自然语言驱动:用户能通过简单的自然语言描述任务,AI 自动规划并执行操作,无需编写复杂脚本,大大降低使用门槛。
  • 智能交互:支持处理复杂的浏览器操作,如导航、点击、表单填写、滚动等。Gemini 模型能理解页面的动态变化,适应不同场景。
  • 双环境支持
    • Playwright(本地运行):在本地控制 Chrome 浏览器实例,适合需要本地数据处理的场景。
    • Browserbase(云环境):连接到 Browserbase 实例,适合需要云资源支持或分布式操作的场景。
  • 调试友好:支持截图和鼠标高亮功能,用户能实时监控执行过程,方便调试和优化操作。
  • AI 大模型集成:集成 Gemini API 和 Vertex AI,提供强大的任务理解能力,能够处理复杂的指令和动态网页内容。

如何使用Computer Use Preview

  • 准备工作:从 Computer Use Preview 的 GitHub 页面下载项目文件,解压到本地。
  • 设置运行环境:安装 Python(建议 3.8 及以上),创建虚拟环境并激活,用于隔离项目依赖。
  • 安装依赖:在项目文件夹中,运行命令安装项目依赖和 Playwright 浏览器。
  • 配置 API 密钥:从 Google Cloud 获取 Gemini API 密钥,将其添加到环境变量中。
  • 运行工具:用自然语言指令运行工具,例如:“Go to Google and type ‘Hello World’”。
  • 可选配置:指定运行环境(如 Playwright 或 Browserbase),并根据需要配置相关参数。

Computer Use Preview的项目地址

  • GitHub仓库:https://github.com/google-gemini/computer-use-preview
  • 在线体验地址Browserbase

Computer Use Preview的应用场景

  • Web 自动化测试:用于快速测试网页功能,验证按钮点击、表单提交等操作是否正常。
  • 数据采集:工具能自动从网页抓取数据,如爬取新闻、商品信息等,无需手动操作。
  • 跨网站数据搬运:将一个网站的数据自动搬运到另一个系统,简化数据迁移流程。
  • 日常任务自动化:工具支持完成日常重复性任务,如自动登录、定时查询等,节省时间和精力。
  • 视觉交互任务:工具能处理复杂的视觉交互,如识别网页元素并进行分类或拖拽操作。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章