BigSet – TinyFish 开源的多智能体实时网络抓取工具

AI项目 2026-06-09

BigSet是什么

Bigset 是美国初创公司 TinyFish 推出的开源多智能体系统，采用 AGPL-3.0 协议。用户只需用自然语言描述所需数据，系统可自动推断表结构、派遣智能体从实时网络抓取数据、去重验证，最终生成可导出的 CSV/XLSX 结构化数据集。工具支持 30 分钟至每周的定时刷新，让数据集保持实时更新。

BigSet的主要功能

自然语言建表：只需用一句话描述所需数据，AI 自动推断列名、数据类型和主键，无需手动设计表结构。
多智能体采集：编排器智能体发现目标实体，子智能体并行抓取单条数据，每人最多 6 次工具调用，自动完成从发现到填充的全流程。
自动去重溯源：基于主键自动去重，每行数据附带来源 URL，确保所有数据均可追溯验证。
定时刷新：支持 30 分钟、6 小时、12 小时、每日、每周五种频率自动更新，让数据集保持实时同步。
格式导出：生成结果支持 CSV 和 XLSX 两种格式直接下载，方便接入 Excel 或数据分析工具。
预置数据集：内置 9 个精选公开数据集，开箱即用。

BigSet的技术原理

多智能体编排架构：BigSet 基于 Mastra 框架构建多智能体系统，核心由编排器和子智能体（Worker Agent）组成。编排器负责发现目标实体并生成抓取任务，子智能体并行执行单条数据抓取，每人最多 6 次工具调用，通过 Vercel AI SDK 和 OpenRouter 统一调度 Claude Sonnet 与 Qwen 模型。
表结构自动推断：系统接收自然语言描述后，由 Claude Sonnet 分析语义意图，自动推断列名、数据类型和主键约束。该过程无需人工指定 Schema，LLM 根据描述中的实体关系和数据特征生成结构化表定义，并作为后续采集的验证基准。
数据采集与去重验证：编排器将目标实体拆分为独立任务，分派给子智能体并行抓取。每个子智能体调用 TinyFish Search / Fetch / Browser API 从实时网络获取数据，返回结果后系统基于主键自动去重，为每行数据附加来源 URL，确保数据可追溯。
安全防护机制：为防止提示词注入攻击，数据集 ID 不通过系统提示传递给 LLM，采用 JS 闭包在运行时注入。LLM 全程无法直接访问或泄露数据集标识，实现采集逻辑与数据权限的隔离。

如何使用BigSet

环境准备：安装 Docker 和 Make，并前往 TinyFish、OpenRouter、Clerk 官网注册账号以获取 API 密钥。
克隆仓库：执行 git clone https://github.com/tinyfish-io/bigset.git 下载项目代码，并将 .env.example 复制为 .env 文件。
配置密钥：在 .env 文件中填入 TinyFish、OpenRouter、Clerk 三类 API 密钥，确保服务具备数据采集、模型调用和身份认证的权限。
启动服务：运行 make dev 命令，系统会自动安装依赖、启动 Postgres 和 Convex 数据库，完成服务部署。
访问使用：打开浏览器访问 localhost:3500，注册并登录后，在输入框中用自然语言描述所需数据，系统可自动生成结构化数据集。
加载预置数据（可选）：执行 make seed-public-datasets 命令，可一键加载内置的 9 个精选公开数据集，快速体验核心功能。

BigSet的核心优势

零配置采集：无需编写爬虫、选择器或指定 URL，纯自然语言描述即可自动生成结构化数据集。
安全隔离：数据集 ID 通过 JS 闭包注入，LLM 全程无法访问，有效防止提示词注入攻击。
开源可自托管：采用 AGPL-3.0 协议，Docker 一键部署，数据完全自主可控。
企业级基建：基于 TinyFish 已处理 4000 万+ 智能体操作的企业级搜索与抓取 API，稳定可靠。

BigSet的项目地址

GitHub仓库：https://github.com/tinyfish-io/bigset

BigSet的同类竞品对比

对比维度	BigSet	Firecrawl
产品定位	多智能体驱动的数据集生成平台，从自然语言描述到可导出的结构化数据集	API-first 的网页抓取与爬取平台，将网站转换为 LLM-ready 的 Markdown 或结构化数据
输入方式	自然语言描述所需数据主题（如”AI 招聘公司信息”）	指定 URL 爬取，或通过 `/agent` 端点用自然语言描述需求（无需 URL）
数据源发现	AI 自动推断表结构并发现实体来源，无需人工提供任何链接	`/agent` 可自主搜索导航，但常规模式需用户指定起始 URL 或站点地图
表结构定义	LLM 自动推断 Schema（列名、数据类型、主键），生成关系型数据集	支持 JSON Schema 或自然语言提示定义提取结构，输出为 JSON 对象
采集范围	跨站点聚合多源数据，自动去重生成统一数据集	基于给定 URL 递归爬取或单页提取，聚焦已知站点的内容
自动化程度	编排器+子智能体闭环：发现→抓取→去重→验证→建表→导出，全流程自主	单链路或 Agent 模式执行抓取转换，需外部工具配合完成数据集管理
定时刷新	原生支持（30 分钟 / 6 小时 / 12 小时 / 每日 / 每周）	支持 Scheduled Jobs 定期执行，但需通过 API 或外部调度配置
输出格式	CSV、XLSX（附带来源 URL，可直接用于 Excel/BI）	Markdown、JSON、HTML、截图、链接（面向 LLM/RAG 管道优化）
数据去重	基于主键自动去重，确保数据集唯一性	需用户在下游自行处理去重逻辑

BigSet的应用场景

竞品监控：自动追踪竞争对手的产品价格、功能更新、招聘信息等，生成可定时刷新的结构化情报表。
市场研究：收集特定行业内的公司信息、融资动态、市场份额数据，快速构建行业数据库。
投资分析：跟踪股票、加密货币、初创公司融资轮次及估值变化，支持投资决策的数据采集。
招聘情报：监控目标公司或行业的职位发布、技能要求、薪资范围，分析人才市场趋势。
电商比价：抓取多平台商品的价格、库存、评价数据，建立实时更新的比价数据集。

BigSet – TinyFish 开源的多智能体实时网络抓取工具

BigSet是什么

BigSet的主要功能

BigSet的技术原理

如何使用BigSet

BigSet的核心优势

BigSet的项目地址

BigSet的同类竞品对比

BigSet的应用场景

U2 – 云知声推出的原生智能体大模型

WBench – 美团推出的交互式视频世界模型多轮评测基准

相关文章

最新文章

热门工具

AI导航 爱途网络

BigSet – TinyFish 开源的多智能体实时网络抓取工具

BigSet是什么

BigSet的主要功能

BigSet的技术原理

如何使用BigSet

BigSet的核心优势

BigSet的项目地址

BigSet的同类竞品对比

BigSet的应用场景

U2 – 云知声推出的原生智能体大模型

WBench – 美团推出的交互式视频世界模型多轮评测基准

相关文章

最新文章

热门工具

AI导航爱途网络