BigSet – TinyFish 开源的多智能体实时网络抓取工具
BigSet是什么
Bigset 是美国初创公司 TinyFish 推出的开源多智能体系统,采用 AGPL-3.0 协议。用户只需用自然语言描述所需数据,系统可自动推断表结构、派遣智能体从实时网络抓取数据、去重验证,最终生成可导出的 CSV/XLSX 结构化数据集。工具支持 30 分钟至每周的定时刷新,让数据集保持实时更新。

BigSet的主要功能
-
自然语言建表:只需用一句话描述所需数据,AI 自动推断列名、数据类型和主键,无需手动设计表结构。
-
多智能体采集:编排器智能体发现目标实体,子智能体并行抓取单条数据,每人最多 6 次工具调用,自动完成从发现到填充的全流程。
-
自动去重溯源:基于主键自动去重,每行数据附带来源 URL,确保所有数据均可追溯验证。
-
定时刷新:支持 30 分钟、6 小时、12 小时、每日、每周五种频率自动更新,让数据集保持实时同步。
-
格式导出:生成结果支持 CSV 和 XLSX 两种格式直接下载,方便接入 Excel 或数据分析工具。
-
预置数据集:内置 9 个精选公开数据集,开箱即用。
BigSet的技术原理
- 多智能体编排架构:BigSet 基于 Mastra 框架构建多智能体系统,核心由编排器和子智能体(Worker Agent)组成。编排器负责发现目标实体并生成抓取任务,子智能体并行执行单条数据抓取,每人最多 6 次工具调用,通过 Vercel AI SDK 和 OpenRouter 统一调度 Claude Sonnet 与 Qwen 模型。
- 表结构自动推断:系统接收自然语言描述后,由 Claude Sonnet 分析语义意图,自动推断列名、数据类型和主键约束。该过程无需人工指定 Schema,LLM 根据描述中的实体关系和数据特征生成结构化表定义,并作为后续采集的验证基准。
- 数据采集与去重验证:编排器将目标实体拆分为独立任务,分派给子智能体并行抓取。每个子智能体调用 TinyFish Search / Fetch / Browser API 从实时网络获取数据,返回结果后系统基于主键自动去重,为每行数据附加来源 URL,确保数据可追溯。
- 安全防护机制:为防止提示词注入攻击,数据集 ID 不通过系统提示传递给 LLM,采用 JS 闭包在运行时注入。LLM 全程无法直接访问或泄露数据集标识,实现采集逻辑与数据权限的隔离。
如何使用BigSet
- 环境准备:安装 Docker 和 Make,并前往 TinyFish、OpenRouter、Clerk 官网注册账号以获取 API 密钥。
-
克隆仓库:执行
git clone https://github.com/tinyfish-io/bigset.git下载项目代码,并将.env.example复制为.env文件。 -
配置密钥:在
.env文件中填入 TinyFish、OpenRouter、Clerk 三类 API 密钥,确保服务具备数据采集、模型调用和身份认证的权限。 -
启动服务:运行
make dev命令,系统会自动安装依赖、启动 Postgres 和 Convex 数据库,完成服务部署。 -
访问使用:打开浏览器访问
localhost:3500,注册并登录后,在输入框中用自然语言描述所需数据,系统可自动生成结构化数据集。 -
加载预置数据(可选):执行
make seed-public-datasets命令,可一键加载内置的 9 个精选公开数据集,快速体验核心功能。
BigSet的核心优势
-
零配置采集:无需编写爬虫、选择器或指定 URL,纯自然语言描述即可自动生成结构化数据集。
-
安全隔离:数据集 ID 通过 JS 闭包注入,LLM 全程无法访问,有效防止提示词注入攻击。
-
开源可自托管:采用 AGPL-3.0 协议,Docker 一键部署,数据完全自主可控。
-
企业级基建:基于 TinyFish 已处理 4000 万+ 智能体操作的企业级搜索与抓取 API,稳定可靠。
BigSet的项目地址
- GitHub仓库:https://github.com/tinyfish-io/bigset
BigSet的同类竞品对比
| 对比维度 | BigSet | Firecrawl |
|---|---|---|
| 产品定位 | 多智能体驱动的数据集生成平台,从自然语言描述到可导出的结构化数据集 | API-first 的网页抓取与爬取平台,将网站转换为 LLM-ready 的 Markdown 或结构化数据 |
| 输入方式 | 自然语言描述所需数据主题(如”AI 招聘公司信息”) | 指定 URL 爬取,或通过 /agent 端点用自然语言描述需求(无需 URL) |
| 数据源发现 | AI 自动推断表结构并发现实体来源,无需人工提供任何链接 |
/agent 可自主搜索导航,但常规模式需用户指定起始 URL 或站点地图 |
| 表结构定义 | LLM 自动推断 Schema(列名、数据类型、主键),生成关系型数据集 | 支持 JSON Schema 或自然语言提示定义提取结构,输出为 JSON 对象 |
| 采集范围 | 跨站点聚合多源数据,自动去重生成统一数据集 | 基于给定 URL 递归爬取或单页提取,聚焦已知站点的内容 |
| 自动化程度 | 编排器+子智能体闭环:发现→抓取→去重→验证→建表→导出,全流程自主 | 单链路或 Agent 模式执行抓取转换,需外部工具配合完成数据集管理 |
| 定时刷新 | 原生支持(30 分钟 / 6 小时 / 12 小时 / 每日 / 每周) | 支持 Scheduled Jobs 定期执行,但需通过 API 或外部调度配置 |
| 输出格式 | CSV、XLSX(附带来源 URL,可直接用于 Excel/BI) | Markdown、JSON、HTML、截图、链接(面向 LLM/RAG 管道优化) |
| 数据去重 | 基于主键自动去重,确保数据集唯一性 | 需用户在下游自行处理去重逻辑 |
BigSet的应用场景
-
竞品监控:自动追踪竞争对手的产品价格、功能更新、招聘信息等,生成可定时刷新的结构化情报表。
-
市场研究:收集特定行业内的公司信息、融资动态、市场份额数据,快速构建行业数据库。
-
投资分析:跟踪股票、加密货币、初创公司融资轮次及估值变化,支持投资决策的数据采集。
-
招聘情报:监控目标公司或行业的职位发布、技能要求、薪资范围,分析人才市场趋势。
-
电商比价:抓取多平台商品的价格、库存、评价数据,建立实时更新的比价数据集。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号