DataChef – 上海AI Lab联合复旦开源的AI数据配方生成模型

AI项目 2026-03-26

DataChef是什么

DataChef是上海人工智能实验室与复旦大学联合开源的AI数据配方生成模型。模型通过强化学习自动生成大模型适配任务的完整数据处理流水线，包括数据选择、清洗、合成、配比等步骤的可执行代码。DataChef仅需输入目标任务和可用数据源，AI可自动”炼丹”数据。32B参数版本在数学、代码、金融等6个领域测试中性能逼近Gemini-3-Pro，在部分任务上超越工业级专家配方，标志着数据工程从人工经验迈向自动化新范式。

DataChef

DataChef的主要功能

自动配方生成：DataChef能根据目标任务和可用数据源自动生成完整的数据配方。
代码输出：模型会输出可执行的Python数据处理代码，构建从原始数据到训练集的自动化流水线。
多环节处理：支持数据选择、清洗、增强、混合、去重等多种处理操作。
即训即用：生成的数据配方可直接用于大模型微调适配特定领域。
质量验证：DataChef内置数据验证器，能评估数据质量和指导优化过程。

DataChef的技术原理

任务建模：DataChef将数据配方生成建模为端到端的强化学习任务，策略模型接收任务指令后生成包含自然语言计划和Python代码的数据配方。
代理奖励机制：为解决训练反馈成本高昂的问题，研究团队设计了Data Verifier作为代理奖励机制，验证器通过将样本分类为五个质量等级并基于采样子集评分，实现对数据质量的低成本实时预测。
训练优化：训练过程采用冷启动监督微调初始化，结合GRPO算法进行在线强化学习优化，通过解耦推理与代码生成提升策略稳定性，使模型能在庞大的代码组合空间中高效探索最优数据方案。

DataChef的关键信息和使用要求

研发团队：上海人工智能实验室（书生·浦语团队）联合复旦大学
模型规模：开源32B参数版本（DataChef-32B）
性能水平：在6个held-out测试任务上逼近闭源顶级模型Gemini-3-Pro，部分任务超越工业级专家配方
核心创新：首次将端到端数据配方生成建模为全局决策问题，通过在线强化学习实现自动优化闭环
数据基础：覆盖19个领域、31个评测集、257个源数据集
环境配置：Python 3.12，通过pip安装依赖
硬件资源：运行32B模型需要足够显存或API访问能力
模型端点：需配置Planner和Coder模型的API端点（支持OpenAI兼容接口）

DataChef的核心优势

端到端自动化：突破传统局部启发式规则，将数据配方生成提升为端到端任务，AI直接输出完整可执行的数据处理流水线，无需人工编排操作步骤。
强化学习驱动：通过在线强化学习形成自动优化闭环，模型能在庞大代码组合空间中自我进化，持续探索更优数据方案，告别人工反复试错。
低成本验证机制：模型创新提出Data Verifier代理奖励信号，无需完整模型训练即可实时预测数据质量，大幅降低传统数据工程的效果验证成本。
越级性能表现：32B参数开源模型在多项测试中逼近Gemini-3-Pro，部分复杂任务上超越工业级专家配方，证明AI自动生成方案优于人工经验设计。
开放基础设施：构建覆盖19个领域的大规模任务池并全面开源，为自动化数据工程、自我进化AI等前沿研究提供系统化支撑。

如何使用DataChef

环境安装：创建Python 3.12虚拟环境，通过pip install -e .命令完成DataChef安装。
配置文件：复制示例配置文件并命名为datachef.config.json，填入模型端点地址、API密钥及Planner和Coder模型名称。
准备输入：按JSONL格式准备任务文件，每行包含任务ID、任务描述与评测基准、以及候选数据源列表。
运行生成：执行datachef-eval --config test命令启动流程，系统自动生成数据配方计划、Python代码并执行验证。
获取输出：在data/code/和data/data-verifier/目录下获取生成的数据处理代码、执行报告和数据质量验证分数。
调整参数：通过--timeout设置代码执行超时时间，--max_workers控制并行 worker 数量，--parse_reasoning输出模型推理过程。

DataChef的项目地址

GitHub仓库：https://github.com/yichengchen24/DataChe
HuggingFace模型库：https://huggingface.co/yichengchen24/DataChef-32B
arXiv技术论文：https://arxiv.org/pdf/2602.11089
在线体验Demo：https://huggingface.co/spaces/yichengchen24/DataChef

DataChef的同类竞品对比

维度	DataChef	Data-Juicer Sandbox	AIDE
研发机构	上海人工智能实验室 + 复旦大学	阿里巴巴达摩院	微软研究院
核心定位	端到端数据配方自动生成	数据沙盒探针分析与算子优化	自动化数据科学与模型开发
技术路线	在线强化学习 + Data Verifier代理奖励	Probe-Analyze-Refine工作流 + 下游训练反馈	迭代探索与试错执行 + 搜索外部知识
自动化程度	完全自动化生成完整流水线代码	半自动化，需人工定义算子池	自动化但依赖预设工作流模板
反馈机制	低成本实时数据验证，无需完整训练	依赖实际模型训练与评测，成本高昂	基于执行结果迭代优化
输出形式	可执行Python代码 + 训练数据集	优化后的数据处理算子组合	完整的数据科学解决方案

DataChef的应用场景

领域大模型训练：为数学、代码、金融、医疗、气象等垂直领域自动生成适配的数据配方，快速构建领域专用模型。
数据工程自动化：替代传统依赖专家经验的手工数据筛选与配比流程，实现从原始数据到训练集的全流程自动化处理。
模型后训练优化：为已有基座模型生成高质量微调数据，提升模型在特定任务上的性能表现。
低资源场景数据增强：在数据稀缺的领域自动合成训练样本，通过数据增强技术扩充有效训练数据规模。
AI研究自动化：作为自动化AI研究（Automated AI Research）的基础设施，支持自我进化AI系统的数据自我改进闭环。

©️版权声明：若无特殊声明，本站所有文章版权均归AI工具集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI工具箱收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明区小号债务重组个人债务重组债务重组优化

Copyright © AI导航爱途网络粤ICP备15040630号-11

粤公网安备 123456789号