DataChef – 上海AI Lab联合复旦开源的AI数据配方生成模型

AI项目 2026-03-26

DataChef是什么

DataChef是上海人工智能实验室与复旦大学联合开源的AI数据配方生成模型。模型通过强化学习自动生成大模型适配任务的完整数据处理流水线,包括数据选择、清洗、合成、配比等步骤的可执行代码。DataChef仅需输入目标任务和可用数据源,AI可自动”炼丹”数据。32B参数版本在数学、代码、金融等6个领域测试中性能逼近Gemini-3-Pro,在部分任务上超越工业级专家配方,标志着数据工程从人工经验迈向自动化新范式。

DataChef

DataChef的主要功能

  • 自动配方生成:DataChef能根据目标任务和可用数据源自动生成完整的数据配方。
  • 代码输出:模型会输出可执行的Python数据处理代码,构建从原始数据到训练集的自动化流水线。
  • 多环节处理:支持数据选择、清洗、增强、混合、去重等多种处理操作。
  • 即训即用:生成的数据配方可直接用于大模型微调适配特定领域。
  • 质量验证:DataChef内置数据验证器,能评估数据质量和指导优化过程。

DataChef的技术原理

  • 任务建模:DataChef将数据配方生成建模为端到端的强化学习任务,策略模型接收任务指令后生成包含自然语言计划和Python代码的数据配方。
  • 代理奖励机制:为解决训练反馈成本高昂的问题,研究团队设计了Data Verifier作为代理奖励机制,验证器通过将样本分类为五个质量等级并基于采样子集评分,实现对数据质量的低成本实时预测。
  • 训练优化:训练过程采用冷启动监督微调初始化,结合GRPO算法进行在线强化学习优化,通过解耦推理与代码生成提升策略稳定性,使模型能在庞大的代码组合空间中高效探索最优数据方案。

DataChef的关键信息和使用要求

  • 研发团队:上海人工智能实验室(书生·浦语团队)联合复旦大学
  • 模型规模:开源32B参数版本(DataChef-32B)
  • 性能水平:在6个held-out测试任务上逼近闭源顶级模型Gemini-3-Pro,部分任务超越工业级专家配方
  • 核心创新:首次将端到端数据配方生成建模为全局决策问题,通过在线强化学习实现自动优化闭环
  • 数据基础:覆盖19个领域、31个评测集、257个源数据集
  • 环境配置:Python 3.12,通过pip安装依赖
  • 硬件资源:运行32B模型需要足够显存或API访问能力
  • 模型端点:需配置Planner和Coder模型的API端点(支持OpenAI兼容接口)

DataChef的核心优势

  • 端到端自动化:突破传统局部启发式规则,将数据配方生成提升为端到端任务,AI直接输出完整可执行的数据处理流水线,无需人工编排操作步骤。
  • 强化学习驱动:通过在线强化学习形成自动优化闭环,模型能在庞大代码组合空间中自我进化,持续探索更优数据方案,告别人工反复试错。
  • 低成本验证机制:模型创新提出Data Verifier代理奖励信号,无需完整模型训练即可实时预测数据质量,大幅降低传统数据工程的效果验证成本。
  • 越级性能表现:32B参数开源模型在多项测试中逼近Gemini-3-Pro,部分复杂任务上超越工业级专家配方,证明AI自动生成方案优于人工经验设计。
  • 开放基础设施:构建覆盖19个领域的大规模任务池并全面开源,为自动化数据工程、自我进化AI等前沿研究提供系统化支撑。

如何使用DataChef

  • 环境安装:创建Python 3.12虚拟环境,通过pip install -e .命令完成DataChef安装。
  • 配置文件:复制示例配置文件并命名为datachef.config.json,填入模型端点地址、API密钥及Planner和Coder模型名称。
  • 准备输入:按JSONL格式准备任务文件,每行包含任务ID、任务描述与评测基准、以及候选数据源列表。
  • 运行生成:执行datachef-eval --config test命令启动流程,系统自动生成数据配方计划、Python代码并执行验证。
  • 获取输出:在data/code/data/data-verifier/目录下获取生成的数据处理代码、执行报告和数据质量验证分数。
  • 调整参数:通过--timeout设置代码执行超时时间,--max_workers控制并行 worker 数量,--parse_reasoning输出模型推理过程。

DataChef的项目地址

  • GitHub仓库:https://github.com/yichengchen24/DataChe
  • HuggingFace模型库:https://huggingface.co/yichengchen24/DataChef-32B
  • arXiv技术论文:https://arxiv.org/pdf/2602.11089
  • 在线体验Demo:https://huggingface.co/spaces/yichengchen24/DataChef

DataChef的同类竞品对比

维度 DataChef Data-Juicer Sandbox AIDE
研发机构 上海人工智能实验室 + 复旦大学 阿里巴巴达摩院 微软研究院
核心定位 端到端数据配方自动生成 数据沙盒探针分析与算子优化 自动化数据科学与模型开发
技术路线 在线强化学习 + Data Verifier代理奖励 Probe-Analyze-Refine工作流 + 下游训练反馈 迭代探索与试错执行 + 搜索外部知识
自动化程度 完全自动化生成完整流水线代码 半自动化,需人工定义算子池 自动化但依赖预设工作流模板
反馈机制 低成本实时数据验证,无需完整训练 依赖实际模型训练与评测,成本高昂 基于执行结果迭代优化
输出形式 可执行Python代码 + 训练数据集 优化后的数据处理算子组合 完整的数据科学解决方案

DataChef的应用场景

  • 领域大模型训练:为数学、代码、金融、医疗、气象等垂直领域自动生成适配的数据配方,快速构建领域专用模型。
  • 数据工程自动化:替代传统依赖专家经验的手工数据筛选与配比流程,实现从原始数据到训练集的全流程自动化处理。
  • 模型后训练优化:为已有基座模型生成高质量微调数据,提升模型在特定任务上的性能表现。
  • 低资源场景数据增强:在数据稀缺的领域自动合成训练样本,通过数据增强技术扩充有效训练数据规模。
  • AI研究自动化:作为自动化AI研究(Automated AI Research)的基础设施,支持自我进化AI系统的数据自我改进闭环。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章