Tinker API – Thinking Machines Lab推出的模型微调API

AI框架 2025-10-06

Tinker API是什么

Tinker API 是 Thinking Machines Lab 发布的首款产品，专为语言模型微调而设计。简化语言模型的微调流程，让研究人员和开发者能专注于算法和数据，无需担心复杂的分布式训练基础设施。提供底层操作原语，如forward_backward和sample，让开发者能构建自定义微调或强化学习算法，支持从小到大的各类开放权重模型，切换模型仅需修改代码中的一个字符串。Tinker 集成 LoRA 技术，允许多个训练任务共享计算资源池，优化成本效益。发布了开源库 Tinker Cookbook，包含多种后训练方法实现。Tinker 作为托管服务，运行在 Thinking Machines 内部集群上，为用户包办任务调度、资源分配和故障恢复等繁琐事务，让开发者专注于算法和数据。目前处于免费私测阶段，未来将推出基于使用量的定价模型。

Tinker API的主要功能

底层操作原语：提供forward_backward和sample等操作原语，支持构建自定义微调和强化学习算法。
广泛模型支持：兼容从小型到大型开放权重模型，如 Qwen-235B-A22B，模型切换仅需修改代码中的一个字符串。
LoRA 技术集成：允许多个训练任务共享计算资源池，降低成本。
开源配套库：发布 Tinker Cookbook，包含多种后训练方法的实现。
托管服务：运行在 Thinking Machines 内部集群上，自动处理任务调度、资源分配和故障恢复。
用户友好：提供 Python 原生接口，易于上手和使用。

Tinker API的项目地址

项目官网：https://thinkingmachines.ai/blog/announcing-tinker/

如何使用Tinker API

申请访问权限：访问 Tinker 官方申请页面：https://form.typeform.com/to/jH2xNWIg申请加入用户白名单。
安装和配置：安装 Tinker API 并配置相关环境。
编写代码：使用 Tinker 提供的底层操作原语编写微调或强化学习算法。
运行训练：将训练任务提交到 Thinking Machines 的托管基础设施上运行。

Tinker API的应用场景

形式化定理证明：普林斯顿的 Goedel 团队使用 Tinker 和 LoRA 微调用于形式化定理证明的大语言模型，仅用 20% 的数据便达到了与全参数监督式微调模型相当的性能。
化学推理模型训练：斯坦福大学的 Rotskoff 实验室使用 Tinker 训练化学推理模型，在 LLaMA 70B 模型基础上进行强化学习后，从 IUPAC 命名转换为化学式的准确率从 15% 跃升至 50%。
多智能体强化学习：伯克利的 SkyRL 团队运行了自定义的多智能体强化学习循环，涉及异步的离策略训练和多轮工具使用。
长上下文 AI 控制任务：Redwood Research 使用 Tinker 在长上下文 AI 控制任务上对 Qwen3-32B 模型进行强化学习训练。
经典监督式微调：Tinker 支持从经典监督式微调到高度实验性强化学习流水线等多种应用场景。