LOGOS – 阿里开源的首个统一科学大模型

AI项目 2026-06-20

LOGOS是什么

LOGOS(Language Of Generative Objects in Science)是阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源的首个统一科学语法多领域科学生成基础模型。模型将蛋白质、小分子、材料、抗体等异构科学对象编码为统一 Token 序列,基于纯序列建模范式,在口袋配体生成、逆合成预测、蛋白质编辑、材料生成等六大科学任务上一致性匹配或超越领域专用方法,用 1B 参数超越 56B 参数模型,验证一个模型解决万千科学任务的可行性。

LOGOS

LOGOS的主要功能

  • 口袋条件配体生成:给定蛋白质口袋结构,生成能精准结合的小分子药物,同时满足结合亲和力、药物相似性和合成可行性三重要求。
  • 逆合成预测:给定目标分子,预测合成所需前体分子,Top-1 准确率达 74.8%,辅助化学家设计合成路线。
  • 口袋位点识别:仅靠氨基酸序列预测蛋白质结合位点,无需 3D 结构数据,在 HOLO4K 数据集上 Top-n 准确率达 58.5%。
  • MOF 材料生成:生成新型金属有机框架材料,新型构建单元比例(NBB)达 17.78%,较基线提升 76%。
  • 蛋白质编辑:在 Hard 难度 Fitness 任务上得分达 0.93,较基线 0.34 提升 174%。
  • 抗体 CDR 设计:抗体互补决定区设计 AAR 达 79.82%,超越结构依赖的逆折叠方法。

LOGOS的技术原理

  • 统一”科学语法” + 空间交互离散化:设计共享词汇表,将蛋白质、小分子、材料等异构对象统一编码为离散 Token 序列;发明文字描述法将 3D 空间接触模式语法化,无需显式 3D 坐标可理解复杂空间互作规律。
  • 形式与目标完全对齐:预训练数据的序列形式等于下游任务的输入输出形式,预训练的 next-token prediction 等于下游条件生成目标,消除预训练与下游应用之间的 gap。
  • 跨领域知识正向迁移:统一语法使生物、化学、材料等领域数据在同一模型框架内回流训练,实验证实多任务联合训练效果优于独立训练,实现”1+1>2″的协同效应。
挖挖GitHub

微信关注回复 “开源”,加入AI开源项目交流群

如何使用LOGOS

  • 获取开源资源:访问 HuggingFace(LOGOS-Hub)下载模型权重,或从 GitHub(LOGOS-Hub/LOGOS)获取推理代码。
  • 基于 LLM 生态部署:直接复用 vLLM 推理加速、模型量化等成熟工程基建,无需构建独立技术栈。
  • 下游任务调用:将科学对象按统一语法格式化为 Token 序列,通过自回归生成完成口袋配体设计、逆合成预测等任务。

LOGOS的核心优势

  • 纯序列范式超越 3D 模型:在口袋配体生成任务上,纯序列方法首次打败依赖 3D 坐标的扩散模型,证明空间结构可完全通过序列预测捕获。
  • 极致参数效率:LOGOS-1B 用 1/56 参数量(1B vs 8×7B)在多个任务上超越 NatureLM,展现极高参数效率。
  • 零 3D 坐标依赖:口袋位点识别仅需氨基酸序列,无需昂贵且稀缺的 3D 结构数据,大幅降低药物发现门槛。
  • 统一架构降低工程成本:与 LLM 共享架构、训练范式和推理基础设施,可直接复用现有成熟工程生态,无需独立技术栈。

LOGOS的项目地址

  • GitHub仓库:https://github.com/LOGOS-Hub/LOGOS
  • HuggingFace模型库:https://huggingface.co/LOGOS-Hub
  • arXiv技术论文:https://arxiv.org/pdf/2606.16905

LOGOS的同类竞品对比

对比维度 LOGOS NatureLM
核心定位 统一科学语法的多领域生成基础模型 分子与蛋白质领域专用语言模型
参数规模 1B / 3B / 8B 8×7B(56B)
建模范式 纯序列自回归,无需 3D 坐标 依赖 3D 坐标与专用几何网络
任务覆盖 蛋白质、分子、材料、反应、抗体、口袋识别 分子生成、蛋白质结构
跨领域迁移 统一语法实现正向知识迁移 各领域独立建模,难以迁移
参数效率 1B 参数在多个任务上超越 56B 模型 需更大参数量达到同等性能
工程生态 复用 LLM 基建(vLLM、量化等) 构建独立于 LLM 的技术栈

LOGOS的应用场景

  • AI 辅助药物设计:针对特定蛋白质靶点口袋生成候选药物分子,同时优化结合亲和力、药物相似性与合成可行性。
  • 化学合成路线规划:为有机合成提供逆合成路径预测,Top-1 准确率达 74.8%,减少实验试错成本。
  • 蛋白质工程改造:定向编辑蛋白质序列以提升稳定性或功能,Hard Fitness 得分达 0.93,用于酶工程与生物催化剂开发。
  • 新材料发现:生成新型 MOF 材料,新型构建单元比例提升 76%,适用于气体存储、分离与能源转化。
  • 抗体药物开发:设计高亲和力抗体 CDR 区域,AAR 达 79.82%,加速治疗性抗体研发。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章