TACO – 北航等高校开源的端智能体自进化观测压缩框架

AI项目 2026-05-09

TACO是什么

TACO 是曼彻斯特大学、北京航空航天大学、香港科技大学以及MAP 团队开源的无需训练、即插即用的终端智能体自进化观测压缩框架。框架解决了多轮命令行任务中 shell 输出噪声累积导致的上下文膨胀,自动从交互轨迹中发现并复用压缩规则,保留关键报错同时过滤冗余日志。框架即插即用、免训练,已集成于 Harbor 的 terminus-2。在 TerminalBench 等基准上,为 DeepSeek-V3.2Qwen3 等模型带来 1%-4% 准确率提升,显著降低长程任务 token 消耗。

TACO

TACO的主要功能

  • 自进化规则发现:框架自动从多轮终端交互轨迹中扫描原始 shell 输出,识别冗余模式并生成候选压缩规则,无需人工编写固定提示或启发式策略。
  • 规则在线精炼与修复:根据任务执行的实时反馈迭代调整规则边界,修复过度压缩或遗漏关键信号的问题,确保报错信息与状态反馈不被误删。
  • 全局规则池与跨任务迁移:维护一个持久化的全局规则知识库,使新任务能直接加载并复用先前会话验证过的规则,实现跨仓库、跨命令环境的经验累积。
  • 即插即用免训练集成:以插件形式直接嵌入现有终端 Agent(如 Harbor 框架中的 terminus-2),通过命令行参数开启,无需修改模型架构或进行任何微调。
  • Token 效率与性能双优化:在过滤低价值终端噪声的同时保留关键环境反馈,使长程多轮任务的 token 消耗线性可控,在 TerminalBench 等基准上提升 1%-4% 的准确率。

TACO的技术原理

  • 问题背景:终端 Agent 在多轮任务中将原始 shell 输出完整回填上下文,导致系统日志、进度条等低价值噪声随轮次二次膨胀,淹没关键报错信号并激增 token 成本。
  • 三模块架构:框架由规则发现器、规则精炼器和全局规则池组成。发现器监控输出流,对超长且未被覆盖的内容自动生成结构化压缩规则;精炼器根据任务反馈迭代修复规则边界,防止误删关键信息;全局规则池持久化验证后的规则,供新任务直接加载复用。
  • 在线运行机制:每轮交互优先匹配全局规则池进行压缩,遇到未覆盖的长输出则触发新规则发现,经当前任务验证后汇入全局池。整个流程由外部规划 LLM 驱动,无需训练数据或模型微调,使压缩策略随终端环境动态演化。

如何使用TACO

  • 环境安装:克隆 GitHub 仓库后,在项目根目录执行 pip install -e . 完成依赖安装,TACO 作为 Harbor 框架的 terminus-2 组件直接可用。
  • 快速启动:运行 Harbor 命令并指定 terminus-2 agent,传入模型信息与 TACO 专属参数即可启动,项目内 scripts/run_taco_example.sh 提供可直接修改的模板脚本。
  • 核心参数配置:通过 --ak 前缀传入 enable_compress=True 开启压缩主开关,enable_self_evo=True 激活在线规则进化,同时配置 compress_base_urlcompress_api_keycompress_model_name 指向任意 OpenAI 兼容的规划 LLM 端点。
  • 常用模式选择:完整体验需同时开启压缩与自进化并配置外部 LLM;若需固定规则做消融实验,追加 freeze_rules=True;若仅使用单任务本地进化而不继承全局规则池,则添加 disable_global_evo=True
  • 运行控制:使用 --ak max_turns=200 等参数设置单任务轮次上限,通过 model_info 传入 JSON 配置 LiteLLM 的输入输出 token 限制,确保长程任务在可控成本内执行。

TACO的核心优势

  • 即插即用零训练:无需微调主干大模型或改动 Agent 底层架构,直接通过命令行参数开启压缩与自进化。
  • 自进化跨任务迁移:全局规则池让 Agent 在长程多轮任务中持续积累压缩经验,新任务直接继承旧知识。
  • 性能与成本双赢:在 TerminalBench 上为 MiniMax-M2.5、DeepSeek-V3.2、Qwen3-Coder-480B 等模型带来 1%-4% 准确率提升,并在相同 token 预算下再提升约 2%-3%。
  • 强泛化与低消耗:在 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 上均保持或提高成功率,同时显著降低总 token 消耗。

TACO的项目地址

  • GitHub仓库:https://github.com/multimodal-art-projection/TACO
  • arXiv技术论文:http://arxiv.org/abs/2604.19572

TACO的同类竞品对比

维度 TACO SWE-agent OpenHands
上下文处理 自进化规则压缩,全局知识池跨任务复用 保留完整原始终端输出,无智能压缩机制 依赖模型原生长上下文或用户自定义提示
训练依赖 完全免训练,即插即用 免训练,但需特定 Docker 环境配置 免训练,需复杂沙箱与运行时环境
跨任务迁移 全局规则池支持跨仓库/跨会话知识累积 单任务会话隔离,历史知识不继承 多任务支持,但无结构化压缩规则复用
Token 效率 显式过滤冗余噪声,长程任务成本线性可控 原始输出回填导致 token 随轮次二次增长 长程任务 token 消耗高,易触顶上下文上限
开源集成 开源,深度集成 Harbor 评估框架 开源,社区生态成熟 开源,通用 Agent 平台

TACO的应用场景

  • 长程软件工程 Agent:在 SWE-Bench 类多轮代码调试、编译测试中抑制日志与终端输出爆炸,保持上下文清晰。
  • 自动化运维与部署:处理大量 shell 返回的冗余系统状态与进程信息,提升 DevOps Agent 的决策稳定性。
  • 代码审查与测试分析:过滤无关编译警告与测试通过信息,精准保留关键报错与代码差异。
  • 学术研究复现与评测:作为 Harbor 框架的 terminus-2 插件,用于终端 Agent 的 token 效率评估与长程能力基准测试。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章