VitaBench 2.0 – 美团 LongCat 推出的长期动态智能体评测基准
VitaBench 2.0是什么
VitaBench 2.0 是美团 LongCat 团队推出的首个真实生活场景下长期动态用户建模智能体评测基准,包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好及 66 个可执行工具,平均交互跨度达 1580 天,系统评测大模型在长期互动中的个性化与主动性能力。

VitaBench 2.0的主要功能
-
拟真用户轨迹构建:为 56 位虚拟用户构建覆盖送餐、到店、差旅等领域的长期生活轨迹。
-
动态偏好演化:嵌入超 2000 种偏好,平均每位用户发生 48 次以上动态变化。
-
复杂任务评测:提供 819 个贯穿用户生命周期的可执行任务。
-
双记忆模式对决:统一评测 Agentic Memory(主动维护档案)与 RAG Memory(检索历史片段)。
-
主动性任务设计:考验 AI 在信息不足时主动提问非盲目决策的能力。
VitaBench 2.0的技术原理
-
三维解构架构:将用户信息(画像+偏好+历史+任务)→ 个性化记忆→ 智能体任务串联为完整闭环。
-
时间标尺暴露:严格按时间线向 Agent 暴露交互事件,真实还原用户偏好的演进与漂移。
-
记忆擂台机制:通过可扩展接口让两种记忆架构在相同用户场景下公平对决,评估不同设计对决策的真实影响。
-
噪音信号分离:约 20% 交互包含无关、探索性、代理等噪音,考验模型从混杂线索中提取真实偏好的能力。
如何使用VitaBench 2.0
-
克隆仓库:执行
git clone https://github.com/meituan-longcat/vitabench-2.0.git获取评测框架与运行脚本。 - 下载数据:从 HuggingFace 数据集 拉取包含 56 名用户轨迹、819 个任务及 66 个工具的标准化数据集。
- 安装依赖:进入项目目录并运行安装命令,配置 Python 环境与所需库。
- 选择模式:在 Full Context、Agentic Memory、RAG Memory 三种记忆设置中选定一种作为评测基线。
- 接入模型:按照仓库文档将你的大模型或 Agent 接入评测接口,使其按时间线接收用户事件并调用工具。
- 启动评测:运行评测脚本,让 Agent 在送餐、到店、差旅等场景中依次执行标准化任务。
- 查看报告:分析生成的性能报告,对比 Avg@4、Pass@4 等指标及时间衰减曲线,定位模型在长期用户建模上的短板。
VitaBench 2.0的核心优势
- 业界首创:首个将智能体场景与丰富用户生态结合、面向真实生活长期动态用户建模的评测基准。
- 超长时间跨度:平均交互周期达 1580 天(最长 2974 天),真实还原用户偏好的长期演进与漂移。
- 高真实度用户画像:56 位虚拟用户基于真实世界统计数据构建,覆盖性别、年龄、城市层级、职业、婚恋等多维特征。
- 动态偏好演化:嵌入超 2000 种偏好,平均每位用户经历 48 次以上动态变化,模拟真实生活中的习惯改变。
- 统一记忆评测生态:搭建首个真实场景下的长期智能体评测平台,统一对比 Agentic Memory 与 RAG Memory 两种架构。
VitaBench 2.0的项目地址
- 项目官网:https://vitabench2.github.io/
- GitHub仓库:https://github.com/meituan-longcat/vitabench-2.0
- HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/VitaBench-2.0
- arXiv技术论文:https://arxiv.org/pdf/2605.27141
VitaBench 2.0的同类竞品对比
| 维度 | VitaBench 2.0 | SWE-bench |
|---|---|---|
| 核心目标 | 评测 AI 在长期动态互动中理解用户偏好与主动服务的能力 | 评测 AI 解决真实 GitHub 软件工程问题的能力 |
| 任务类型 | 生活服务决策(点餐、差旅、到店推荐) | 代码修复、功能实现、测试通过 |
| 时间跨度 | 平均 1580 天,最长 2974 天 | 单次独立任务,无时间线概念 |
| 用户维度 | 56 个拟真用户,含画像、偏好演化与社交背景 | 无用户概念,仅关注代码库与 Issue |
| 记忆机制 | 核心评测维度,对比 Agentic / RAG / Full Context 三种记忆模式 | 不涉及记忆,仅依赖当前代码上下文 |
| 主动性要求 | 设计主动性任务,要求 AI 在信息不足时主动提问 | 不涉及主动性交互,直接输出代码补丁 |
| 数据噪音 | 约 20% 交互为无关/探索性噪音,需分离信号 | 问题描述与代码相对清晰,噪音较低 |
| 最强模型得分 | 全历史模式下最高分约 0.50(Claude-Opus-4.6) | 顶尖模型通过率可达 40%-60% 以上 |
| 适用领域 | 个人助理、智能客服、生活服务平台 | 自动化编程、代码审查、DevOps 工具 |
VitaBench 2.0的应用场景
-
AI 个人助理评测:测试智能助手在长期陪伴中的用户理解与个性化服务能力。
-
智能客服优化:评估客服系统对用户偏好记忆与动态适配的准确程度。
-
生活服务平台:为外卖、出行、酒店等场景的推荐算法提供贴近真实的评测环境。
-
记忆模块研发:帮助研究者对比选型 Agentic Memory 与 RAG Memory 在不同场景下的表现。
-
长上下文模型边界探索:检验大模型在超长时序、高噪音场景下的能力极限。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号