Vision2Web – 清华联合智谱AI推出的视觉网站开发评估基准
Vision2Web是什么
Vision2Web是清华大学和智谱AI联合推出的视觉网站开发评估基准,用于评估多模态AI Agent的端到端建站能力。Vision2Web包含193个真实网站任务,分为三层递进难度:静态网页生成、交互式前端开发、全栈网站构建。基准采用创新的”工作流式Agent验证”范式,结合GUI Agent验证功能正确性和VLM评判视觉还原度,系统性地揭示当前SOTA模型在复杂长程软件开发任务中的能力边界。

Vision2Web的主要功能
- 三层递进式能力评估:从静态网页生成到交互式前端开发,再到全栈网站构建,逐级检验AI Agent的视觉理解与工程实现能力。
- 双维度自动化验证:通过GUI Agent验证功能正确性,结合VLM Judge评估视觉还原度,实现客观可复现的端到端测试。
- 真实场景数据支撑:基于193个真实网站构建数据集,涵盖四大类16个子类,提供918张原型图与1,255个测试用例。
- 系统性能力诊断:精准定位Agent在跨模态推理、长程规划、复杂系统构建等环节的能力边界与失败原因。
如何使用Vision2Web
- 环境准备:配置包含前后端及数据库依赖的容器化运行环境。
- 数据加载:将原型图、需求文档及多媒体资源放入指定工作目录。
- Agent接入:将被测模型集成至OpenHands或Claude Code等Agent框架。
- 任务执行:Agent读取输入并生成代码,最终输出可部署的网站项目。
- 自动部署:运行Agent生成的启动脚本,在固定端口完成网站部署。
- 功能验证:GUI Agent Verifier执行专家设计的测试工作流,评估交互正确性并输出Functional Score。
- 视觉验证:VLM Judge对比渲染结果与原型图,评估视觉还原度并输出Visual Score。
- 结果分析:综合双维度得分,定位模型在具体开发环节的能力短板。
Vision2Web的关键信息和使用要求
- 研究背景:清华大学与智谱AI联合推出,旨在系统性评估多模态AI Agent的视觉网站开发能力。
- 任务规模:包含193个真实网站任务,分为静态网页生成、交互式前端开发、全栈网站构建三层递进难度。
- 数据构成:提供918张多设备原型图和1,255个测试用例,涵盖内容、交易、SaaS、公共服务四大领域共16个子类。
- 验证机制:采用GUI Agent验证功能正确性(Functional Score),VLM Judge评估视觉还原度(Visual Score)的双维度自动化验证范式。
- 环境要求:需配置容器化运行环境,预装前端框架、后端服务及数据库等完整依赖。
- 框架接入:需将被测模型集成至OpenHands或Claude Code等标准化Agent框架中。
Vision2Web的核心优势
- 任务设计分层递进:从静态网页到全栈开发的三层架构,可精准定位Agent在不同开发阶段的能力边界。
- 数据源于真实场景:基于C4验证集的真实网站构建,避免合成数据偏差,确保评估结果贴近实际应用。
- 验证机制客观可靠:GUI Agent与VLM Judge双组件协同,实现功能正确性与视觉还原度的可复现自动化评估。
- 覆盖维度全面多元:涵盖四大领域16个子类,支持跨模型、跨框架、跨设备的系统性对比分析。
- 诊断能力精细深入:通过工作流式验证节点,可明确追溯Agent在UI理解、交互逻辑、长程规划等环节的具体失败原因。
Vision2Web的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2603.26648
Vision2Web的同类竞品对比
| 对比维度 | Vision2Web | Design2Code | WebGen Bench |
|---|---|---|---|
| 任务范围 | 三层递进:静态网页、交互前端、全栈开发 | 仅静态UI到代码生成 | 文本驱动的端到端开发,多模态支持不足 |
| 验证方式 | GUI Agent + VLM Judge双组件工作流验证 | 像素级对比和规则脚本 | 开放式文本评估,缺乏结构化约束 |
| 可复现性 | 高:结构化工作流明确约束执行路径 | 低:布局变化导致脚本脆弱 | 低:开放式评估难以复现 |
| 数据规模 | 193任务/918原型图/1255测试用例/16子类 | 规模有限,类别覆盖少 | 未明确分层,任务数量较少 |
| 多设备支持 | 支持桌面/平板/手机三端适配评估 | 未明确区分多设备场景 | 未强调多设备适配 |
| 能力诊断 | 精细:可定位UI理解/交互逻辑/系统构建短板 | 粗糙:仅视觉相似度评分 | 粗糙:端到端整体评分,难以细分 |
Vision2Web的应用场景
- 模型能力评测:为Claude、Gemini、GPT等多模态大模型提供标准化的视觉网站开发能力基准测试。
- Agent框架优化:对比OpenHands、Claude Code等不同Agent框架的性能表现,指导框架迭代升级。
- 算法研发验证:评估新模型在UI理解、代码生成、长程规划等关键技术上的创新效果。
- 产品能力对标:帮助AI建站产品(如Vibe Coding工具)量化自身水平,明确与SOTA的差距。
- 教育培训参考:作为教学案例库,用于培养AI辅助开发方向的工程师与研究人员。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号