第4页_AI项目_AI导航爱途网络

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型（VLM），是 PaddleOCR-VL 系列的最新升级版本。

AI项目

2026-06-03

Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini 是字节跳动开源的统一视频生成与编辑框架，采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图，由 Diffusion Transformer 完成高质量视频生成。

AI项目

2026-06-03

Science Skills – 谷歌 DeepMind 开源的科研技能工具包

Science Skills 是谷歌 DeepMind 推出的开源科学技能集合，专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database、UniProt 等 30 多个生命科学数据库与工具，覆盖基因组学、结构生物学、化学信息学和文献检索等领域。

AI项目

2026-06-03

MAI-Thinking-1 – 微软推出的首款自研高级推理模型

MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构，完全基于干净、商业授权数据从头训练，未使用任何第三方模型蒸馏。

AI项目

2026-06-03

ECC – 开源的跨平台 AI Agent 性能优化系统

ECC（Everything Claude Code）是跨平台 AI Agent 性能优化系统。系统为 Claude Code、Codex、Cursor 等 7+ 个 AI 编程工具提供 63 个专业 Agent、249 个按需加载的 Skill、跨会话记忆持久化，以及 AgentShield 安全审计工具。

AI项目

2026-06-02

OpenClacky – 李亚飞团队开源的低成本 AI Agent

OpenClacky 是李亚飞团队开源的 AI Agent，支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用成本，让专业人士能全天开着 AI 助手干活。

AI项目

2026-06-02

Mellum2 – JetBrains 开源的混合专家模型

Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数，专为软件工程 AI 工作流优化，支持代码生成、智能路由、子 Agent 调用及私有化部署。

AI项目

2026-06-02

语构 – 阿里达摩院推出的 AI 原生开发平台

语构是阿里达摩院推出的AI原生开发平台，以Vibe Coding为核心范式，让用户通过自然语言描述需求可生成完整可用的数字产品。

AI项目

2026-06-02

Polar – 英伟达开源的智能体强化学习训练框架

Polar 是英伟达推出的开源智能体强化学习（Agentic RL）训练框架，核心创新在于无需修改现有智能体框架内部代码，可将其接入 GRPO 等 RL 算法进行训练。

AI项目

2026-06-02

Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型，将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码，支持端到端导航移动应用、结合网络知识回答视觉问题，在单一智能体循环中无缝融合 GUI 与 CLI 交互。

AI项目

2026-06-02

Dubbing v2 – ElevenLabs 推出的 AI 配音模型

Dubbing v2 是 ElevenLabs 推出的 AI 配音模型，支持 29 种语言自动翻译配音，保留原始说话人音色与情感。模型提供双工作流模式，Auto Dub 快速生成预览，Dubbing Project 进入时间轴编辑器逐段精修。

AI项目

2026-06-01

Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型

Cosmos 3是英伟达推出的全球首款全开源全模态物理 AI 基础大模型，采用混合 Transformer 架构融合视觉推理、世界生成与动作预测能力。

AI项目

2026-06-01

Music v2 – ElevenLabs 推出的音乐生成大模型

Music v2 是 ElevenLabs 全新推出的音乐生成大模型，在人声表现、乐器演奏和编曲水平上实现全面提升，支持多语言及单曲目内跨流派无缝转换。

AI项目

2026-06-01

Gamma-World – 英伟达推出的多智能体世界模型

Gamma-World 是 NVIDIA 推出的多智能体世界模型，能解决多个智能体在同一个模拟世界中平等交互、全局一致的问题。

AI项目

2026-06-01

Hermes Desktop – Hermes Agent 的桌面应用，开箱即用

Hermes Desktop 是开发者 sir1st 推出的 Hermes Agent 社区版桌面应用。将 Python 运行时、hermes-agent 核心与 hermes-web-ui 可视化界面打包为单一可执行文件，用户无需手动安装 Python、Node 等依赖，双击即可启动。

AI项目

2026-06-01

Funloom – AI 原生游戏共创平台，简单描述生成完整游戏

Funloom 是 00 后创业者吴同创立的 AI 原生游戏内容共创平台，让用户无需编程、美术或游戏引擎基础，通过简单的人物设定和世界观输入，可在五分钟内生成包含画面、音乐、地图和智能 NPC 互动的完整游戏。

AI项目

2026-06-01

墨见 – 墨刀推出的 AI 协作平台

墨见是墨刀推出的 AI 协作平台，专为一人公司与超级个体打造。平台搭载 OpenClaw 引擎，内置产品经理、UI/视觉设计师、前后端工程师、增长运营师等虚拟合伙人角色，支持 1 对 N 群聊协作模式。

AI项目

2026-06-01

MiniMax M3 – MiniMax 推出的新一代 AI 模型

MiniMax M3是MiniMax推出的全新AI模型，具备领先的编程、Agent与长文本处理能力。模型采用创新的MSA稀疏注意力架构，支持1M超长上下文，效率提升20倍。

AI项目

2026-06-01

OmniVoice Studio – 开源 AI 语音处理工具，ElevenLabs 平替

OmniVoice Studio 是全本地运行的开源 ElevenLabs 替代方案，提供跨平台桌面客户端，支持零样本语音克隆、声音设计、视频自动配音、语音听写等功能，覆盖 646 种语言。

AI项目

2026-05-31

美团GEO营销门户 – 美团推出的生成式引擎优化平台

美团 GEO 营销门户是美团推出的生成式引擎优化（GEO）平台，专为 AI 搜索时代设计，帮助品牌在豆包、DeepSeek、文心一言等主流大模型中提升曝光与推荐频次。与传统 SEO 优化搜索引擎排名不同，GEO 专注于提升品牌在 AI 对话中的提及质量与可信度。

AI项目

2026-05-30

AI导航 爱途网络

AI项目

AI导航爱途网络