AI项目

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。

Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。

Science Skills – 谷歌 DeepMind 开源的科研技能工具包

Science Skills 是谷歌 DeepMind 推出的开源科学技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database、UniProt 等 30 多个生命科学数据库与工具,覆盖基因组学、结构生物学、化学信息学和文献检索等领域。

MAI-Thinking-1 – 微软推出的首款自研高级推理模型

MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任何第三方模型蒸馏。

ECC – 开源的跨平台 AI Agent 性能优化系统

ECC(Everything Claude Code)是跨平台 AI Agent 性能优化系统。系统为 Claude Code、Codex、Cursor 等 7+ 个 AI 编程工具提供 63 个专业 Agent、249 个按需加载的 Skill、跨会话记忆持久化,以及 AgentShield 安全审计工具。

OpenClacky – 李亚飞团队开源的低成本 AI Agent

OpenClacky 是李亚飞团队开源的 AI Agent,支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用成本,让专业人士能全天开着 AI 助手干活。

Mellum2 – JetBrains 开源的混合专家模型

Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。

语构 – 阿里达摩院推出的 AI 原生开发平台

语构是阿里达摩院推出的AI原生开发平台,以Vibe Coding为核心范式,让用户通过自然语言描述需求可生成完整可用的数字产品。

Polar – 英伟达开源的智能体强化学习训练框架

Polar 是英伟达推出的开源智能体强化学习(Agentic RL)训练框架,核心创新在于无需修改现有智能体框架内部代码,可将其接入 GRPO 等 RL 算法进行训练。

Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。

Dubbing v2 – ElevenLabs 推出的 AI 配音模型

Dubbing v2 是 ElevenLabs 推出的 AI 配音模型,支持 29 种语言自动翻译配音,保留原始说话人音色与情感。模型提供双工作流模式,Auto Dub 快速生成预览,Dubbing Project 进入时间轴编辑器逐段精修。

Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型

Cosmos 3是英伟达推出的全球首款全开源全模态物理 AI 基础大模型,采用混合 Transformer 架构融合视觉推理、世界生成与动作预测能力。

Music v2 – ElevenLabs 推出的音乐生成大模型

Music v2 是 ElevenLabs 全新推出的音乐生成大模型,在人声表现、乐器演奏和编曲水平上实现全面提升,支持多语言及单曲目内跨流派无缝转换。

Gamma-World – 英伟达推出的多智能体世界模型

Gamma-World 是 NVIDIA 推出的多智能体世界模型,能解决多个智能体在同一个模拟世界中平等交互、全局一致的问题。

Hermes Desktop – Hermes Agent 的桌面应用,开箱即用

Hermes Desktop 是开发者 sir1st 推出的 Hermes Agent 社区版桌面应用。将 Python 运行时、hermes-agent 核心与 hermes-web-ui 可视化界面打包为单一可执行文件,用户无需手动安装 Python、Node 等依赖,双击即可启动。

Funloom – AI 原生游戏共创平台,简单描述生成完整游戏

Funloom 是 00 后创业者吴同创立的 AI 原生游戏内容共创平台,让用户无需编程、美术或游戏引擎基础,通过简单的人物设定和世界观输入,可在五分钟内生成包含画面、音乐、地图和智能 NPC 互动的完整游戏。

墨见 – 墨刀推出的 AI 协作平台

墨见是墨刀推出的 AI 协作平台,专为一人公司与超级个体打造。平台搭载 OpenClaw 引擎,内置产品经理、UI/视觉设计师、前后端工程师、增长运营师等虚拟合伙人角色,支持 1 对 N 群聊协作模式。

MiniMax M3 – MiniMax 推出的新一代 AI 模型

MiniMax M3是MiniMax推出的全新AI模型,具备领先的编程、Agent与长文本处理能力。模型采用创新的MSA稀疏注意力架构,支持1M超长上下文,效率提升20倍。

OmniVoice Studio – 开源 AI 语音处理工具,ElevenLabs 平替

OmniVoice Studio 是全本地运行的开源 ElevenLabs 替代方案,提供跨平台桌面客户端,支持零样本语音克隆、声音设计、视频自动配音、语音听写等功能,覆盖 646 种语言。

美团GEO营销门户 – 美团推出的生成式引擎优化平台

美团 GEO 营销门户是美团推出的生成式引擎优化(GEO)平台,专为 AI 搜索时代设计,帮助品牌在豆包、DeepSeek、文心一言等主流大模型中提升曝光与推荐频次。与传统 SEO 优化搜索引擎排名不同,GEO 专注于提升品牌在 AI 对话中的提及质量与可信度。