第41页_最新AI项目_AI导航爱途网络

OctoCodingBench – MiniMax开源的Coding Agent评测集

OctoCodingBench是MiniMax开源的针对Coding Agent的指令遵循能力的评测集。OctoCodingBench通过模拟真实软件开发场景，从系统约束、用户指令、项目规范、技能调用、历史记忆等多个维度评估Agent是否能严格遵循规则完成任务。

AI项目

2026-01-14

司农 – 南京农业大学开源的农业领域大模型

司农（司农大语言模型）是南京农业大学推出的面向农业领域的垂直大模型。模型依托南农的学科优势，收集了涵盖多农业学科的超40亿token数据，包括书籍、论文、政策等。

AI项目

2026-01-14

PixVerse R1 – 爱诗科技推出的全球首个通用实时世界模型

PixVerse R1 是爱诗科技（PixVerse）推出的全球首个通用实时世界模型，标志着AI视频生成从“预录制”迈向“实时动态生成”的重大突破。R1通过三大核心技术实现创新：Omni原生多模态基础模型，将文本、图像、音频与视频融合为单一生成序列；自回归流式生成机制，解决长时序一致性问题

AI项目

2026-01-14

VidBee – 开源音视频下载工具，支持YouTube、Bilibili平台

VidBee 是开源的视频下载工具，基于强大的 yt-dlp 引擎开发。工具能帮助用户轻松下载全球 1000 多个网站的音视频内容，包含热门的 YouTube、Bilibili，和小众平台都能轻松应对。

AI项目

2026-01-14

BabyVision – UniPat AI团队推出的多模态理解评测集

BabyVision是 UniPat AI团队推出的多模态理解评测集，评估多模态语言模型（MLLMs）和图像生成模型在视觉推理任务上的表现。包含两个主要赛道：MLLM评估和生成评估。

AI项目

2026-01-14

GLM-Image – 智谱联合华为开源的多模态图像生成模型

GLM-Image 是智谱联合华为开源的新一代多模态图像生成模型，基于昇腾 Atlas 800T A2 设备和昇思 MindSpore 框架训练，是首个全流程国产芯片训练的 SOTA 模型。

AI框架

2026-01-14

Engram – DeepSeek联合北大推出的条件记忆模块

Engram 是DeepSeek团队联合北京大学推出的条件记忆模块，能提升大语言模型（LLM）的性能。Engram通过引入现代化的 -gram 嵌入表，将静态知识存储在独立的内存中，用稀疏检索和上下文感知门控技术实现高效的知识查找。

AI框架

2026-01-13

Baichuan-M3 – 百川智能开源的新一代医疗增强大语言模型

Baichuan-M3是百川智能正式发布的新一代开源医疗增强大语言模型。模型在问诊能力、医疗幻觉控制以及Healthbench和Healthbench Hard评测中均排名第一，超越了OpenAI的GPT-5.2，在所有测试环节中超越了人类医生的表现。

AI框架

2026-01-13

随变 – 字节跳动旗下抖音推出的AI视频社区应用

随变是字节跳动旗下抖音推出的AI视频社区应用，定位为潮流玩法社区，主打AI形象生成、合拍等创新功能。应用通过简化界面（仅保留关注、推荐双栏）降低用户门槛，允许用户创建虚拟形象参与社交互动，核心目标是探索下一代AI短视频形态，同时补充抖音在年轻化内容领域的布局。

AI项目

2026-01-13

Befreed – AI学习播客工具，提供定制化书籍摘要与播客

BeFreed 是 AI 学习播客工具，能通过个性化音频内容帮助用户高效获取知识。工具根据用户行为和目标提供定制化的书籍摘要与播客，支持多种叙述风格，满足不同用户需求。

AI项目

2026-01-13

Ima Studio – AI内容创作平台，涵盖图像、视频和音频创作

Ima Studio是AI创意内容生成平台，支持多种先进的AI模型，如Nano Banana、VEO3、Suno等，能通过简单的聊天将创意转化为令人惊叹的图像、视频和音频内容。

AI项目

2026-01-13

Claude Cowork – Anthropic推出的AI Agent协作工具

Claude Cowork 是 Anthropic 推出的 AI 协作功能，支持将原本面向开发者的 Claude Code 能力拓展到日常办公场景。Claude Cowork支持用户授权 Claude 访问本地文件夹，让 AI 完成读取、编辑和创建文件等操作。

AI项目

2026-01-13

Qwen3-VL-Embedding – 阿里通义开源的多模态信息检索模型

Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型，专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构，能将不同模态的数据映射到统一的语义空间，生成语义丰富的高维向量。

AI框架

2026-01-13

DeepTutor – 香港大学开源的AI学习助手

DeepTutor 是香港大学数据科学实验室开源的 AI 学习助手，通过多智能体架构和知识图谱技术，将复杂的知识体系转化为高效的学习体验。

AI框架

2026-01-13

Qwen3-VL-Reranker – 阿里通义开源的跨模态理解模型

Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型，专为多模态信息检索设计。模型接收任意模态组合的查询与文档对（如图文查询匹配图文文档），通过单塔架构和交叉注意力机制，深度分析语义关联，输出精确的相关性分数。

AI框架

2026-01-13

Nemotron Speech ASR – 英伟达开源的语音识别模型

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构，将已处理的语音特征缓存，仅对新音频帧进行计算，实现单句转录锁定仅需24毫秒，有效解决了传统流式模型在长语音识别中的累积延迟问题。

AI框架

2026-01-13

FantasyWorld – 高德地图联合北邮推出的3D世界建模框架

FantasyWorld是高德地图（AMAP）和北京邮电大学合作开发的创新性3D世界建模框架，专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基础模型中增加可训练的几何分支，实现了视频潜变量和隐式3D场的联合建模

AI框架

2026-01-13

Obsidian-skills – Obsidian推出的开源AI工具包

Obsidian-skills 是 Obsidian 团队开发的一组开源工具，帮助用户更好地将 AI 工具（如 Claude Code）与 Obsidian 笔记系统结合使用。包含三大核心技能：obsidian-markdown、obsidian-bases 和 json-canvas。

AI框架

2026-01-13

女娲智能体OS – 首个产品级开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是全球首个产品级开源的通用智能体操作系统。女娲智能体OS支持将AI从单纯的对话工具转变为企业的智能执行者，通过自主执行引擎实现从需求拆解到任务执行的全链路自动化。

AI框架

2026-01-13

Spirit-v1.5 – 千寻智能推出的具身智能基础模型

Spirit-v1.5 是千寻智能推出的具身智能基础模型。模型采用多样化、开放式的数据采集方式，摒弃传统“干净数据”的限制，让模型在预训练阶段接触更丰富的动作和场景，具备更强的泛化能力和适应性。

AI框架

2026-01-13

AI导航 爱途网络

AI导航爱途网络