AI框架
AgentCPM-Report – 清华联合面壁智能等开源的写作智能体
AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合推出的本地化深度调研智能体,基于8B参数的MiniCPM4.1模型。
Step3-VL-10B – 阶跃星辰开源的多模态小模型
Step3-VL-10B 是阶跃星辰推出的仅含 10B 参数的开源多模态模型,在视觉感知、逻辑推理、数学竞赛和通用对话等任务中达到 200B 参数模型的性能水平。
COTA – 超参数科技推出的新型游戏智能体
COTA是超参数科技推出的新型游戏智能体,基于大语言模型(LLM)驱动,具备认知、操作、战术和辅助能力。COTA突破传统强化学习与监督学习模式,通过架构创新实现百毫秒级响应,达到真人高分玩家水平。
GLM-Image – 智谱联合华为开源的多模态图像生成模型
GLM-Image 是智谱联合华为开源的新一代多模态图像生成模型,基于昇腾 Atlas 800T A2 设备和昇思 MindSpore 框架训练,是首个全流程国产芯片训练的 SOTA 模型。
Engram – DeepSeek联合北大推出的条件记忆模块
Engram 是DeepSeek团队联合北京大学推出的条件记忆模块,能提升大语言模型(LLM)的性能。Engram通过引入现代化的 -gram 嵌入表,将静态知识存储在独立的内存中,用稀疏检索和上下文感知门控技术实现高效的知识查找。
Baichuan-M3 – 百川智能开源的新一代医疗增强大语言模型
Baichuan-M3是百川智能正式发布的新一代开源医疗增强大语言模型。模型在问诊能力、医疗幻觉控制以及Healthbench和Healthbench Hard评测中均排名第一,超越了OpenAI的GPT-5.2,在所有测试环节中超越了人类医生的表现。
Qwen3-VL-Embedding – 阿里通义开源的多模态信息检索模型
Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型,专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构,能将不同模态的数据映射到统一的语义空间,生成语义丰富的高维向量。
DeepTutor – 香港大学开源的AI学习助手
DeepTutor 是香港大学数据科学实验室开源的 AI 学习助手,通过多智能体架构和知识图谱技术,将复杂的知识体系转化为高效的学习体验。
Qwen3-VL-Reranker – 阿里通义开源的跨模态理解模型
Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型,专为多模态信息检索设计。模型接收任意模态组合的查询与文档对(如图文查询匹配图文文档),通过单塔架构和交叉注意力机制,深度分析语义关联,输出精确的相关性分数。
Nemotron Speech ASR – 英伟达开源的语音识别模型
Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转录锁定仅需24毫秒,有效解决了传统流式模型在长语音识别中的累积延迟问题。
FantasyWorld – 高德地图联合北邮推出的3D世界建模框架
FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基础模型中增加可训练的几何分支,实现了视频潜变量和隐式3D场的联合建模
Obsidian-skills – Obsidian推出的开源AI工具包
Obsidian-skills 是 Obsidian 团队开发的一组开源工具,帮助用户更好地将 AI 工具(如 Claude Code)与 Obsidian 笔记系统结合使用。包含三大核心技能:obsidian-markdown、obsidian-bases 和 json-canvas。
女娲智能体OS – 首个产品级开源的通用智能体操作系统
女娲智能体OS(Nuwax Agent OS)是全球首个产品级开源的通用智能体操作系统。女娲智能体OS支持将AI从单纯的对话工具转变为企业的智能执行者,通过自主执行引擎实现从需求拆解到任务执行的全链路自动化。
Spirit-v1.5 – 千寻智能推出的具身智能基础模型
Spirit-v1.5 是千寻智能推出的具身智能基础模型。模型采用多样化、开放式的数据采集方式,摒弃传统“干净数据”的限制,让模型在预训练阶段接触更丰富的动作和场景,具备更强的泛化能力和适应性。
Oh My OpenCode – AI编程助手增强插件,自动调度任务
Oh My OpenCode 是为 AI 编程助手设计的开源增强插件,能让 AI (如OpenCode )像真正的开发团队一样高效协作,提升编程体验。工具通过集成多种 AI 模型(如 OpenAI、Gemini、Claude 等),为开发者提供强大的编程助手。
Tencent-HY-MT1.5 – 腾讯混元开源的翻译模型
Tencent-HY-MT1.5 是腾讯混元开源的翻译模型,包含两个版本Tencent-HY-MT1.5-1.8B 和 Tencent-HY-MT1.5-7B。模型支持33种国际语言互译及5种民汉/方言翻译,覆盖多种小语种。
PersonaLive – 澳门大学等开源的实时AI换脸直播工具
PersonaLive 是澳门大学和 GVC 实验室开源的实时数字人直播工具。工具能在单张 12GB 显存的消费级显卡上运行,实现无限时长的肖像动画生成,支持低延迟互动。
Yume1.5 – 上海AI Lab联合复旦开源的交互式世界生成模型
Yume1.5 是上海人工智能实验室和复旦大学等推出的交互式世界生成模型,能从单张图像或文本提示生成逼真、连续且可探索的虚拟世界。
Computer Use Preview – 谷歌开源的AI浏览器自动化工具
Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力,通过“截图 - 分析 - 行动”能模拟人类操作网页,无需依赖固定的元素定位。
MAI-UI – 阿里通义开源的全尺寸GUI智能体基座模型
MAI-UI 是通义实验室推出的全尺寸 GUI 智能体基座模型,具备用户交互、工具调用和端云协同三大核心能力。框架通过自主进化数据管线和大规模在线强化学习技术,实现了从 2B 到 235B-A22B 的全尺寸覆盖,适用于多种场景。
粤公网安备 123456789号