AI框架_AI导航爱途网络

SayIt – 开源 AI 语音输入法，自动将口语转为书面表达

SayIt 是开源的 AI 语音输入法，基于 Rust 构建，支持 Windows 桌面端。用户按住快捷键说话，可将口语实时转为可直接使用的书面文字。

AI框架

2026-07-09

悟界·RoboBrain Orca – 智源推出的多模态表征世界模型

悟界·RoboBrain Orca 是智源研究院推出的多模态表征世界模型，以下一个状态预测替代传统下一个词/帧/动作预测，让 AI 在内部构建统一的世界潜在表征。

AI框架

2026-07-09

Nemotron-Labs-Diffusion – 英伟达开源的三模式语言模型

Nemotron-Labs-Diffusion 是 NVIDIA 推出的三模式语言模型，在单一架构内统一自回归、扩散和自我推测解码。通过联合 AR-扩散目标训练，模型可在不同并发场景下切换模式维持高吞吐量。

AI框架

2026-07-09

Wan-Streamer – 阿里开源的实时全双工多模态基础模型

Wan-Streamer 是阿里达摩院开源的端到端实时全双工多模态基础模型，通过统一因果 Transformer 架构将文本、音频、视频的输入输出 token 整合为同一条因果序列，实现亚秒级实时双向视频交互，模型响应延迟仅 200ms。

AI框架

2026-07-01

Ornith-1.0 – DeepReinforce 开源的 Agentic 编程系列模型

Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列，模型基于 Gemma 4 与 Qwen 3.5 预训练基座，采用自改进训练框架，在代码生成与软件工程基准上达到同级别开源模型的 SOTA 水平。

AI框架

2026-06-26

JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型，是全球首个全栈开源的 interaction 模型系统。

AI框架

2026-06-24

Baichuan-M4 – 百川智能联合清华推出的医疗增强模型

Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型，在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一，幻觉率低至 3.3% 为全行业最低。Baichuan-M4 突破通用大模型被动应答的局限。

AI框架

2026-06-24

豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型

豆包音频生成模型1.0是火山引擎推出的端到端音频创作模型，支持文本或音频作为参考输入生成目标音频。模型单条Prompt可编排多角色对白、情绪语气、背景音乐与环境氛围，直接产出具备叙事张力的完整音频作品，无需后期多轨混音。

AI框架

2026-06-24

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型，通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数，实现单次前向转录数十页文档。

AI框架

2026-06-23

Seedance 2.5 – 字节跳动推出的最新视频生成模型

Seedance 2.5 是字节跳动旗下豆包视频生成模型的最新旗舰版本，预计 7 月初全面上线。作为 Seedance 2.0 的重大升级，模型实现了三大全球突破，单段原生视频直出长达 30 秒、支持 50 个全模态参考素材联合输入、以及更可控的局部视频编辑能力。

AI框架

2026-06-23

Spatial-TTT – 清华联合混元开源的流式视觉空间智能框架

Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数，通过 Test-Time Training（TTT）技术，在观看视频流的过程中持续更新内部空间记忆，实现对长达 120 分钟视频的空间推理。

AI框架

2026-06-23

AudioX-Turbo – Noiz AI 联合清华推出的音频生成框架

AudioX-Turbo 是 Noiz AI 联合香港科技大学、清华大学推出的统一高效音频生成框架，支持文本、视频、音频任意组合输入生成高质量音效与音乐。

AI框架

2026-06-23

Sakana Fugu – Sakana AI 推出的多智能体编排系统

Sakana Fugu是Sakana AI推出的多智能体编排系统，用单一API动态调度顶尖模型。系统分配思考者、执行者与验证者角色，自动完成选择、委派与合成，无需预设工作流。

AI框架

2026-06-22

Agently Mail – 腾讯QQ邮箱推出的AI Agent专属邮箱服务

Agently Mail 是腾讯QQ邮箱团推出的AI Agent专属邮箱服务，与个人邮箱完全隔离，原生适配Agent框架。Agent可通过微信扫码授权获得独立邮箱地址，安全地收发邮件、管理附件、搜索邮件，支持两阶段确认机制防止误操作。

AI框架

2026-06-22

Image-to-LoRA-V2 – 魔搭社区开源的免训练风格迁移工具

Image-to-LoRA-V2（i2L-V2）是魔搭社区开源的免训练风格迁移工具。上传1-8张风格图，一次推理预测文生图模型的LoRA权重。

AI框架

2026-06-17

Qwen-Robot Suite – 阿里通义推出的物理世界基础模型套件

Qwen-Robot Suite 是阿里通义推出的迈向物理世界智能的基础模型套件，包含 Qwen-RobotNav（导航）、Qwen-RobotManip（操作）与 Qwen-RobotWorld（世界模型）三大基础模型。

AI框架

2026-06-16

OpenSquilla – 开源的微内核 AI Agent 框架，可降低Token成本

OpenSquilla是开源、可自托管的Token高效型微内核AI Agent运行时，主打"同样的预算，更高的智能密度"。采用极简微内核架构（核心仅约100行代码），通过本地ML模型路由、自适应推理深度、四层认知记忆系统和按需技能加载，可将Token成本降低60-80%。

AI框架

2026-06-16

HiDream-O1-Image-1.5 – 智象未来推出的商用图像生成模型

HiDream-O1-Image-1.5 是智象未来推出的商用图像生成大模型，基于原生全模态 UiT 架构。在 Artificial Analysis 文生图榜单中用 ELO 1265 位列全球第三、中国第一，超越 Google Nano Banana 2 与字节 Seedream 4.0。

AI框架

2026-06-11

MusaCoder – 摩尔线程开源的专用代码模型

MusaCoder是摩尔线程开源的面向GPU底层算子生成的专用代码大模型，支持从PyTorch算子自动生成高性能CUDA/MUSA Kernel。

AI框架

2026-06-10

Gemma 4 12B – 谷歌开源的多模态大模型

Gemma 4 12B是谷歌开源的多模态大模型，采用业界首个无编码器统一架构，视觉和音频数据直接输入LLM主干，彻底砍掉独立编码器。

AI框架

2026-06-04

AI导航 爱途网络

AI框架

AI导航爱途网络