AI框架
HiDream-O1-Image-1.5 – 智象未来推出的商用图像生成模型
HiDream-O1-Image-1.5 是智象未来推出的商用图像生成大模型,基于原生全模态 UiT 架构。在 Artificial Analysis 文生图榜单中用 ELO 1265 位列全球第三、中国第一,超越 Google Nano Banana 2 与字节 Seedream 4.0。
MusaCoder – 摩尔线程开源的专用代码模型
MusaCoder是摩尔线程开源的面向GPU底层算子生成的专用代码大模型,支持从PyTorch算子自动生成高性能CUDA/MUSA Kernel。
Gemma 4 12B – 谷歌开源的多模态大模型
Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。
Toonflow – 开源的一站式 AI 短剧创作工具
Toonflow 是开源的一站式 AI 短剧创作工具,将小说、剧本通过多 Agent 协作自动转化为结构化剧本、智能分镜、角色视觉和动画视频,实现小说→剧本→分镜→视频,全流程 AI 自动化生产。
Odysseus – 开源的本地自托管 AI 工作空间
Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零泄露。
MAI-Voice-2 – 微软推出的新一代文本转语音模型
MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升,支持 15+ 种语言,具备细粒度情感控制、零样本语音克隆和代码切换能力。
Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。
Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列
Fara1.5是微软研究院 AI Frontiers 实验室最新推出的浏览器端AI智能体(CUA)模型系列,包含 4B、9B、27B 三个参数版本。模型基于 Qwen3.5 微调,采用纯像素级截图输入,通过观察—思考—行动循环输出鼠标与键盘操作,在 Online-Mind2Web 基准上 27B 版本任务成功率达 72%,超越 OpenAI Operator 与 Gemini 2.5 Comput
CodeGraph – 开源代码知识图谱工具,加速代码理解和分析
CodeGraph 是面向 AI 编码代理的预索引代码知识图谱工具,通过 MCP 协议与 Claude Code、Cursor、Codex CLI、OpenCode 及 Hermes Agent 深度集成。利用 tree-sitter 解析代码库,将符号关系、调用图和代码结构存储在本地 SQLite 数据库中,让 AI 代理能通过图谱查询直接定位代码,替代传统的 grep/glob/Read 文件
Xiaomi OneVL – 小米具身智能团队开源的自动驾驶大模型
Xiaomi OneVL是小米具身智能团队推出的开源自动驾驶大模型,在业内首次将VLA视觉-语言-动作、世界模型与潜空间推理三大技术路线统一于单一框架。
WinClaw龙虾深度体验 – 附永久免费 Token 领取攻略
AI 时代大家最缺的资源不外乎就是 Token 了,特别是玩龙虾的,烧起 Token 来就像流水一样,根本就停不下来。
StepAudio 2.5 Realtime – 阶跃星辰推出的实时语音大模型
StepAudio 2.5 Realtime 是阶跃星辰推出的端到端实时语音大模型,主打真人级语音对话体验。模型支持内容层面的深度交互,在声音表现力上完全贴近真人,具备顶级副语言能力、千万人设自定义和对话双商领跑三大核心突破。
Realtime TTS-2 – Inworld AI 推出的实时语音合成模型
Realtime TTS-2 是 Inworld AI 推出的新一代实时语音合成模型,专为对话式 AI 场景打造。模型能将文本转为自然语音,更能"听懂"对话上下文的音频情绪、语调和节奏,实现多轮感知式语音合成。
Grok Voice Think Fast 1.0 – xAI 推出的语音智能体模型
Grok Voice Think Fast 1.0是xAI推出的旗舰级语音智能体模型,专攻复杂多步骤真实场景。模型在τ-voice Bench排名第一,支持25种语言与全双工对话,具备低延迟响应、实时后台推理及多工具编排能力,可精准处理地址电话等结构化数据录入。
DeepSeek-TUI – 开源终端编程智能体,适配DeepSeek V4
DeepSeek-TUI 是完全运行在终端中的编程智能体,由 Hayden Brown 基于 Rust 构建,专为 DeepSeek V4 系列模型(deepseek-v4-pro / deepseek-v4-flash)原生设计。
GPT-5.5 Instant – OpenAI 推出的 ChatGPT 新一代默认模型
GPT-5.5 Instant是OpenAI发布的ChatGPT新一代默认模型,取代GPT-5.3 Instant,免费向所有用户开放。模型融合5.5的基础智力与极速响应,高风险领域幻觉减少52.5%,回答更简洁(字数减30%)、语气更自然。
Vibe-Trading – HKUDS 开源的 AI 多智能体金融工作空间
Vibe-Trading 是香港大学数据科学实验室(HKUDS)开源的AI驱动多智能体金融工作空间,将自然语言指令转化为可执行的交易策略、研究洞察和组合分析。项目覆盖A股、港股/美股、加密货币、期货、外汇等全球市场,内置6大数据源与自动降级机制,多数基础数据无需API Key即可使用。
Qwen-Scope – 阿里通义开源的大模型可解释性工具套件
Qwen-Scope 是阿里通义千问团队开源的大模型可解释性工具套件,基于稀疏自编码器(SAE)技术,在 Qwen3/Qwen3.5 系列模型隐藏层提取可解释特征。
Nemotron 3 Nano Omni – 英伟达推出的多模态推理模型
Nemotron 3 Nano Omni 是 NVIDIA Nemotron 3 模型系列,是专为 Agent 系统设计的开源高效多模态推理模型。模型采用 30B-A3B 混合 MoE 架构,将视觉、音频、文本感知统一至单一模型,替代传统的碎片化多模型堆栈,在文档智能、视频理解、音频理解等基准测试中达到领先水平。
EAPO – 阿里通义推出的全新强化学习框架
EAPO是阿里通义实验室推出的长文本推理强化学习框架,通过引入"证据奖励"机制,将监督信号从最终答案下沉到证据提取过程。
粤公网安备 123456789号