JoyAI-Echo – 京东开源的长音视频生成框架
JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角色变脸、音色突变、生成缓慢等核心痛点。
Odysseus – 开源的本地自托管 AI 工作空间
Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零泄露。
Hermes Desktop – Nous Research 推出的 Hermes 桌面端
Hermes Desktop 是 Nous Research 推出的官方 Hermes 桌面客户端,支持 macOS、Windows 和 Linux 三端。
MAI Transcribe-1.5 – 微软 MAI 推出的语音转文本模型
MAI-Transcribe-1.5 是 微软 AI 团队自研的语音转文本模型,支持 43 种语言,具备上下文感知的关键词偏置能力,模型在 FLEURS 基准测试中取得行业最低的词错误率(WER 4.86%),专为视频字幕、会议转录、通话分析等企业级生产场景推出。
MAI-Voice-2 – 微软推出的新一代文本转语音模型
MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、说话人一致性和情感范围上全面提升,支持 15+ 种语言,具备细粒度情感控制、零样本语音克隆和代码切换能力。
MAI-Code-1-Flash – 微软推出的轻量级代码生成模型
MAI-Code-1-Flash 是微软专为开发者工作流推出的轻量级代码生成模型,深度集成 GitHub Copilot。模型采用自适应输出长度控制技术,在保持高准确率的同时最高可减少 60% 的 token 消耗,显著降低延迟与成本。
阿里JVS Claw实测 – 集成OpenClaw+Hermes双引擎
Hermes Agent 这波直接把 Agent 天花板给掀了!在 OpenRouter 最新公布的最受欢迎生产力工具排行榜中,Hermes Agent 已经超越了 OpenClaw 稳居第一,“虾”和“马”这两个 Agent 引擎在追求生产力效率的极客圈子里被高频使用,说明大家已经不只是把他们当成新鲜玩具了。
PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。
Bernini – 字节跳动开源的统一视频生成与编辑框架
Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。
Science Skills – 谷歌 DeepMind 开源的科研技能工具包
Science Skills 是谷歌 DeepMind 推出的开源科学技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database、UniProt 等 30 多个生命科学数据库与工具,覆盖基因组学、结构生物学、化学信息学和文献检索等领域。
MAI-Thinking-1 – 微软推出的首款自研高级推理模型
MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任何第三方模型蒸馏。
7大真实任务实测 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max
最近大模型更新真的有点密,更了好多但是却不知道到底谁好用。有说 Qwen3.7-Max 已经力压 GPT-5.5,仅次于Claude 系列。也有说 GPT-5.5 已经登顶。普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.
ECC – 开源的跨平台 AI Agent 性能优化系统
ECC(Everything Claude Code)是跨平台 AI Agent 性能优化系统。系统为 Claude Code、Codex、Cursor 等 7+ 个 AI 编程工具提供 63 个专业 Agent、249 个按需加载的 Skill、跨会话记忆持久化,以及 AgentShield 安全审计工具。
OpenClacky – 李亚飞团队开源的低成本 AI Agent
OpenClacky 是李亚飞团队开源的 AI Agent,支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用成本,让专业人士能全天开着 AI 助手干活。
Mellum2 – JetBrains 开源的混合专家模型
Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。
语构 – 阿里达摩院推出的 AI 原生开发平台
语构是阿里达摩院推出的AI原生开发平台,以Vibe Coding为核心范式,让用户通过自然语言描述需求可生成完整可用的数字产品。
Polar – 英伟达开源的智能体强化学习训练框架
Polar 是英伟达推出的开源智能体强化学习(Agentic RL)训练框架,核心创新在于无需修改现有智能体框架内部代码,可将其接入 GRPO 等 RL 算法进行训练。
Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。
Dubbing v2 – ElevenLabs 推出的 AI 配音模型
Dubbing v2 是 ElevenLabs 推出的 AI 配音模型,支持 29 种语言自动翻译配音,保留原始说话人音色与情感。模型提供双工作流模式,Auto Dub 快速生成预览,Dubbing Project 进入时间轴编辑器逐段精修。
Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
Cosmos 3是英伟达推出的全球首款全开源全模态物理 AI 基础大模型,采用混合 Transformer 架构融合视觉推理、世界生成与动作预测能力。
粤公网安备 123456789号