Doubao-Seed-2.0-lite – 字节推出的首款全模态理解模型

Doubao-Seed-2.0-lite 是字节跳动豆包团队推出的首款全模态理解模型。模型支持视频、图像、音频、文本的原生统一理解,同步升级了 Agent、Coding 与 GUI 能力。

SenseNova 6.7 Flash-Lite – 商汤推出的多模态智能体模型

SenseNova 6.7 Flash-Lite是商汤科技推出的新一代轻量化多模态智能体模型,采用原生多模态架构,专为真实世界工作流设计。

GPT-Realtime-Translate – OpenAI 推出的实时语音翻译模型

GPT-Realtime-Translate 是 OpenAI 推出的实时语音翻译模型,支持 70 余种输入语言实时翻译为 13 种输出语言,采用端到端架构直接处理原始音频,跳过文字中间步骤,在保留说话者语调、情感与停顿节奏的同时实现低延迟输出。

GPT-Realtime-Whisper – OpenAI 推出的语音转文字模型

GPT-Realtime-Whisper 是 OpenAI 推出的流式语音转文字模型,基于 Whisper 架构升级而来,能在用户说话的同时实时输出文字,延迟极低。

GPT-Realtime-2 – OpenAI 推出的第二代实时语音模型

GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型,是目前 Realtime API 中推理能力最强的语音 Agent。模型具备 GPT-5 级推理能力,能在语音对话中边听边想,实时处理复杂多步任务并精准调用外部工具。

JJT – 360 旗下 AI 办公平台推出的 AI PPT 生成工具

JJT 是 360集团旗下 360 AI办公平台推出的 AI 生成 PPT 工具,用户只需输入主题或粘贴内容,AI 即可自动生成结构完整、视觉专业的演示文稿。核心能力覆盖智能排版、数据图表生成、电影级视频转场、AI 精准配图、全套风格换新及演讲稿撰写,实现从内容创作到演讲交付的全链路闭环。

豆包推出付费订阅服务,三档定价最高 5088 元/年

五一假期,没想到豆包因为要收费了上了热搜。热度已经持续两天了。在 App Store 里搜索豆包,打开,往下滑可以看到付费服务说明,一共有三档价格:

Realtime TTS-2 – Inworld AI 推出的实时语音合成模型

Realtime TTS-2 是 Inworld AI 推出的新一代实时语音合成模型,专为对话式 AI 场景打造。模型能将文本转为自然语音,更能"听懂"对话上下文的音频情绪、语调和节奏,实现多轮感知式语音合成。

AIHOT – 数字生命卡兹克推出的 AI 热点监控平台

AIHOT 是自媒体博主「数字生命卡兹克」基于 3 年 AI 自媒体经验推出的 AI 热点监控平台,通过 168 个精选信源自动抓取行业动态,经 DeepSeek 模型预筛、多维度 AI 评分及人工反馈机制,将每日数百条信息降维精选为高价值内容。

Grok Voice Think Fast 1.0 – xAI 推出的语音智能体模型

Grok Voice Think Fast 1.0是xAI推出的旗舰级语音智能体模型,专攻复杂多步骤真实场景。模型在τ-voice Bench排名第一,支持25种语言与全双工对话,具备低延迟响应、实时后台推理及多工具编排能力,可精准处理地址电话等结构化数据录入。

Mamoda2.5 – 字节跳动推出的统一多模态模型

Mamoda2.5 是字节跳动推出的统一多模态 AR-Diffusion 模型,基于 128 专家细粒度 DiT-MoE 架构,总参数量 25B、每次仅激活约 3B。

GenericAgent – A3 Lab 推出的通用自进化 LLM Agent 系统

GenericAgent(GA)是 A3 Lab 推出的通用自进化 LLM Agent 系统,以"上下文信息密度最大化"为核心设计原则。GenericAgent通过 9 个原子工具、30k 上下文窗口和四层分层记忆架构,在 Lifelong AgentBench 上实现 100% 任务完成率,token 消耗为 Claude Code 的 27.7% 和 OpenClaw 的 15.5%。

Models.dev – OpenCode 团队开源的 AI 模型数据库

Models.dev 是 OpenCode 团队开源的 AI 模型数据库。Models.dev 以标准化 TOML 格式整合 OpenAI、Anthropic、Google 等数十家主流厂商的模型信息,涵盖价格、上下文窗口、工具调用、知识截止等关键规格,提供公开 JSON API(models.dev/api.json)供开发者直接调用。

Astrocade – AI游戏创作与游玩平台,自然语言生成完整游戏

Astrocade是基于生成式AI的零代码游戏创作与游玩平台,定位为"宇宙级游戏厅"。用户通过自然语言描述游戏创意,平台内置的专用AI模型集群(涵盖地形、角色、动画、音效等环节)在AstroBrain协调模型统筹下,可在数分钟内自动生成完整可玩的游戏,支持难度、配色、机制等精细参数调整。

Uni-1.1 – Luma AI 推出的新一代图像生成模型

Uni-1.1是Luma AI推出的新一代图像生成模型及API服务,采用decoder-only自回归Transformer架构,将文本推理与像素生成整合为统一流程。

Anthropic Skills – Anthropic 为 Claude 推出的技能系统

Anthropic Skills 是 Anthropic 为 Claude 推出的技能系统,本质上是包含指令、脚本和资源的文件夹,让 Claude 动态加载提升在特定任务上的表现。每个 Skill 通过 SKILL.md 文件定义,涵盖文档处理(docx/pptx/xlsx/pdf)、Web测试、MCP构建、前端设计、算法艺术等场景。

Kami – 开源 AI 文档设计系统,输出可交付的专业文档

Kami是 tw93 开源的 AI 文档设计系统,用 Claude Code Skill 形式分发,专门解决 AI 生成文档排版千篇一律、视觉廉价的问题。工具通过一套严格的印刷品约束规则,暖米色画布、单一油墨蓝强调色、固定字重 serif 字体、紧凑行距等,让 AI 稳定输出可直接交付的专业 PDF。

千问电脑版语音输入法实测,动动嘴就能办公

千问电脑版上线千问语音输入法了!作为一个自媒体人,我每天打字打得手都痛。

OpenWhip – 开源桌面工具,为 Claude Code 发送中断信号

OpenWhip 是基于 Electron 的开源桌面小工具,专为 Claude Code 用户设计。当 AI 陷入死循环、反复修改同一行代码或长时间无响应时,用户点击托盘鞭子图标,屏幕能飞出鞭子动画,同时自动发送 Ctrl-C 中断当前任务,随机附带一句吐槽话术。

UniClaw – 中国联通推出的自主执行智能体平台

UniClaw 是中国联通自主研发的自主执行智能体平台,定位为企业级AI数智员工操作系统。产品基于自研Agent Harness基座构建,通过一站式职业技能平台预置100余种岗位技能,已联合百家头部企业落地秘书、客服、数据分析、运营、研发等智能体应用。