PhoneBuddy – 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。

Mistral OCR 4 – Mistral AI 推出的最新一代文档理解模型

Mistral OCR 4 是 Mistral AI 推出的最新一代文档理解模型。模型支持从 PDF、图片、演示文稿等复杂文档中提取文本,能返回带边框定位、区域类型分类和置信度评分的结构化输出,支持 170 种语言,专为 RAG、智能体工作流和企业搜索等下游场景设计。

TRAE Work Design – TRAE Work 推出的全新设计模式

TRAE Work Design 是字节跳动旗下 AI 编程工具 TRAE Work 推出的全新设计模式,面向设计师、开发者、产品经理等角色,支持通过自然语言对话直接生成 UI 设计稿,可在画布中实时编辑修改。

updream实测 – 画布式创作,一句话续写画面到成片

最近在 B 站刷到好多有意思的 AI 短剧。有 AI 动画,有悬疑短片,也有那种把网文脑洞拍出来的短剧。不管是内容、质量还是完成度,都比前两年高太多了。

Ponytail教程 – AI 编程 Agent 精简代码实战详解

今天发点适合写代码的东西。写项目的时候,刚开始代码都很清爽:两个页面、三个接口、几段工具函数,目录一眼能看完。

Ornith-1.0 – DeepReinforce 开源的 Agentic 编程系列模型

Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列,模型基于 Gemma 4 与 Qwen 3.5 预训练基座,采用自改进训练框架,在代码生成与软件工程基准上达到同级别开源模型的 SOTA 水平。

QoderWork 中国版免费体验 – 从写作到远程操控电脑

AI Agent 全面爆发,但普通人想真正用起来却很难。海外工具成本高,网络不稳定,API 额度消耗太快,随便跑两个自动化工作流,钱包就有些吃不消。

向尾 – 阿里云推出的AI互动故事创作与阅读平台

向尾是阿里云推出的AI互动故事创作与阅读平台,主打创作与沉浸式互动。平台支持从零起稿、文稿续写、长篇小说分章规划三种模式,覆盖网文、剧本、儿童故事等场景。

学 AI 该学什么? – 图解 Skill:AI提效实战指南(PDF文件)

《图解Skill:AI提效实战指南》作者、开源项目 baoyu-skills 维护者,关于「我们学AI到底该学什么」的深度分享,核心主张是,当下学AI回报率最高的方向,不是追新模型、不是背提示词,而是把你自己反复做的事,变成AI能执行的技能(Agent Skills)。

Confucius4-TTS – 网易有道开源的多语言语音合成引擎

Confucius4-TTS 是网易有道开源的 1.3B 参数多语言语音合成引擎。模型只需 3 秒参考音频可零样本克隆音色,无需参考文本,支持中、英、日、韩等 14 种语言跨语种无口音合成,能迁移情感韵律。

MMSkills – 上海交大与小红书联合推出的多模态技能框架

MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架,支持将可复用技能从纯文本步骤扩展为包含文本流程、运行时状态卡片和多视角关键帧的多模态程序性知识,通过 branch loading 机制在运行时高效调用视觉证据。

Otty – Typora 团队推出的原生 macOS 终端应用

Otty 是 Typora 团队推出的原生 macOS 终端应用,专为频繁使用 AI Agent 的开发者设计。工具在传统终端的基础上,原生集成多 Agent 面板管理、会话恢复、对话分支(Fork)和 Prompt 队列等功能,让用户在一个界面中同时运行和监控 Claude Code、Codex、OpenCode 等工具。

JoyAI-VL-Interaction – 京东开源的实时视频视觉语言交互模型

JoyAI-VL-Interaction 是京东 Joy Future Academy 开源的实时视频视觉语言交互模型,是全球首个全栈开源的 interaction 模型系统。

Honestly – AI 社交情报与联盟营销分析平台,抓取真实评论

Honestly 是面向品牌方的 AI 社交情报与联盟营销分析平台,核心定位是"将社交媒体上的真实产品讨论转化为可执行的商业信号"。通过爬取 Reddit、TikTok、YouTube、Instagram、X 等主流社交平台

Qwen-AgentWorld – 通义千问推出的原生语言世界模型

Qwen-AgentWorld 是通义千问团队推出的首个语言世界模型,通过长思维链推理模拟 MCP、搜索、终端、软件工程、Android、Web、操作系统共 7 大智能体环境。

Claude Tag – Anthropic 推出的企业级 AI 协作工具

Claude Tag 是 Anthropic 推出的企业级 AI 协作工具,定位为 Claude Code 的进化版。工具内置 Agent 身份深度集成 Slack,团队成员可在任意频道 @Claude 委派任务。

Baichuan-M4 – 百川智能联合清华推出的医疗增强模型

Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% 为全行业最低。Baichuan-M4 突破通用大模型被动应答的局限。

4 个开源 PPT Skill 生成实测 – 从颜值到原生交付全对比

今天发点适合做 PPT 的东西。做 PPT 这事,懂的都懂。做得好不一定有奖励,做得差一定要返工。最烦的是,很多 PPT 写出大纲倒是不难,反而排版、填写内容、调整结构实在是折磨人。今天给大家推荐4个 Github上好用的 PPT Skill,以后做 PPT 再也不用抓耳挠腮的苦熬了。

豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型

豆包音频生成模型1.0是火山引擎推出的端到端音频创作模型,支持文本或音频作为参考输入生成目标音频。模型单条Prompt可编排多角色对白、情绪语气、背景音乐与环境氛围,直接产出具备叙事张力的完整音频作品,无需后期多轨混音。

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cache 从线性增长压缩为常数,实现单次前向转录数十页文档。