Gemini Omni Flash – 谷歌推出的多模态视频生成模型

Gemini Omni Flash 是 Google  I/O 大会推出的视频生成模型,定位从任意输入生成任意输出的统一多模态生成模型。

Gemini 3.5 Flash – Google 推出的新一代 AI 大模型

Gemini 3.5 Flash 是 Google 推出的新一代AI大模型,以前沿智能+行动能力为核心定位。模型在 Terminal-Bench 2.1 编码基准得分 76.2%、GDPval-AA 代理任务 1656 Elo、MCP Atlas 达 83.6%,均超越 Gemini 3.1 Pro,输出速度达前沿模型 4 倍。

ESP-Claw – 乐鑫开源的物联网设备 AI Agent 框架

ESP-Claw 是乐鑫推出的物联网设备 AI Agent 框架,采用"Chat Coding"理念,让用户通过自然语言对话可定义和修改硬件设备行为。

Qwen3.7 Preview – 阿里通义推出的下一代旗舰大模型预览版

Qwen3.7 Preview 是阿里通义千问团队推出的下一代旗舰大模型预览版,包含Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview两个版本。

Chronicles-OCR – 腾讯联合高校等推出的视觉感知评测基准

Chronicles-OCR 是腾讯混元联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院共同推出的业界首个覆盖中国汉字"七体之变"完整演化轨迹的跨时间视觉感知评测基准,基准包含 2,800 张高质量图像,系统涵盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大字体

Composer 2.5 – Cursor 推出的自研 Agentic 编程模型

Composer 2.5 是 Cursor 推出的自研 Agentic 编程模型。在智能水平和行为表现上较 Composer 2 有大幅提升,在 SWE-Bench Multilingual(79.8%) 和 CursorBench v3.1(63.2%) 等核心基准上与 Claude Opus 4.7、GPT-5.5 处于同一梯队,但单次任务成本仅为竞品的约 1/10,称为"性价比之王"。

腾讯Marvis – 腾讯应用宝推出的操作系统层个人 AI 助手

腾讯Marvis是腾讯应用宝团队推出的操作系统层个人 AI 助手。工具通过 1 个主 Agent 与 5 个副 Agent 的协作架构,实现电脑系统操作、文件管理、App 操控、网页交互与信息搜索等复杂任务,24 小时在线并支持 Windows 与安卓跨端操作。

LibTV团队版实测 – 多人协作重构 AI 视频生产模式

说到最火爆的AI视频软件,我心里想到最符合的就是 LibTV 了。上线首日访问量就突破10万,而且都不是来白嫖的,一个月内单日收入就超过了百万美金。

Marvis – 腾讯应用宝推出的操作系统层个人 AI 助手

Marvis是腾讯应用宝团队推出的操作系统层个人 AI 助手。工具通过 1 个主 Agent 与 5 个副 Agent 的协作架构,实现电脑系统操作、文件管理、App 操控、网页交互与信息搜索等复杂任务,24 小时在线并支持 Windows 与安卓跨端操作。

Higgs Avatar v1 – 面向语音智能体的实时 AI 数字人模型

Higgs Avatar v1 是BosonAI推出的面向语音智能体的实时 AI 数字人模型。模型仅需一张静态照片,可生成具备口型同步、面部表情与头部动作的实时交互数字人。

LibTV团队版 – LibTV 推出的专业级 AI 视频协作工作台

LibTV 团队版是 LibTV 推出的专业级 AI 视频协作工作台,专为 AI 短剧、电影、TVC 制作团队设计。平台提供团队空间、实时画布协作、资产库沉淀、权限管理、成本管控等功能。

MemPrivacy – 记忆张量联合荣耀 AI 开源的隐私保护框架

MemPrivacy 是记忆张量(MemTensor)团队联合荣耀 AI 团队及同济大学共同开源的端云协同 Agent 隐私保护框架。针对云端 Agent 长期记忆场景中的隐私泄露风险,提出"本地可逆伪匿名化"方案

PPT Master – 开源 AI PPT 生成标准化工作流

PPT Master 是开源的AI驱动PPT生成标准化工作流(Skill),可在具备Agent智能体能力的AI IDE中运行,实现PDF、DOCX、XLSX、网址、Markdown、PPTX等任意格式文档到原生可编辑PPTX文件的端到端转换。

Violin – 牛津大学 Kevin Lin 开源的端到端 AI 视频翻译工具

Violin 是牛津大学博士后 Kevin Lin 开源的端到端 AI 视频翻译工具,打破高质量视频内容的语言壁垒。集成 Whisper 语音识别、大语言模型翻译与 TTS 语音合成三大能力,可将任意语言视频自动翻译并配音为 33 种目标语言,且输出音频与画面口型节奏高度对齐。

Grok Build – xAI 推出的终端原生 AI 编程智能体

Grok Build 是 xAI 推出的终端原生 AI 编程智能体(Agentic CLI),面向专业软件工程与复杂编码任务。基于 Grok 4.3 beta 的 200 万 token 超长上下文,支持 Plan Mode 计划审批、最多 8 个并行子智能体协作及 Arena Mode 自动方案排序,可在本地直接读写文件、执行 Shell 命令、操作 Git 并构建完整应用。

Codex 教程 – 零基础VibeCoding全栈开发保姆级指南

近期 Codex 的动作很密集,方向也很明显。Codex 不再只是“帮程序员写代码”,OpenAI 正在把 Codex 推成一个能长期干活、能接企业流程、能进安全场景的 Agent 平台

OpenHuman – 开源桌面端 AI 助手,能主动感知工作上下文

OpenHuman 是 tinyhumansai 团队推出的开源个人 AI 超级智能助手,定位为"Your Personal AI super intelligence",主打私有、简单且极其强大。非传统聊天机器人,是能主动感知用户工作上下文的桌面级 AI Agent

怎么用 WorkBuddy 一句话完成任务,附8个高频办公场景提示词

本文介绍使用腾讯 WorkBudd 在职场办公中的 8 个高频应用场景,核心思路是用一句话指令,把重复耗时的工作交给 AI Agent 自动完成。精选8个高频办公痛点,简历筛选、发票报销、内容创作、数据清洗等,用「Before/After」对比展示如何用一句自然语言指令驱动AI Agent自动完成重复任务。

Intern-S2-Preview – 上海 AI Lab 开源的科学多模态大模型

Intern-S2-Preview 是上海人工智能实验室开源的新一代书生科学多模态大模型预览版,以35B参数规模实现比肩万亿参数模型的科学能力。模型通过"通专融合"全链路训练与强化学习驱动,首次在开源通用大模型中实现材料晶体结构生成,MolecularIQ评测得分57.26,晶体结构生成通过率超40%,显著超越主流闭源模型。

Pixal3D – 腾讯联合清华等开源的单图像 3D 生成项目

Pixal3D 是腾讯 ARC 实验室联合清华大学、惠灵顿维多利亚大学推出的单图像 3D 生成项目。Pixal3D通过反向投影将像素特征显式提升到三维空间,建立直接的像素到 3D 对应关系,能生成接近重建级保真度的 3D 资产。