Gemini TTS – 谷歌推出的最新文字转语音模型

Gemini TTS 是谷歌推出的先进文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言(24种以上)合成,可生成自然流畅且富有情感的语音。用户可通过自然语言指令精确控制语音的风格、语速、语调和情感表达。

LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。

Claude-Mem – 开源Claude Code记忆插件,提供长期记忆

Claude-Mem 是专为 Claude Code 设计的开源插件,能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息,包括工具调用、对话记录和项目结构,解决 AI 在跨会话中容易遗忘的问题。

OiiOii教程 – 实测AI一句话制作动画视频(附进阶玩法)

做动画的AI智能体终于来啦!上个月,OiiOii 作为全球首个专业动画创作 Agent 问世,连邀请码都一码难求。OiiOii 内置7个动画Agent,预设了162种动画风格,操作简单,没有专业功底的普通人,也能轻松生成一个动画。使用 OiiOii 像是与一个专业团队进行合作,会有艺术总监、编剧、角色设计师、分镜设计师等不同身份的智能体参与生成,全流程通过思维导图的形式展现,像是作为甲方加入了他们

OiiOii教程 – 实测AI一句话制作动画视频(附进阶玩法)

做动画的AI智能体终于来啦!上个月,OiiOii 作为全球首个专业动画创作 Agent 问世,连邀请码都一码难求。OiiOii 内置7个动画Agent,预设了162种动画风格,操作简单,没有专业功底的普通人,也能轻松生成一个动画。使用 OiiOii 像是与一个专业团队进行合作,会有艺术总监、编剧、角色设计师、分镜设计师等不同身份的智能体参与生成,全流程通过思维导图的形式展现,像是作为甲方加入了他们

LuxReal – 群核科技推出的AI 3D视频创作平台

LuxReal 是群核科技推出的 AI 3D视频创作平台。平台能基于图像、3D 模型等多模态输入,快速生成主体一致、画面可控的视频内容,适用电商、影视、广告等行业。L

SSVAE – 智谱AI开源的频谱结构化变分自编码器

SSVAE(Spectral-Structured VAE)是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现,视频 VAE 的隐空间若具备时空低频偏置和通道特征值的少模式偏置,能显著加速下游扩散模型的训练。

SCAIL – 智谱AI开源的影视级角色动画生成框架

SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全上下文姿态注入机制,解决了复杂动作场景下角色动画的时空一致性问题,实现高保真度的角色动画生成。

RealVideo -智谱AI开源的实时流式视频生成系统

RealVideo 是智谱 AI 开源的实时流式视频生成系统,基于自回归扩散视频生成技术,RealVideo能将文本输入即时转化为连续、高质量的视频响应,实现与 AI 角色的实时视频对话。

OiiOii邀请码 – 如何获取OiiOii邀请码?附免费领取方式

OiiOii 是全球首个专业动画创作Agent,借助智能 Agent 能实现动画从构思到成品的快速生成。用户只需输入简单指令,即可获得动画短片、视频或图片。

Kaleido – 智谱AI开源的多主体视频生成框架

Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。

GWM-1 – Runway推出的首个通用世界模型

GWM-1 是 Runway 推出的首个通用世界模型,基于 Gen-4.5 构建,采用自回归架构逐帧预测视频内容,可实时交互。模型分为三个分支:GWM Worlds 用于实时环境模拟,生成沉浸式、无限可探索空间;GWM Avatars 是音频驱动的交互视频生成模型,模拟自然人类动作和表情;GWM Robotics 是机器人训练模拟器,生成合成数据加速机器人开发。

DeepSearchQA – 谷歌开源的AI研究Agent测试基准

DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步都依赖于先前分析。

Gemini Deep Research – 谷歌推出的深度研究Agent

Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息环境中以高精度自主导航,减少幻觉、提升报告质量。

GPT-5.2 – OpenAI最新推出的通用AI模型系列

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和翻译,GPT-5.2 Thinking 专为复杂任务优化,如编程、长文档处理和多步骤项目管理,GPT-5.2 Pro 专注于高难度任务,提供高精度和高可靠性,适合科学研究和复杂分析。

Dynal.AI – 专注于LinkedIn内容创作的AI Agent助手

Dynal.AI 是专注于LinkedIn内容创作的智能工具,帮助用户高效生成和管理高质量的LinkedIn帖子。通过AI技术,将文字稿、网站链接、视频、PDF文件等素材快速转化为适合LinkedIn的帖子内容,抓取重点并调整语气,实现内容的高效再利用。

Qwen3-Omni-Flash – 阿里通义推出的全模态大模型

Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高质量的文本与自然语音输出。

PosterCopilot – 南大联合LibLib.ai等推出的海报设计模型

PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编辑能力,能实现从素材规划到最终成稿的全链路设计。

怎么用 Nano Banana Pro 做电商设计图,附13个玩法教程

距离谷歌发布 Nano Banana Pro,已经半个多月了。但它的创意玩法,依旧层出不穷。以前用 AI 做图,最让人头疼的一致性、中文准确性问题都被解决了,提示词也不用再写得像小作文一样。我发现一个在国内就能免费体验的方法——椒图 AI, 生成4K超清图片也只要1-2分钟,作图嘎嘎快,而且导出图片没有水印。

VoxCPM1.5 – 面壁智能开源的端到端语音合成模型

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音,支持 44.1kHz 高采样率音频克隆,生成效果更细腻。