AI项目

红烛小说 – 字节跳动推出的首款付费网文应用

红烛小说是字节跳动推出的首款付费网文应用,专注于精品阅读。应用与字节旗下的番茄免费小说形成差异化互补,采用“免费引流 + 会员付费”的模式。

Live Avatar – 阿里联合高校开源的实时数字人模型

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。

Nemotron 3 – 英伟达推出的最新开源AI模型系列

Nemotron 3 是英伟达推出的新型开源模型系列,包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合(MoE)架构,专为构建高效、准确的多智能体 AI 应用设计。

Disco – Google Labs推出的实验性AI浏览器

Disco 是 Google 推出的实验性AI浏览器。Disco 核心功能是 GenTabs,用 Gemini 3 模型将用户打开的标签页变成定制化的交互式应用。

Documentation.AI – AI文档平台,产品变更自动更新文档

Documentation.AI 是智能文档平台,专注于创建、更新和优化产品文档而设计。平台通过 AI 助手能实时监测产品变更、用户反馈等,自动更新文档内容,确保信息始终最新。

Wan-Move – 阿里联合清华等开源的运动可控视频生成框架

Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架构更改,可实现细粒度的点级运动控制,能生成 5 秒、480p 的视频,运动控制质量与商业系统相当。

Paper2Slides – 港大开源论文转为专业幻灯片的AI工具

Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保生成的幻灯片内容准确且可追溯,避免信息漂移。

Genstory – 免费AI故事生成平台,能生成完整的数字绘本

Genstory 是基于 Gemini Storybook 技术的免费 AI 故事生成平台,能将用户的简单想法瞬间转化为精美的绘本故事。用户只需输入故事提示,如“勇敢的小女孩拯救森林”,Genstory 能在几秒钟内生成完整的数字绘本,包含引人入胜的文字和精美的插图。

Mulan – AI视频创作平台,Workflow方式实现视频生成

Mulan是创新的 AI 视频创作平台,为用户提供高效、便捷的视频生成体验。借助画布 Workflow 实现视频的批量生成,通过简单替换素材,可快速迭代出风格相似的视频,极大地提升了创意复制的效率。

LensGo AI – AI内容创作平台,一键生成风格化图像与视频

LensGo AI 是创新的 AI 创作平台,支持将简单的文字提示、照片或原始视频素材转化为风格化的图像和视频内容。平台通过强大的多模式创作引擎,让用户在浏览器中轻松实现从文字到视觉、从静态到动态的快速转换,无需复杂的剪辑或动画技能。

Gemini TTS – 谷歌推出的最新文字转语音模型

Gemini TTS 是谷歌推出的先进文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言(24种以上)合成,可生成自然流畅且富有情感的语音。用户可通过自然语言指令精确控制语音的风格、语速、语调和情感表达。

LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 100B 量级。

Claude-Mem – 开源Claude Code记忆插件,提供长期记忆

Claude-Mem 是专为 Claude Code 设计的开源插件,能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息,包括工具调用、对话记录和项目结构,解决 AI 在跨会话中容易遗忘的问题。

LuxReal – 群核科技推出的AI 3D视频创作平台

LuxReal 是群核科技推出的 AI 3D视频创作平台。平台能基于图像、3D 模型等多模态输入,快速生成主体一致、画面可控的视频内容,适用电商、影视、广告等行业。L

SSVAE – 智谱AI开源的频谱结构化变分自编码器

SSVAE(Spectral-Structured VAE)是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现,视频 VAE 的隐空间若具备时空低频偏置和通道特征值的少模式偏置,能显著加速下游扩散模型的训练。

GWM-1 – Runway推出的首个通用世界模型

GWM-1 是 Runway 推出的首个通用世界模型,基于 Gen-4.5 构建,采用自回归架构逐帧预测视频内容,可实时交互。模型分为三个分支:GWM Worlds 用于实时环境模拟,生成沉浸式、无限可探索空间;GWM Avatars 是音频驱动的交互视频生成模型,模拟自然人类动作和表情;GWM Robotics 是机器人训练模拟器,生成合成数据加速机器人开发。

DeepSearchQA – 谷歌开源的AI研究Agent测试基准

DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步都依赖于先前分析。

GPT-5.2 – OpenAI最新推出的通用AI模型系列

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和翻译,GPT-5.2 Thinking 专为复杂任务优化,如编程、长文档处理和多步骤项目管理,GPT-5.2 Pro 专注于高难度任务,提供高精度和高可靠性,适合科学研究和复杂分析。

Dynal.AI – 专注于LinkedIn内容创作的AI Agent助手

Dynal.AI 是专注于LinkedIn内容创作的智能工具,帮助用户高效生成和管理高质量的LinkedIn帖子。通过AI技术,将文字稿、网站链接、视频、PDF文件等素材快速转化为适合LinkedIn的帖子内容,抓取重点并调整语气,实现内容的高效再利用。

GLM-TTS – 智谱开源的工业级语音合成系统

GLM-TTS 是智谱推出的基于多奖励强化学习的工业级语音合成系统,具备音色复刻、多情感表达、高精度文本理解和高质量语音输出等功能。