AI项目

Kairos 3.0 – 大晓机器人开源的商业应用世界模型

Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。

laper – AI剧本创作工具,能实时预测台词与动作

Laper 是 AI 剧本创作工具,能为编剧提供精细化的创作平台。平台支持多种剧本类型,如电影长片、短片和短视频故事,具备好莱坞标准格式的智能补全功能,可实时预测台词与动作描写。

VTP – MiniMax视频团队开源的视觉生成模型预训练框架

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学习等方法,从头预训练tokenizer,使生成的latent(压缩特征)更具结构化和易学性。

Gemini 3 Flash – 谷歌推出的最新AI模型,主打高速低成本

Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。

A2UI – 谷歌开源Agent生成用户界面的声明式协议

A2UI(Agent-to-User Interface)是谷歌开源的基于Agent的接口协议,用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述,让客户端原生渲染交互界面,无需AI编写前端代码。

混元世界模型1.5 – 腾讯混元开源的实时交互式世界生成模型

腾讯混元世界模型1.5(HY WorldPlay 1.5)是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片,模型能快速创建专属的虚拟世界,通过键盘、鼠标或手柄自由探索。

Xiaomi MiMo Studio – 小米推出的在线AI聊天服务平台

Xiaomi MiMo Studio 是小米推出的在线 AI 聊天服务平台,用户可以在其中体验 Xiaomi MiMo-V2-Flash 模型。平台支持深度搜索和联网搜索,降低了用户体验 AI 对话服务的门槛。

MiMo-V2-Flash – 小米开源的高性能语言模型

MiMo-V2-Flash 是小米开源的高性能语言模型,具有3090亿总参数和150亿激活参数。专为智能体AI设计,采用混合注意力架构,结合滑动窗口注意力(SWA)和全局注意力(GA),窗口大小为128个token,通过可学习的注意力下沉偏置(sink bias)技术,在保持长文本性能的同时显著降低KV缓存存储量。

Molmo 2 – Ai2开源的AI视频分析模型

Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视频中精准定位事件、追踪多目标,生成详细字幕。

LongCat-Video-Avatar – 美团开源的数字人视频生成模型

LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video-Avatar支持多种生成模式,包括音频文本生成视频(AT2V)、音频文本图像生成视频(ATI2V)和视频续写。

Ember AI – AI交互式学习平台,提供全天候AI辅导

Ember AI 是马来西亚首个为 SPM 课程量身定制的交互式学习平台,帮助学生更高效地学习。平台提供 24/7 的 AI 辅导服务,学生可以在任何时间获得即时帮助,无论是深夜复习历史还是准备英语考试,AI 助教能提供详细的解答和指导。

88查 – 阿里巴巴推出的免费AI企业信息查询平台

88查是阿里巴巴推出的免费企业信息查询平台,为企业和个人提供全面、便捷的企业数据查询服务。用户可以通过官网、支付宝或微信小程序,以及1688 App等多种方式访问,输入企业名称即可快速获取工商信息、经营风险、知识产权等多维度数据。

GPT Image 1.5 – OpenAI最新推出的图像生成模型

GPT Image 1.5 是 OpenAI 最新推出的图像生成模型,具有更强的指令遵循能力和精准编辑功能,根据用户要求只修改指定部分,同时保持画面整体一致性。

红烛小说 – 字节跳动推出的首款付费网文应用

红烛小说是字节跳动推出的首款付费网文应用,专注于精品阅读。应用与字节旗下的番茄免费小说形成差异化互补,采用“免费引流 + 会员付费”的模式。

Live Avatar – 阿里联合高校开源的实时数字人模型

Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。

Nemotron 3 – 英伟达推出的最新开源AI模型系列

Nemotron 3 是英伟达推出的新型开源模型系列,包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合(MoE)架构,专为构建高效、准确的多智能体 AI 应用设计。

Disco – Google Labs推出的实验性AI浏览器

Disco 是 Google 推出的实验性AI浏览器。Disco 核心功能是 GenTabs,用 Gemini 3 模型将用户打开的标签页变成定制化的交互式应用。

Documentation.AI – AI文档平台,产品变更自动更新文档

Documentation.AI 是智能文档平台,专注于创建、更新和优化产品文档而设计。平台通过 AI 助手能实时监测产品变更、用户反馈等,自动更新文档内容,确保信息始终最新。

Wan-Move – 阿里联合清华等开源的运动可控视频生成框架

Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架构更改,可实现细粒度的点级运动控制,能生成 5 秒、480p 的视频,运动控制质量与商业系统相当。

Paper2Slides – 港大开源论文转为专业幻灯片的AI工具

Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保生成的幻灯片内容准确且可追溯,避免信息漂移。