AI项目
VTP – MiniMax视频团队开源的视觉生成模型预训练框架
VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学习等方法,从头预训练tokenizer,使生成的latent(压缩特征)更具结构化和易学性。
Gemini 3 Flash – 谷歌推出的最新AI模型,主打高速低成本
Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。
A2UI – 谷歌开源Agent生成用户界面的声明式协议
A2UI(Agent-to-User Interface)是谷歌开源的基于Agent的接口协议,用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述,让客户端原生渲染交互界面,无需AI编写前端代码。
混元世界模型1.5 – 腾讯混元开源的实时交互式世界生成模型
腾讯混元世界模型1.5(HY WorldPlay 1.5)是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片,模型能快速创建专属的虚拟世界,通过键盘、鼠标或手柄自由探索。
Xiaomi MiMo Studio – 小米推出的在线AI聊天服务平台
Xiaomi MiMo Studio 是小米推出的在线 AI 聊天服务平台,用户可以在其中体验 Xiaomi MiMo-V2-Flash 模型。平台支持深度搜索和联网搜索,降低了用户体验 AI 对话服务的门槛。
MiMo-V2-Flash – 小米开源的高性能语言模型
MiMo-V2-Flash 是小米开源的高性能语言模型,具有3090亿总参数和150亿激活参数。专为智能体AI设计,采用混合注意力架构,结合滑动窗口注意力(SWA)和全局注意力(GA),窗口大小为128个token,通过可学习的注意力下沉偏置(sink bias)技术,在保持长文本性能的同时显著降低KV缓存存储量。
Molmo 2 – Ai2开源的AI视频分析模型
Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视频中精准定位事件、追踪多目标,生成详细字幕。
LongCat-Video-Avatar – 美团开源的数字人视频生成模型
LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video-Avatar支持多种生成模式,包括音频文本生成视频(AT2V)、音频文本图像生成视频(ATI2V)和视频续写。
Ember AI – AI交互式学习平台,提供全天候AI辅导
Ember AI 是马来西亚首个为 SPM 课程量身定制的交互式学习平台,帮助学生更高效地学习。平台提供 24/7 的 AI 辅导服务,学生可以在任何时间获得即时帮助,无论是深夜复习历史还是准备英语考试,AI 助教能提供详细的解答和指导。
88查 – 阿里巴巴推出的免费AI企业信息查询平台
88查是阿里巴巴推出的免费企业信息查询平台,为企业和个人提供全面、便捷的企业数据查询服务。用户可以通过官网、支付宝或微信小程序,以及1688 App等多种方式访问,输入企业名称即可快速获取工商信息、经营风险、知识产权等多维度数据。
GPT Image 1.5 – OpenAI最新推出的图像生成模型
GPT Image 1.5 是 OpenAI 最新推出的图像生成模型,具有更强的指令遵循能力和精准编辑功能,根据用户要求只修改指定部分,同时保持画面整体一致性。
红烛小说 – 字节跳动推出的首款付费网文应用
红烛小说是字节跳动推出的首款付费网文应用,专注于精品阅读。应用与字节旗下的番茄免费小说形成差异化互补,采用“免费引流 + 会员付费”的模式。
Live Avatar – 阿里联合高校开源的实时数字人模型
Live Avatar 是阿里巴巴联合多所高校推出的实时数字人模型,能通过音视频驱动生成无限时长的数字人视频。
Nemotron 3 – 英伟达推出的最新开源AI模型系列
Nemotron 3 是英伟达推出的新型开源模型系列,包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合(MoE)架构,专为构建高效、准确的多智能体 AI 应用设计。
Disco – Google Labs推出的实验性AI浏览器
Disco 是 Google 推出的实验性AI浏览器。Disco 核心功能是 GenTabs,用 Gemini 3 模型将用户打开的标签页变成定制化的交互式应用。
Documentation.AI – AI文档平台,产品变更自动更新文档
Documentation.AI 是智能文档平台,专注于创建、更新和优化产品文档而设计。平台通过 AI 助手能实时监测产品变更、用户反馈等,自动更新文档内容,确保信息始终最新。
Wan-Move – 阿里联合清华等开源的运动可控视频生成框架
Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架构更改,可实现细粒度的点级运动控制,能生成 5 秒、480p 的视频,运动控制质量与商业系统相当。
Paper2Slides – 港大开源论文转为专业幻灯片的AI工具
Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保生成的幻灯片内容准确且可追溯,避免信息漂移。
Genstory – 免费AI故事生成平台,能生成完整的数字绘本
Genstory 是基于 Gemini Storybook 技术的免费 AI 故事生成平台,能将用户的简单想法瞬间转化为精美的绘本故事。用户只需输入故事提示,如“勇敢的小女孩拯救森林”,Genstory 能在几秒钟内生成完整的数字绘本,包含引人入胜的文字和精美的插图。
Mulan – AI视频创作平台,Workflow方式实现视频生成
Mulan是创新的 AI 视频创作平台,为用户提供高效、便捷的视频生成体验。借助画布 Workflow 实现视频的批量生成,通过简单替换素材,可快速迭代出风格相似的视频,极大地提升了创意复制的效率。
粤公网安备 123456789号