AI项目

SWE-1.5 – Cognition 推出的高性能AI编程模型

SWE-1.5 是AI独角兽 Cognition 推出的专为软件工程设计的高性能 AI 编程模型。拥有数百亿参数,具备接近最先进水平的编码能力,同时在速度上取得重大突破,推理速度高达 950 token/秒,比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍,目前已在 Windsurf 代码编辑器中上线。

石榴数字人 – 向量方程推出的AI数字人视频创作平台

石榴数字人是北京向量方程科技有限公司开发的AI数字人视频创作平台。具备数字人形象、声音克隆、智能文案、智能对口型、PPT生视频和API等强大功能,可广泛应用于出版、教育和新媒体等行业。

TLDW – AI视频摘要工具,快速了解视频主要观点

TLDW是AI驱动的视频摘要工具。能将长视频内容转化为简洁的文本摘要,帮助用户快速了解视频的主要观点。用户可以输入YouTube视频的链接或上传本地视频文件,TLDW会自动分析视频中的音频和视觉内容,提取关键信息并生成摘要。

Popi.art – AI动画短片制作平台,提供全流程支持

Popi.art 是专注于 AI 动画短片制作的平台,为创作者提供全流程支持。提供角色体系(预设与自定义角色)、专业辅助工具(降低创作门槛)、背景与风格优化(提升视觉质感)。通过精细化编辑器支持,用户可以进行捏模(精准调整角色结构)、妆容/换装/挂件(丰富角色外观)以及角色资产的保存与上传。

WOWService – 美团推出的大模型交互系统技术报告

WOWService 是美团 LongCat 团队发布的智能交互系统,通过融合大型语言模型(LLMs)和多智能体架构,优化用户体验并降低成本。系统针对智能交互领域的五大挑战:冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题,提出了创新解决方案。

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark 是 OpenAI 推出的基于 GPT-5 的智能体,能自动发现和修复代码中的安全漏洞。Aardvark通过不间断地分析源代码仓库,识别漏洞、评估可利用性、划分严重等级,提出针对性修复方案。

盈标问天 – 星舰智能推出的AI招投标智能助手

盈标问天是星舰智能科技推出的招投标行业智能助手。通过AI技术,为招投标流程提供智能化解决方案,提升效率和合规性。能自动提取关键信息并深度审核50余项子项,提示风险并生成标准化报告;AI智能助手可实时解答政策和条款问题,提供法规依据

Emu3.5 – 智源研究院推出的多模态世界大模型

Emu3.5(悟界·Emu3.5)是智源研究院发布的多模态世界大模型。通过在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,学习并内化了现实物理世界的动态规律,具备原生的世界建模能力。

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear 是月之暗面推出的新型混合线性注意力架构,专为提升大型语言模型(LLMs)在长序列任务中的效率和性能设计。核心组件 Kimi Delta Attention(KDA)通过精细化的通道级门控机制和高效的块处理算法,显著提升模型的表达能力和硬件效率。

Music 2.0 – MiniMax推出的新一代音乐创作模型

Music 2.0 是MiniMax最新推出的先进音乐创作模型。模型能精准捕捉和还原人声的细腻情绪与器乐的动态张力,支持多种唱法和风格切换,如流行、爵士、摇滚等,还能实现男女对唱、阿卡贝拉等效果。

Gambo – AI游戏开发Agent,一句话生成完整游戏

Gambo 是创新的 AI 游戏开发Agent,定位“世界首个 Game Vibe Coding Agent”。用户只需通过简单的文字描述,能快速生成完整的游戏,包括场景、角色、音效和交互逻辑。

Firefly Image 5 – Adobe推出的最新图像生成模型

Firefly Image 5 是 Adobe 发布的最新图像生成模型。具备原生400万像素输出能力,能直接生成高分辨率图像,细节表现力大幅提升。在人物渲染方面,新模型优化了面部结构、肢体比例和光影逻辑,减少了常见问题,使生成的人物图像更加逼真。

Composer – Cursor推出的自研编码模型

Composer 是Cursor推出的自研编码模型,专为低延迟的智能体式编码设计。模型生成速度极快,每秒可达 250 个 token,是同等智能模型的 4 倍,大多数任务在 30 秒内完成。

Speech 2.6 – MiniMax推出的语音生成模型

Speech 2.6 是MiniMax推出的全新语音生成模型,专为新一代语音智能体设计,具备超低延时(低于250毫秒),确保实时对话流畅;支持多种语言的网址、邮箱、电话号码等非标准文本格式的直接转换,无需繁琐预处理。

FIBO – 开源的图像生成模型,首个原生支持JSON

FIBO 是首个开源的、原生支持 JSON 的文本生成图像模型,专为长结构化描述训练而成。模型在超过 1 亿条结构化 JSON 描述(每条约 1,000 字)上训练,能精确、可重复地控制光线、构图、色彩与相机参数。

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音(TTS)模型,专为生成长篇播客对话设计。模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。

Agent HQ – GitHub推出的集成AI智能体平台

Agent HQ是GitHub推出的集成AI智能体的创新平台,将各种AI工具无缝融入开发者的工作流中。通过Mission Control提供统一的指挥中心,让开发者可以在GitHub网站、VS Code、移动端或命令行界面中轻松分配、指导和跟踪多个AI智能体的任务。

GigaBrain-0 – 开源VLA具身模型,基于世界模型生成的数据

GigaBrain-0 是新型的视觉-语言-行动(VLA)基础模型,由世界模型生成的数据驱动。模型通过大规模生成多样化数据,减少了对真实机器人数据的依赖,显著提升了跨任务泛化能力。采用 RGB-D 输入建模,增强了空间感知能力,通过具身思维链(Embodied CoT)监督,强化了模型在任务执行中的推理能力。

FlowithOS – Flowith推出的首个智能体操作系统

FlowithOS是Flowith推出的全球首个智能体操作系统,使其能像人类一样与数字世界互动。FlowithOS具备浏览器、终端和脚本使用功能,能自动执行复杂任务,如文件管理、游戏操作等。

Pomelli – Google Labs推出的AI营销工具

Pomelli 是 Google Labs 推出的 AI 营销工具。用户输入品牌网站地址,Pomelli 能在短时间内分析网站的配色、风格等元素,自动生成符合品牌调性的营销文案和图片素材。工具具备局部编辑和二次编辑功能,方便用户对生成内容进行优化调整。