AI项目

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架,首次将强化学习策略优化应用于图像编辑,通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型,提供稳定且细粒度的反馈,同时引入低方差组过滤机制,提升训练稳定性。

TapNow – AI视觉内容创作平台,提供多种预设工作流

TapNow 是 AI 视觉内容创作平台,通过集成多种先进的图像和视频生成模型,提供丰富的预设工作流,用户只需上传素材、选择对应工作流,能快速生成高质量的创作内容,如广告图、动态场景、拟真手办等。

Handy – 开源的语音转文字桌面应用,完全离线

Handy 是开源的语音转文字桌面应用,完全离线运行,支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建,界面简洁,操作便捷。用户通过快捷键激活录音,语音经本地处理后直接转为文本,无需联网,保护隐私。

NavFoM – 银河通用推出的环视导航基座大模型

NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全局语义对齐和细粒度视觉语言学习,逐步提升模型对图像细节的理解能力。

Ouro – 字节Seed推出的循环语言模型

Ouro是字节跳动Seed团队联合多家机构发布的循环语言模型(Looped Language Models,LoopLM)。名称源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。Ouro模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,非仅依赖后期微调。

MoArk AI – 模力方舟推出的国际化AI云平台

MoArk AI 是模力方舟的国际站,面向全球 AI 开发者和企业的 AI 云平台,提供标准化、模块化、可控可扩展的服务。MoArk.ai 的核心功能包括 Serverless 推理服务,用户无需配置 GPU,可开箱即用,毫秒级响应,支持企业级 VPC 隔离部署,符合 SOC 2 与 HIPAA 合规要求。

Open AgentKit – 零一万物开源的AI Agent开发平台

Open AgentKit(OAK)是零一万物开源的AI Agent开发平台,能为开发者提供开放、通用的Agent开发解决方案。平台受OpenAI AgentKit启发,支持多种模型和生态系统工具,集成行业最佳实践,遵循主流Agent协议与标准。

Huebit AI – AI艺术创作平台,支持多种风格和主题

Huebit AI 是创新的人工智能艺术平台,将人工智能与艺术创作相结合。用户可以通过简单的文字描述或上传图片,让 AI 快速生成个性化的艺术作品。平台支持多种艺术风格和主题,从抽象画到写实风格,都能轻松实现。

焦圈儿 – 首个AI原生社交平台,动态个性化推荐

焦圈儿是全球首个AI原生社交平台,通过集成DeepSeek、豆包、Kimi、元宝、通义千问等多个主流AI大模型,为用户提供智能问答、创作协作和知识分享等功能。用户可以基于他人的创作进行延伸和优化,能对感兴趣的内容进行深度探索,形成独特的协作创作体验。

AI Research Foundations – 谷歌与UCL联合推出的AI研究基础课程

AI Research Foundations是Google DeepMind与伦敦大学学院(UCL)联合推出的免费在线课程。课程能帮助学习者深入理解Transformer模型,通过实践掌握现代语言模型的构建与微调技巧。

LongCat-Flash-Omni – 美团开源的实时交互全模态大模型

LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块,拥有 5600 亿总参数(激活参数 270 亿),实现低延迟的实时音视频交互能力。

RockAlpha – AI投资实验平台,真实美股投资交易

RockAlpha 是 RockFlow 推出的公开实验,聚集全球顶尖的六个AI 模型( DeepSeek、ChatGPT 、Qwen、Grok、Gemini、Claude)进入真实的美股市场进行交易。

MemEcho – AI永久记忆赋能平台,智能记忆管理

MemEcho是为AI提供永久记忆赋能的平台,核心优势在于突破了传统AI的上下文窗口限制,让AI能真正为人类提供长期、持续的服务。在性能方面,MemEcho表现优异,平均响应时间为4-7秒,99%的请求在100毫秒内完成,确保了高效的数据处理和响应速度。

Game-TARS -字节跳动推出的通用型游戏智能体

Game-TARS是字节跳动Seed团队开发的通用型游戏智能体,基于统一的键盘-鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理与衰减持续损失,大幅提升了智能体的可扩展性和泛化性。

SWE-1.5 – Cognition 推出的高性能AI编程模型

SWE-1.5 是AI独角兽 Cognition 推出的专为软件工程设计的高性能 AI 编程模型。拥有数百亿参数,具备接近最先进水平的编码能力,同时在速度上取得重大突破,推理速度高达 950 token/秒,比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍,目前已在 Windsurf 代码编辑器中上线。

石榴数字人 – 向量方程推出的AI数字人视频创作平台

石榴数字人是北京向量方程科技有限公司开发的AI数字人视频创作平台。具备数字人形象、声音克隆、智能文案、智能对口型、PPT生视频和API等强大功能,可广泛应用于出版、教育和新媒体等行业。

TLDW – AI视频摘要工具,快速了解视频主要观点

TLDW是AI驱动的视频摘要工具。能将长视频内容转化为简洁的文本摘要,帮助用户快速了解视频的主要观点。用户可以输入YouTube视频的链接或上传本地视频文件,TLDW会自动分析视频中的音频和视觉内容,提取关键信息并生成摘要。

Popi.art – AI动画短片制作平台,提供全流程支持

Popi.art 是专注于 AI 动画短片制作的平台,为创作者提供全流程支持。提供角色体系(预设与自定义角色)、专业辅助工具(降低创作门槛)、背景与风格优化(提升视觉质感)。通过精细化编辑器支持,用户可以进行捏模(精准调整角色结构)、妆容/换装/挂件(丰富角色外观)以及角色资产的保存与上传。

WOWService – 美团推出的大模型交互系统技术报告

WOWService 是美团 LongCat 团队发布的智能交互系统,通过融合大型语言模型(LLMs)和多智能体架构,优化用户体验并降低成本。系统针对智能交互领域的五大挑战:冷启动数据构建、多轮对话性能、业务规则变化、单一 LLM 的局限性以及多轮对话的量化评估难题,提出了创新解决方案。