AI项目
Kimi-k2 Thinking – 月之暗面推出的思考模型
Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用,支持长达 256k 的上下文处理,适合复杂任务的逐步推理和规划。
Open-o3 Video – 北大联合字节开源的视频推理模型
Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略,实现了在 V-STAR 基准测试中的最佳性能。
讯飞星火X1.5 – 科大讯飞推出的深度推理大模型
讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题,端到端性能达到国际竞品效率的 93% 以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力等多领域对标国际主流大模型,数学能力保持国际领先水平。
UniWorld V2 – 兔展智能联合北大推出的图像编辑模型
UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架,首次将强化学习策略优化应用于图像编辑,通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型,提供稳定且细粒度的反馈,同时引入低方差组过滤机制,提升训练稳定性。
TapNow – AI视觉内容创作平台,提供多种预设工作流
TapNow 是 AI 视觉内容创作平台,通过集成多种先进的图像和视频生成模型,提供丰富的预设工作流,用户只需上传素材、选择对应工作流,能快速生成高质量的创作内容,如广告图、动态场景、拟真手办等。
Handy – 开源的语音转文字桌面应用,完全离线
Handy 是开源的语音转文字桌面应用,完全离线运行,支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建,界面简洁,操作便捷。用户通过快捷键激活录音,语音经本地处理后直接转为文本,无需联网,保护隐私。
NavFoM – 银河通用推出的环视导航基座大模型
NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。
FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型
FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型,专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破,尤其在中英文双语任务上表现出色。模型采用层次化对齐架构,通过全局语义对齐和细粒度视觉语言学习,逐步提升模型对图像细节的理解能力。
Ouro – 字节Seed推出的循环语言模型
Ouro是字节跳动Seed团队联合多家机构发布的循环语言模型(Looped Language Models,LoopLM)。名称源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。Ouro模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,非仅依赖后期微调。
MoArk AI – 模力方舟推出的国际化AI云平台
MoArk AI 是模力方舟的国际站,面向全球 AI 开发者和企业的 AI 云平台,提供标准化、模块化、可控可扩展的服务。MoArk.ai 的核心功能包括 Serverless 推理服务,用户无需配置 GPU,可开箱即用,毫秒级响应,支持企业级 VPC 隔离部署,符合 SOC 2 与 HIPAA 合规要求。
Open AgentKit – 零一万物开源的AI Agent开发平台
Open AgentKit(OAK)是零一万物开源的AI Agent开发平台,能为开发者提供开放、通用的Agent开发解决方案。平台受OpenAI AgentKit启发,支持多种模型和生态系统工具,集成行业最佳实践,遵循主流Agent协议与标准。
Huebit AI – AI艺术创作平台,支持多种风格和主题
Huebit AI 是创新的人工智能艺术平台,将人工智能与艺术创作相结合。用户可以通过简单的文字描述或上传图片,让 AI 快速生成个性化的艺术作品。平台支持多种艺术风格和主题,从抽象画到写实风格,都能轻松实现。
焦圈儿 – 首个AI原生社交平台,动态个性化推荐
焦圈儿是全球首个AI原生社交平台,通过集成DeepSeek、豆包、Kimi、元宝、通义千问等多个主流AI大模型,为用户提供智能问答、创作协作和知识分享等功能。用户可以基于他人的创作进行延伸和优化,能对感兴趣的内容进行深度探索,形成独特的协作创作体验。
AI Research Foundations – 谷歌与UCL联合推出的AI研究基础课程
AI Research Foundations是Google DeepMind与伦敦大学学院(UCL)联合推出的免费在线课程。课程能帮助学习者深入理解Transformer模型,通过实践掌握现代语言模型的构建与微调技巧。
LongCat-Flash-Omni – 美团开源的实时交互全模态大模型
LongCat-Flash-Omni 是美团 LongCat 团队开源的全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块,拥有 5600 亿总参数(激活参数 270 亿),实现低延迟的实时音视频交互能力。
RockAlpha – AI投资实验平台,真实美股投资交易
RockAlpha 是 RockFlow 推出的公开实验,聚集全球顶尖的六个AI 模型( DeepSeek、ChatGPT 、Qwen、Grok、Gemini、Claude)进入真实的美股市场进行交易。
MemEcho – AI永久记忆赋能平台,智能记忆管理
MemEcho是为AI提供永久记忆赋能的平台,核心优势在于突破了传统AI的上下文窗口限制,让AI能真正为人类提供长期、持续的服务。在性能方面,MemEcho表现优异,平均响应时间为4-7秒,99%的请求在100毫秒内完成,确保了高效的数据处理和响应速度。
Game-TARS -字节跳动推出的通用型游戏智能体
Game-TARS是字节跳动Seed团队开发的通用型游戏智能体,基于统一的键盘-鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理与衰减持续损失,大幅提升了智能体的可扩展性和泛化性。
SWE-1.5 – Cognition 推出的高性能AI编程模型
SWE-1.5 是AI独角兽 Cognition 推出的专为软件工程设计的高性能 AI 编程模型。拥有数百亿参数,具备接近最先进水平的编码能力,同时在速度上取得重大突破,推理速度高达 950 token/秒,比 Haiku 4.5 快 6 倍,比 Sonnet 4.5 快 13 倍,目前已在 Windsurf 代码编辑器中上线。
石榴数字人 – 向量方程推出的AI数字人视频创作平台
石榴数字人是北京向量方程科技有限公司开发的AI数字人视频创作平台。具备数字人形象、声音克隆、智能文案、智能对口型、PPT生视频和API等强大功能,可广泛应用于出版、教育和新媒体等行业。
粤公网安备 123456789号