AI项目

Grok Imagine 1.0 – 马斯克xAI推出的AI视频生成工具

Grok Imagine 1.0 是 xAI 最新推出的 AI 视频生成工具,支持生成 10 秒长、720p 分辨率 的视频,配备显著优化的音频效果。

Thinker – 优必选开源的具身智能视觉语言模型

Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。

GLM-OCR – 智谱开源的轻量级多模态OCR模型

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。

Happy – 开源AI编程远程控制工具,实时查看状态

Happy是什么Happy 是开源工具,能让用户通过手机或网页客户端远程控制电脑上运行的 Claude Code 或 Codex。支持实时查看代码进度、语音交互、消息推送,采用端到端加密保障数据安全。用户只需在电脑安装 CLI 启动服务,通过手机端扫描二维码即可完成配对,实现跨设备无缝切换。

元宝派 – 腾讯元宝推出的AI社交功能

元宝派是腾讯元宝APP推出的AI社交功能,让AI元宝成为群聊中的正式成员,构建"人机共生"的社交空间。用户可随时@元宝进行对话,元宝派性格有趣、能贫嘴斗图,还具备超强记忆力,能精准回溯群聊细节。

QoderWork – 阿里巴巴Qoder团队推出的桌面端AI智能体

QoderWork是阿里巴巴Qoder团队推出的桌面端AI智能体,主打“人人都能用的本地AI助理”。把大模型、Agent框架、MCP工具集和可自定义Skills封装进一款macOS应用,用户用自然语言一句话即可驱动它在本地沙盒完成复杂任务,文件无需上传云端。

Vidu Q3 – 生数科技推出的音画同步AI视频模型

Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型,专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片,画面、对白、环境音效与 BGM 全部对齐,无需后期。

Moltbook – 专为AI智能体设计的社交网络平台

Moltbook 是专为 AI 代理打造的类 Reddit 社交平台,由 Matt Schlicht 推出,号称“代理互联网的头条”。仅允许接入 OpenClaw 框架的自主智能体注册、发帖、评论、点赞并创建“submolt”板块,人类只能围观。

UnifoLM-VLA-0 – 宇树开源的通用机器人操作大模型

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。

TTT-Discover – 斯坦福、英伟达推出的测试时强化学习方法

TTT-Discover(Test-Time Training to Discover)是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练,非冻结权重仅做搜索。通过熵目标函数优化最大奖励,结合PUCT启发的状态重用机制,让模型从具体问题的尝试中实时学习。

Project Genie – 谷歌推出的实验性AI世界模型原型

Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型,基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动。用户通过文字提示或上传图片可创建虚拟世界,由 Genie 3 实时渲染可交互环境。

MOVA – 创智学院联合模思智能开源的端到端音视频模型

MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频"静音"局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。

LingBot-World – 蚂蚁灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁灵波科技开源的交互式世界模型。模型通过可扩展数据引擎从大规模游戏环境学习物理规律与因果关系,实现动作驱动的精准生成。

Qwen3-ASR – 阿里通义开源的系列语音识别模型

Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。

SenseNova-MARS – 商汤科技开源的多模态自主推理模型

SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预可完成复杂的多跳推理。

SkyReels-V3 – 昆仑万维开源的多模态视频生成模型

SkyReels-V3是昆仑万维开源的多模态视频生成模型,用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像,支持智能延长视频时长和电影级转场,让数字人音视频精准同步。

LongCat-Flash-Lite – 美团LongCat开源的大语言模型

LongCat-Flash-Lite是美团推出的新一代高效大语言模型。模型采用创新的混合专家(MoE)+ N元语法嵌入架构,总参数量达685亿,每次推理仅激活约29~45亿参数,兼顾强大的能力与极高的效率。

Zopia – AI短剧创作Agent,自然语言完成全链条制作

Zopia 是全流程AI短剧创作Agent,定位为"对话式AI影像工作室"。用户通过自然语言描述创意,系统可自动完成从剧本拆解、角色设计、分镜生成到视频成片的全链条制作,支持动漫、真人、3D等多种风格。

DeepSpeed-MII – 微软DeepSpeed开源的模型推理库

DeepSpeed-MII 是 DeepSpeed 团队开源的 Python 库,提供高效模型推理。DeepSpeed-MII用阻塞 KV 缓存、连续批处理和动态 SplitFuse 等创新手段,显著提高推理吞吐量并降低延迟,在处理大型语言模型时表现出色。

Earth-2 – 英伟达开源的AI气象预测模型家族

NVIDIA Earth-2 是英伟达推出的全球首套完全开源的 AI 气象预测模型家族,基于 Atlas、StormScope、HealDA 三大核心架构,分别实现 15 天全球中期预报、0-6 小时公里级临近预报和秒级初始条件生成。