AI框架
LightX2V – 商汤开源的实时视频生成推理框架
LightX2V 是商汤开源的行业首个能实现实时视频生成的推理框架。框架支持多种视频生成任务,如文本到视频(T2V)和图像到视频(I2V),集成多种先进视频生成技术。
UnityVideo – 快手可灵联合港科大开源的视频生成框架
UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训练范式,提升视频生成模型对物理世界的理解能力。
OpenScreen – 开源的屏幕录制工具,Screen Studio的平替
OpenScreen 是开源免费的屏幕录制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统,具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加注释等实用功能,
SCAIL – 智谱AI开源的影视级角色动画生成框架
SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全上下文姿态注入机制,解决了复杂动作场景下角色动画的时空一致性问题,实现高保真度的角色动画生成。
RealVideo -智谱AI开源的实时流式视频生成系统
RealVideo 是智谱 AI 开源的实时流式视频生成系统,基于自回归扩散视频生成技术,RealVideo能将文本输入即时转化为连续、高质量的视频响应,实现与 AI 角色的实时视频对话。
Kaleido – 智谱AI开源的多主体视频生成框架
Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。
Gemini Deep Research – 谷歌推出的深度研究Agent
Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息环境中以高精度自主导航,减少幻觉、提升报告质量。
Qwen3-Omni-Flash – 阿里通义推出的全模态大模型
Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高质量的文本与自然语音输出。
PosterCopilot – 南大联合LibLib.ai等推出的海报设计模型
PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编辑能力,能实现从素材规划到最终成稿的全链路设计。
VoxCPM1.5 – 面壁智能开源的端到端语音合成模型
VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音,支持 44.1kHz 高采样率音频克隆,生成效果更细腻。
Devstral 2 – Mistral AI开源的新一代编程模型系列
Devstral 2 是 Mistral AI 推出的新一代开源编程模型系列,包含 123B 参数的 Devstral 2 和 24B 参数的 Devstral Small 2。Devstral 2 拥有 256K 上下文窗口,SWE-bench 验证准确率高达 72.2%,性能卓越且成本高效,支持跨文件探索、架构级推理和自动修正等功能,适合企业级开发。
GLM-ASR – 智谱开源的语音识别系列模型
GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语种、多口音,字符错误率仅为0.0717。
Alpamayo-R1 – 英伟达推出带推理的视觉-语言-动作模型
Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集,通过“人机协同+自动标注”生成高质量的推理轨迹
GELab-Zero – 阶跃星辰开源的 GUI Agent 模型
GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延迟和隐私保护。GELab-Zero 提供一键多终端部署,自动处理环境依赖和设备管理,支持分布式任务编排和多模态 Agent 模式,能灵活处理复杂任务。
HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型
HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构,单指令单推理即可输出最优结果,相比传统级联方案更便捷高效。
Fara-7B – 微软开源的小型计算机Agentic模型
Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型(SLM)。模型通过视觉感知网页,操作鼠标、键盘等界面元素来帮助用户完成任务,如填写表单、搜索信息或预订行程。
Teammates – 育碧推出的可交互生成式AI游戏项目
Teammates是育碧基于生成式AI技术推出的AI队友项目,能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友,如“帕布罗,掩护我”或“索菲亚,攻击敌人”,AI队友根据指令和战场环境做出相应行动,如射击、掩护、跟随等。
GPT-5.1-Codex-Max – OpenAI推出的智能编程模型
GPT-5.1-Codex-Max 是 OpenAI 推出的智能编程模型,专为复杂、长周期的开发任务设计。模型基于更新的推理架构,通过“压缩”技术跨越多个上下文窗口,能处理数百万 tokens 的大规模任务,如项目级重构和深度调试。
OpenNof1 – 开源的AI自主交易系统,实时交易监控
OpenNof1 是 AI 自主交易系统,支持为用户提供自动化交易决策和风险管理。OpenNof1支持多种 AI 提供商(如 OpenAI、DeepSeek 等),能通过实时市场数据处理和极简主义界面,帮助用户在币安合约等平台上进行交易。
KaLM-Embedding – 腾讯推出的文本嵌入模型系列
KaLM-Embedding 是腾讯团队推出的一系列高性能文本嵌入模型,通过先进的训练技术和高质量数据提升文本嵌入的性能。最新版本 KaLM-Embedding-V2 在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习
粤公网安备 123456789号