MegaLLM – AI模型API聚合平台,一个API访问多个主流模型

MegaLLM 是为开发者提供统一API接口的人工智能平台,可快速接入70多个主流大语言模型(LLMs),如GPT-5、Claude、Gemini、Llama等。通过一个API密钥,让开发者能轻松调用多个模型,无需分别注册账号,大大简化开发流程,加速AI功能部署。

Kairos 3.0 – 大晓机器人开源的商业应用世界模型

Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。

EcomBench – 阿里通义等推出的电商AI能力评测基准

EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类电商任务,全面衡量智能体在电商环境下的综合能力

GPT-5.2-Codex – OpenAI推出的智能体编码模型

GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代码重构、迁移等大型变更任务中表现出色。

laper – AI剧本创作工具,能实时预测台词与动作

Laper 是 AI 剧本创作工具,能为编剧提供精细化的创作平台。平台支持多种剧本类型,如电影长片、短片和短视频故事,具备好莱坞标准格式的智能补全功能,可实时预测台词与动作描写。

VTP – MiniMax视频团队开源的视觉生成模型预训练框架

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学习等方法,从头预训练tokenizer,使生成的latent(压缩特征)更具结构化和易学性。

TRELLIS.2 – 微软开源的40亿参数3D生成模型

TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表面、非流形几何),支持完整PBR材质建模。

怎么用 Lovart 做品牌全案设计,附5个场景教程和案例

那今天就通过我最近常用的AI 设计神器——Lovart,给大家多拆解一些设计上的实用玩法,依旧是无需魔法,开箱即用。比如,一句话就能做出样式精美、风格统一的全套设计,PPT、写真、品牌VI、网站UI等都能一次性搞定。

Seed1.8 – 字节跳动推出的通用Agent模型

Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成任务。

SHARP – 苹果开源的3D场景生成AI模型

SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3D 结构和细节。

Gemini 3 Flash – 谷歌推出的最新AI模型,主打高速低成本

Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。

Step-GUI – 阶跃星辰推出的AI Agent系列模型

Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地设备运行,保护用户隐私。

SAM Audio – Meta开源的音频分割模型

SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。

A2UI – 谷歌开源Agent生成用户界面的声明式协议

A2UI(Agent-to-User Interface)是谷歌开源的基于Agent的接口协议,用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述,让客户端原生渲染交互界面,无需AI编写前端代码。

混元世界模型1.5 – 腾讯混元开源的实时交互式世界生成模型

腾讯混元世界模型1.5(HY WorldPlay 1.5)是腾讯混元团队开源的实时交互式世界生成模型。用户只需输入文字或图片,模型能快速创建专属的虚拟世界,通过键盘、鼠标或手柄自由探索。

怎么用AI做制作狗狗视频播客,附教程案例

教程主要介绍怎么用JoyPix和AI,把咱家狗狗的萌态照生成超有料的视频播客,让全网都羡慕咱家的“狗界巨星”!

Xiaomi MiMo Studio – 小米推出的在线AI聊天服务平台

Xiaomi MiMo Studio 是小米推出的在线 AI 聊天服务平台,用户可以在其中体验 Xiaomi MiMo-V2-Flash 模型。平台支持深度搜索和联网搜索,降低了用户体验 AI 对话服务的门槛。

MiMo-V2-Flash – 小米开源的高性能语言模型

MiMo-V2-Flash 是小米开源的高性能语言模型,具有3090亿总参数和150亿激活参数。专为智能体AI设计,采用混合注意力架构,结合滑动窗口注意力(SWA)和全局注意力(GA),窗口大小为128个token,通过可学习的注意力下沉偏置(sink bias)技术,在保持长文本性能的同时显著降低KV缓存存储量。

Molmo 2 – Ai2开源的AI视频分析模型

Molmo 2 是艾伦人工智能研究所(Ai2)推出的开源视频分析模型,专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视频中精准定位事件、追踪多目标,生成详细字幕。

LongCat-Video-Avatar – 美团开源的数字人视频生成模型

LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频,保持人物身份一致性和自然动态。LongCat-Video-Avatar支持多种生成模式,包括音频文本生成视频(AT2V)、音频文本图像生成视频(ATI2V)和视频续写。