AI框架
QwenLong-L1.5 – 阿里通义开源的长文本推理模型
QwenLong-L1.5 是阿里通义实验室推出的专注于长文本推理的大语言模型。模型基于 Qwen3-30B-A3B 架构,通过系统化的后训练方案,显著提升长文本推理能力。
ML-Master 2.0 – SciMaster推出的自主机器学习智能体
ML-Master 2.0 是上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体。ML-Master 2.0基于国产开源大模型 DeepSeek,具备超长程自主能力,能在长时间科研任务中不断试错、积累经验和自我演化。
Infographic – 阿里AntV团队开源的信息图生成框架
Infographic 是阿里前端 AntV 团队开源的新一代信息图框架。框架基于 G2 可视化引擎和 Ant Design,能快速生成高质量、稳定的信息图。
QuantiPhy – 李飞飞团队推出的VLM物理推理量化评估基准
QuantiPhy 是斯坦福大学李飞飞团队推出的首个量化评估视觉 - 语言模型(VLM)物理推理能力的基准。QuantiPhy 通过 3300 多个视频 - 文本实例,要求模型基于视频和物理先验(如物体尺寸、速度等),定量推理物体的运动学属性(如大小、速度、加速度)。
TurboDiffusion – 清华大学等推出的视频生成加速框架
TurboDiffusion 是清华大学、生数科技和加州大学伯克利分校联合推出的视频生成加速框架。框架通过 SageAttention、SLA(稀疏线性注意力)和 rCM(时间步蒸馏)等技术,将视频生成速度提升 100~200 倍,能在单张 RTX 5090 显卡上将原本 184 秒的生成任务缩短到 1.9 秒。
Seed Prover 1.5 – 字节跳动推出的新一代数学推理模型
Seed Prover 1.5 是字节跳动 Seed 团队推出的新一代形式化数学推理模型。模型采用创新的 Agentic Prover 架构,通过大规模强化学习(Agentic RL)训练,显著提升数学推理能力和效率。
MedASR – 谷歌开源的医疗语音识别模型
MedASR 是 Google 推出的专注于医学领域的语音识别模型,基于 Conformer 架构,拥有 105M 参数。模型通过大量医学语音数据(约 5000 小时)进行预训练,涵盖医生口述和临床对话等多种场景,能精准识别复杂医学术语和专业上下文。
MiniMax M2.1 – MiniMax推出的多语言编程AI模型
MiniMax M2.1 是 MiniMax推出的多语言编程AI 模型。模型系统性提升了 Rust、Java、Golang 等多语言能力,覆盖从底层到应用层开发。
Qwen-Image-Layered – 阿里推出的AI图像编辑模型
Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编码动态拆分图层,支持3-10层的灵活分解
EcomBench – 阿里通义等推出的电商AI能力评测基准
EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类电商任务,全面衡量智能体在电商环境下的综合能力
GPT-5.2-Codex – OpenAI推出的智能体编码模型
GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代码重构、迁移等大型变更任务中表现出色。
TRELLIS.2 – 微软开源的40亿参数3D生成模型
TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表面、非流形几何),支持完整PBR材质建模。
Seed1.8 – 字节跳动推出的通用Agent模型
Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成任务。
SHARP – 苹果开源的3D场景生成AI模型
SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3D 结构和细节。
Step-GUI – 阶跃星辰推出的AI Agent系列模型
Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地设备运行,保护用户隐私。
SAM Audio – Meta开源的音频分割模型
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。
Seedance 1.5 Pro – 字节推出的音画同步多模态视频模型
Seedance 1.5 Pro 是字节跳动 Seed 团队推出的原生音画同步的多模态视频生成模型。模型能根据文本提示生成高质量的视频内容,支持多样人声及音效,覆盖多种语言和方言。
万相2.6 – 阿里通义推出的新一代视频生成系列模型
万相2.6 是阿里通义推出的面向专业影视制作和图像创作的先进视频生成系列模型。模型支持角色扮演功能,可让用户通过上传视频和输入提示词,快速生成具有电影级运镜和叙事的短片。
Banana Slides – 开源AI PPT生成工具,能自然语言修改
Banana Slides 是开源的 AI 演示文稿生成工具,基于 nano banana pro 模型开发。以极简设计和强大的 AI 功能为亮点,帮助用户快速创建高质量的 PPT。用户可以通过输入主题、上传文档或提供大纲等方式启动项目,Banana Slides 会智能生成结构清晰的 PPT 大纲和内容。
通义百聆 – 阿里通义推出的企业级语音基座大模型
通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Context 增强架构大幅降低幻觉率,解决串语种问题,支持热词动态注入和精准识别行业术语。
粤公网安备 123456789号