SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型,专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成,采用渐进式训练框架,从视觉预训练到多模态融合,最终通过 SFT-RL 混合范式提升性能。

Hitem3D – AI 3D模型生成工具,实现2D到3D无缝转换

Hitem3D 是 AI 驱动的 3D 模型生成工具。工具结合 ULTRA3D 的高效性和 Sparc3D 的高精度,能将用户上传的图片快速转化为高质量的 3D 模型,适用游戏开发、电商展示、工业设计、教育研究等多种场景。

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态模型

LLaVA-OneVision-1.5 是开源的多模态模型,通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率,增强对象和 OCR 能力。

闪设2D – 工业AI CAD设计平台, 自动3D转2D图纸

闪设2D是基于AI的新一代工业CAD软件,能自动将3D模型转换为2D图纸,广泛应用于汽车、3C、航空航天、能源、物流等行业的装备及零部件设计。软件基于工业生成式AI技术与自研的垂直生成模型,兼容主流CAD软件操作风格,无需安装即可使用。

Sora2提示词大全 – 50+热门场景提示词及视频合集

Sora 2作为备受瞩目的AI视频应用,合适的提示词能帮助我们更好地使用Sora 2,达到事半功倍的效果。如何充分利用Sora 2的潜力,让它在不同场景下都能发挥最好的效果,本文提供一份全面的Sora 2提示词大全,涵盖各种热门场景,帮助你更好地理解和使用这些提示词。

Everyday – AI任务自动化平台,自动识别完成任务

Everyday 是高效的 AI 任务自动化平台,能通过自然语言描述任务,帮助用户高效完成各种任务。平台能无缝连接常用工具,如邮件、日程、CRM 等,实现数据录入、日程安排、信息整理等常见办公任务的自动化。

7个免费Sora视频去水印工具,AI一键去除视频水印

按消除效果来看,SoundView 、WatermarkRemoverSora 和 NanoPhoto.AI 效果最好,对画面填充更自然,不会有明显的色块。SoundView 、鬼手剪辑、WinkStudio 支持长视频,其中 SoundView 和 WinkStudio 支持批量处理,对于处理需求大的友友来说,可以优先选择。

MineContext – 字节开源的主动式上下文感知 AI 工具

MineContext 是字节跳动开源的主动式上下文感知 AI 工具,通过挖掘数字生活中的“方块”,帮助用户高效管理知识和信息。每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息。

Instruct – 无代码的AI Agent自动创建与执行平台

Instruct 是无代码 AI 自动化平台,用户只需用自然语言描述任务,能快速创建、运行 AI Agent,无需编写代码或设计复杂流程。

AladdinEdu – 九章云极推出的GPU算力服务平台

AladdinEdu 是九章云极旗下面向高校科研场景的高性能 GPU 算力服务平台。平台提供多种套餐,支持 DC100(Hopper)显卡,具备大显存和高算力,适合大模型训练。

NeuTTS Air – Neuphonic开源的语音合成模型

NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS(文本到语音)模型。具备高拟真语音合成能力,声音自然流畅,几乎能以假乱真。支持本地运行,提供 GGML 格式,兼容 CPU,可部署在手机、笔电或树莓派等设备上,无需联网即可使用。

Paper2Video – 国立大学推出的学术论文生成演示视频项目

Paper2Video 是新加坡国立大学 Show Lab 开发的项目,从学术论文自动生成演示视频。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。框架包含幻灯片构建器、字幕构建器、光标构建器和演讲者构建器四个模块

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南

Qwen3-VL Cookbooks 是阿里推出的为 Qwen3-VL 模型设计的实用指南集合,帮助用户快速掌握和应用该模型的各种功能。集合涵盖多种能力的使用示例,包括物体识别、文档解析、视频理解、空间理解、多模态编码等。

KAT-Dev-72B-Exp – 快手开源的编程模型

KAT-Dev-72B-Exp 是快手推出的开源编程专用大语言模型,参数规模达720亿。模型是 KAT-Coder 的强化学习版本,专为软件工程任务设计。

Caesr – AI自动化Agent,模拟人类操作设备

Caesr是智能自动化工具,能在电脑、手机和网页环境中像人类一样操作设备。工具通过视觉识别、点击按钮、填写表单等方式完成任务,无需依赖API或复杂脚本。Caesr主要功能包括端到端软件测试、数据输入与处理、重复性行政任务自动化等,支持多种操作系统和设备。

Gemini Enterprise – 谷歌推出的企业级AI Agent平台

Gemini Enterprise 是 Google Cloud 推出的企业级 AI 平台,通过直观的聊天界面将 Google 顶尖的 AI 技术融入企业工作流程。平台能连接企业所有数据、工具和团队,简化复杂工作流程,支持从市场研究到自动生成内容的多场景应用。

Jamba Reasoning 3B – AI21开源的轻量级推理模型

Jamba Reasoning 3B 是 AI21 Labs 推出的轻量级高效推理模型,拥有 30 亿参数和 256K 的超长上下文处理能力。模型用混合 Transformer-Mamba 架构,结合注意力机制和状态空间模型的优势,具备高效推理、低延迟的特点。

Androidify – 谷歌开源的如何构建AI Android应用项目

Androidify 是谷歌推出的一个开源项目,帮助开发者学习如何在 Android 上构建 AI 驱动的应用。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Firebase AI Logic SDK)、CameraX 和 Navigation 3。

Oreate AI – 全能AI工作空间,生成报告、论文、方案、演示

Oreate AI 是面向学生、学者和研究人员的 AI 工具,专注于快速生成幻灯片、报告和论文等文档。支持多种文档类型,如商业提案、学术研究和营销计划等,能一键生成专业的演示文稿和研究报告,能自动添加引用来源,支持 APA、MLA 和芝加哥等多种引用格式。

Snapdeck – 免费AI PPT生成工具,能在画布中精细调整

Snapdeck是AI驱动的PPT生成工具,能在几秒钟内根据用户输入的主题或要点自动生成包含专业设计的幻灯片。支持版本控制、多人协作和自然语言编辑,能在Figma画布中精细调整。相比传统工具,Snapdeck能将制作PPT的时间从3-4小时压缩到几分钟