AI项目
Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型
Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本,单模型支持30种语言高精度识别,覆盖中文七大方言体系及二十余种地方口音,专项优化古诗词诵读识别。模型基于MoE架构实现自动语种切换,无需预设标签。
HyperFrames – HeyGen开源的AI原生视频渲染框架
HyperFrames是HeyGen开源的AI原生视频渲染框架,采用"Write HTML, Render video"理念,专为AI Agent和开发者设计。框架将视频定义为HTML文件,通过data-*属性管理时间轴、轨道和元信息,支持GSAP、Lottie、CSS及Three.js动画,经浏览器确定性渲染输出MP4。
Claude Design – Anthropic Labs 推出的 AI 协作式设计工具
Claude Design 是 Anthropic Labs 推出的 AI 协作式设计工具,搭载 Anthropic 最先进的视觉模型 Claude Opus 4.7。定位为"对话式设计工作室",用户通过自然语言描述需求,可快速生成高保真设计、交互式原型、演示文稿、营销单页等视觉资产。
Audio Flamingo Next – 英伟达等开源的音频语言模型
Audio Flamingo Next 是NVIDIA与马里兰大学联合开源的新一代音频语言模型(LALM),作为Audio Flamingo系列的最新版本,支持长达30分钟的复杂音频输入,覆盖语音、环境音与音乐的统一理解。
Voicebox – 开源本地语音合成工具,ElevenLabs 开源平替
Voicebox 是开源的本地语音合成工具,基于 Tauri (Rust) 与 React 构建的跨平台桌面应用。工具提供声音克隆、文本转语音、音频后期处理及多轨叙事编辑功能,所有模型与语音数据均本地运行不上云,主打隐私优先。
LingBot-Map – 蚂蚁灵波开源的流式 3D 重建模型
LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。
Claude Opus 4.7 – Anthropic 推出的最新旗舰大模型
Claude Opus 4.7 是 Anthropic 推出的最新旗舰大模型,为 Claude Opus 4.6 的直接升级版。模型在高级软件工程任务上表现突出,SWE-bench Pro 得分提升至 64.3%,视觉分辨率支持提升至 2,576 像素(约 3.75 兆像素),具备自我验证与长程自主执行能力。
Qwen3.6-35B-A3B – 阿里通义开源的混合专家 MoE 模型
Qwen3.6-35B-A3B是阿里通义千问团队推出的开源混合专家(MoE)模型,总参数量350亿,激活参数30亿。模型主打极致推理效率与智能体编程能力,在多项编程基准测试中超越参数规模更大的稠密模型Qwen3.5-27B,显著优于谷歌最新发布的Gemma 4系列模型。
GPT-image-2 – OpenAI推出的下一代原生图像生成模型
GPT-image-2 是OpenAI推出的下一代原生图像生成模型,据传内部代号为「Spud」,目前已在ChatGPT进行灰度测试。模型于2026年4月初以"maskingtape-alpha"等代号短暂现身Chatbot Arena后引发热议。
有道宝库 – 网易有道推出的 AI 知识库工具
有道宝库是网易有道推出的首个AI知识库工具,定位为用户的外接超级知识库和AI研究助手。不同于传统聊天机器人或笔记工具,支持用户上传各类文档建立个人知识库,基于这些资料进行对话问答,能一键生成PPT、思维导图、播客脚本等多种格式的优质内容
Marble 1.1 – 李飞飞 World Labs 推出的新一代生成式世界模型
Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光照效果与对比度,大幅减少过曝、泛白等视觉瑕疵,色彩表现更饱满真实。
ERNIE-Image – 百度文心开源的文生图模型
ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。
OmniShow – 字节联合港中文、港大等开源的视频生成模型
OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。
GenieAI – 腾讯云 CodeBuddy 推出的 AI 应用生成平台
GenieAI 是腾讯云 CodeBuddy 推出的 AI 编程平台,只需用自然语言描述需求,可自动生成网页应用、微信小程序、游戏、PPT 等完整产品。
Acrobat Student Spaces – Adobe 推出的 AI 学习平台
Acrobat Student Spaces 是 Adobe 推出的 AI 学习平台,专为帮助学生高效备考设计。平台能将课件、笔记等资料一键转化为闪卡、测验题、思维导图,生成播客和视频摘要。
Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型
Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地部署,实现数据零上云与物理隔离级隐私保护。
HeyGen CLI – HeyGen 推出的命令行工具
HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器,基于Model Context Protocol协议构建。工具支持开发者及AI助手(如Claude、Cursor)通过自然语言直接调用HeyGen API,实现数字人视频生成、头像与语音管理、账户查询等功能。
QinyanClaw – 沁言学术推出的云端学术科研智能体
QinyanClaw是沁言学术推出的全球首个为学术科研场景深度优化的云端智能体。基于OpenClaw架构,智能体具备长期记忆和自主执行能力,可7×24小时在云端独立运行,无需保持电脑在线
PokeClaw – 开源的全本地离线运行手机 AI Agent 应用
PokeClaw(全称 PocketClaw)是开源 Android AI 自动化应用,由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理,基于 Google Gemma 4 模型通过 LiteRT-LM 运行时直接在设备端推理,无需联网、账户或 API 密钥即可自主控制手机。
LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型
LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。
粤公网安备 123456789号