AI项目

陪读蛙 – 开源的 AI 翻译浏览器扩展工具

陪读蛙(ReadFrog)是开源的 AI 沉浸式翻译浏览器扩展工具。工具能翻译和解读浏览器上的任何内容,支持Chrome、Edge、Firefox。通过上下文感知翻译、划词解析、TTS朗读等功能,帮助用户在真实网页中边读边学。

Stable Audio 3 – Stability AI 开源的音频生成模型系列

Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型,Small版本可在MacBook Pro本地运行并生成最长2分钟音频,Medium与Large支持超过6分钟的高质量生成。

autoresearch – Karpathy 开源的 AI 自主科研实验框架

autoresearch 是 Andrej Karpathy 开源的 AI 自主科研实验框架。框架让 AI Agent 在单张 GPU 上自动运行 nanochat 训练实验:自主调参、执行训练、分析验证指标、决策下一步优化方向,将传统调参-跑实验-看日志-再调参的人工循环完全自动化。

LongCat-Video-Avatar 1.5 – 美团开源的数字人视频生成模型

LongCat-Video-Avatar 1.5 是美团 LongCat 开源的音频驱动数字人视频生成框架。模型基于 13.6B 参数的基础视频生成模型 LongCat-Video 构建,将音频编码器从 Wav2Vec2 升级为 Whisper-Large-v3,实现更精准的口型同步。

GLM-5.1-highspeed – 智谱AI推出的 GLM-5.1 高速版 API

GLM-5.1-HighSpeed是智谱AI推出的旗舰级高速大模型API,在完整保留GLM-5.1综合能力的基础上,通过TileRT高性能推理引擎实现400 tokens/s的输出速度,刷新全球大模型API速度上限。

Hy-MT2 – 腾讯混元开源的新一代翻译大模型

Hy-MT2是腾讯混元开源的新一代翻译大模型,提供 1.8B、7B、30B-A3B 三个尺寸,支持 33 种语言互译及 5 种民汉/方言翻译。

Hy 翻译 – 腾讯混元团队推出的 AI 翻译小程序

Hy 翻译是腾讯混元团队基于自研 Hy-MT2 大模型推出的 AI 翻译小程序,支持 33 种语言互译与 5 种民汉方言。工具提供 9 种预设翻译风格与个性化指令设定,覆盖学术、商务、旅游等多场景

CloudDM – ClouGence 团队开源的数据库研发与管控平台

CloudDM 是 ClouGence 团队开源的数据库研发与管控平台。CloudDM将数据查询、SQL 审核、权限管控等数据库核心能力集成于统一平台,支持 30 种数据源,覆盖 MySQL、PostgreSQL、ClickHouse、Redis、StarRocks 及阿里云、AWS、Azure 等云数据库。

微伴 Claw – 微伴助手推出的企业微信 AI 数字员工

微伴Claw是微伴助手基于 OpenClaw 推出的企业微信AI数字员工,常驻企微环境,通过自然语言连接客户、标签、群发、朋友圈、积分评分、表单等私域数据,实现客户分析、策略匹配、内容生成与执行推进。

2026 十大专业数据采集服务选择指南

在数据驱动决策的时代,数据采集作为数据价值链的起点,其效率、质量与合规性直接决定了后续数据分析与应用的效果。当前大部分数据采集服务商,支持用户自主配置规则抓取公开数据,提供成品数据集、定制化采集及标注等全链条服务。本次测评聚焦10款主流产品——Dataify、八爪鱼采集器、后羿采集器、火车头采集器、神箭手云爬虫、数据堂、云测数据、龙猫数据、景联文科技、标贝科技

Agora-1 – Odyssey 推出的首款多智能体世界模型

Agora-1 是 Odyssey 推出的首款多智能体世界模型,支持人类与 AI 在同一实时生成的世界模拟中互动。模型以经典 FPS 游戏 GoldenEye 007 为研究场景,最多支持 4 名参与者共享死亡竞赛体验。

HyperEyes – 小红书联合剑桥推出的并行多模态搜索智能体

HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体,首创 UGS 范式,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索。

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。

HiDream-O1-Image-Pro – 智象未来推出的旗舰级图像模型

HiDream-O1-Image-Pro是智象未来推出的基于原生全模态架构UiT的图像大模型,超200B参数,在文生图、文字渲染、指令编辑等任务刷新SOTA。模型将图像像素、文本标记与任务条件统一纳入连续共享标记空间,实现底层深度融合。

Lance – 字节跳动开源的轻量级原生统一多模态模型

Lance 是字节跳动智能创作团队开源的轻量级原生统一多模态模型,仅 3B 激活参数,在单一框架内同时支持图像与视频的理解、生成与编辑全链路任务。模型采用分阶段多任务方案从零训练,整个训练周期仅消耗 128 张 A100 GPU。

Qwen3.7-Max – 阿里通义推出的新一代旗舰大模型

Qwen3.7-Max 是阿里通义千问团队推出的面向智能体时代的新一代旗舰大模型,定位为全能智能体基座。模型具备前沿编程、办公自动化、长周期自主执行与跨框架泛化四大核心能力,在 SWE-Pro、MCP-Atlas、GPQA Diamond 等数十项编程、智能体与推理基准上取得领先成绩。

Qwen3.5-LiveTranslate – 阿里通义推出的实时同声传译模型

Qwen3.5-LiveTranslate 是阿里通义团队推出的实时同声传译大模型,支持60语种输入、29语种输出与3500+翻译组合,通过可读单元流式技术将端到端字均延迟压缩至2.8秒,模型具备实时音色克隆与热词增强能力。

Google Pics – 谷歌推出的 AI 图像创建与编辑工具

Google Pics 是谷歌基于最新 Nano Banana 模型推出的 AI 图像创建与编辑工具,深度集成于 Google Workspace 生态。工具将图像中的每个元素视为独立对象,支持对特定细节进行精确创建、替换和精修。

Gemini Spark – 谷歌推出的个人 AI Agent

Gemini Spark 是 Google 推出的 24/7 个人 AI Agent,基于 Gemini 3.5 模型与 Antigravity 框架运行,深度集成 Gmail、Docs、Slides 等 Workspace 工具。

Gemini Omni Flash – 谷歌推出的多模态视频生成模型

Gemini Omni Flash 是 Google  I/O 大会推出的视频生成模型,定位从任意输入生成任意输出的统一多模态生成模型。