Voicebox – 开源本地语音合成工具,ElevenLabs 开源平替
Voicebox 是开源的本地语音合成工具,基于 Tauri (Rust) 与 React 构建的跨平台桌面应用。工具提供声音克隆、文本转语音、音频后期处理及多轨叙事编辑功能,所有模型与语音数据均本地运行不上云,主打隐私优先。
Hermes Agent 部署全攻略 – 安装、配置、飞书接入一文搞定
Hermes Agent是知名开源 AI 实验室 Nous Research 推出的 AI 智能体项目。今天橘子姐就带大家,用一篇了解 Hermes Agent、本地安装部署、接飞书全流程。
LingBot-Map – 蚂蚁灵波开源的流式 3D 重建模型
LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。
阿里Meoo 秒悟实测 – 10 分钟零代码开发可上线应用
现在搞开发,真的一行代码都不用写了!一句话就能生成一个完整的网站,还能一键部署!H5 页面也一样!
GPT-Rosalind – OpenAI 推出的生命科学专用推理模型
GPT-Rosalind是OpenAI推出的生命科学专用推理模型,用DNA双螺旋结构发现者罗莎琳德·富兰克林命名。模型针对50种生物学工作流深度调优,具备假设生成、实验设计和证据合成能力,可整合50余个科学数据库,在RNA功能预测等任务中超越95%人类专家。
飞书OpenClaw完整部署教程 – 3分钟组建 AI Agent 团队
我在飞书里,给自己搭建了一个 Agent 内容团队。 里面除了我一个真人,其他全是 Agent。他们各有所长,各司其职,关键是还有一个主管。 我不用一个一个去给 Agent 分发任务,只要我在群里丢一句指令,运营主管就会立刻拆解任务,协调不同的 Agent 同时开工,自动协作。
Claude Opus 4.7 – Anthropic 推出的最新旗舰大模型
Claude Opus 4.7 是 Anthropic 推出的最新旗舰大模型,为 Claude Opus 4.6 的直接升级版。模型在高级软件工程任务上表现突出,SWE-bench Pro 得分提升至 64.3%,视觉分辨率支持提升至 2,576 像素(约 3.75 兆像素),具备自我验证与长程自主执行能力。
Qwen3.6-35B-A3B – 阿里通义开源的混合专家 MoE 模型
Qwen3.6-35B-A3B是阿里通义千问团队推出的开源混合专家(MoE)模型,总参数量350亿,激活参数30亿。模型主打极致推理效率与智能体编程能力,在多项编程基准测试中超越参数规模更大的稠密模型Qwen3.5-27B,显著优于谷歌最新发布的Gemma 4系列模型。
GPT-image-2 – OpenAI推出的下一代原生图像生成模型
GPT-image-2 是OpenAI推出的下一代原生图像生成模型,据传内部代号为「Spud」,目前已在ChatGPT进行灰度测试。模型于2026年4月初以"maskingtape-alpha"等代号短暂现身Chatbot Arena后引发热议。
HappyOyster – 阿里推出的开放式世界模型产品
HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品,定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术,支持无限延展的实时内容生成,官网开放了两种玩法Directing与Wandering,让用户与AI生成的动态世界进行交互。
StepAudio 2.5 TTS – 阶跃星辰推出的语境感知语音生成模型
StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。
有道宝库 – 网易有道推出的 AI 知识库工具
有道宝库是网易有道推出的首个AI知识库工具,定位为用户的外接超级知识库和AI研究助手。不同于传统聊天机器人或笔记工具,支持用户上传各类文档建立个人知识库,基于这些资料进行对话问答,能一键生成PPT、思维导图、播客脚本等多种格式的优质内容
Relax – 小红书开源的大模型强化学习训练引擎
Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQueue 异步数据总线,实现 Rollout、Actor、Critic 角色完全解耦。
Gemini 3.1 Flash TTS – 谷歌推出的文本转语音模型
Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型,提供更强的可控性、表现力和音质。模型支持70多种语言,引入音频标签技术,可通过自然语言指令精确控制声音风格、语速和表达方式。
混元3D世界模型 2.0 – 腾讯混元开源的多模态世界模型
混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四阶段架构,全景生成→轨迹规划→世界扩展→3D重建,实现"文/图生3D世界"与"视频重建3D世界"的统一。
ChatGPT代充值 – 3分钟支付宝、微信开通会员,亲测有效!
GPT-5 的强大能力近在咫尺,更快的响应速度、更精准的逻辑推理、图像生成、长文本处理、自定义 GPT 应用……却被支付购买门槛拦住,没有海外信用卡,国内支付方式无法直接订阅。经过我不懈的努力,终于找到了可以用支付宝/微信支付的订阅平台。
MAI-Image-2-Efficient – 微软推出的轻量版文生图模型
MAI-Image-2-Efficient是微软推出的自研文生图模型,为MAI-Image-2的轻量高效版本,主打高性价比商业量产,在保持照片级真实图像质量的同时,实现成本降低41%、生成速度提升22%、GPU效率提升4倍。
SearchClaw – 中国人民大学推出的 AI 深度研究智能体
SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索、页面抓取、论文检索与内容综合,最终生成带引用链接的详实报告。
Marble 1.1 – 李飞飞 World Labs 推出的新一代生成式世界模型
Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光照效果与对比度,大幅减少过曝、泛白等视觉瑕疵,色彩表现更饱满真实。
ERNIE-Image – 百度文心开源的文生图模型
ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。
粤公网安备 123456789号