LongCat-Audio-Codec – 美团开源的语音编解码方案
LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案,专为语音大语言模型(Speech LLM)设计。通过语义和声学双 Token 并行提取机制,兼顾语音的语义理解与声学特征保留,解决了传统方案中语义与声学信息难以平衡的问题。
Coral NPU – 谷歌推出的全栈开源AI平台
Coral NPU 是谷歌推出的全栈开源AI平台,专为低功耗边缘设备(如智能手表、AR 眼镜等)设计,能解决性能、碎片化和隐私三大挑战。Coral NPU基于 RISC-V 指令集,包含标量核心、向量执行单元和矩阵执行单元,能高效支持机器学习推理任务。
Seekario – AI求职平台,提供求职全方位支持
Seekario 是专注于提升求职效率的 AI 平台。平台通过智能技术为求职者提供从简历优化到面试准备的全方位支持,帮助用户快速打造专业简历,精准匹配职位需求,通过模拟面试和反馈提升求职表现。
Manus 1.5 – Manus最新推出的AI Agent系统
Manus 1.5 是Manus最新推出的强大 AI Agent系统,全面提升任务执行的速度、可靠性和质量。Manus 1.5基于全新架构,任务完成时间从 15 分钟缩短到不到 4 分钟,复杂任务处理能力显著增强。
Mentorbook – AI编程学习平台,提供交互式编程实战
Mentorbook 是 AI 驱动的个性化编程学习平台,帮助用户从编程新手成长为高手。平台通过 AI 技术根据用户的学习目标、水平和风格,定制专属学习路线,涵盖 Python、SQL、机器学习等多种编程语言和技术领域。
RTFM – 李飞飞团队推出的实时生成式世界模型
RTFM(Real-Time Frame Model)是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行,实时生成3D场景,支持持久交互。
Traycer – AI编程助手,自动生成可操作的计划
Traycer 是先进的 AI 编程助手,专注于通过规范驱动开发(Spec-Driven Development)帮助开发者高效规划和实现代码任务。
八爪鱼RPA – 基于RPA的AI自动化机器人平台
八爪鱼RPA是基于人工智能与采集技术的自动化机器人平台,帮助企业提升工作效率。提供上百款AI自动化应用,涵盖电商、社交媒体、客服等多个领域,支持定制和持续更新。用户无需代码基础,通过简单的拖拽操作即可完成自动化应用开发。
Strawberry – AI自动化浏览器,像真人与网页进行交互
Strawberry 是创新的 AI 自动化浏览器,为用户提供高效、智能的工作流程解决方案。通过多种预设的 AI 助手,如销售助手(Sales Sally)、招聘助手(Recruiter Ryan)、数据提取器(Extractor Ella)等,帮助用户在不同领域实现任务自动化。
UniPixel – 香港理工联合腾讯推出的像素级多模态大模型
UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的"对象记忆机制"和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。
Percify – AI数字人生成平台,一张图片生成逼真形象
Percify 是强大的 AI 数字人生成平台,专注于创建逼真的虚拟形象(avatar)视频内容。用户上传一张人脸图片和音频,通过简单的文字描述,能生成具有自然表情、精准口型同步和高质量语音的无限时长视频。
豆包语音2.0 – 字节跳动推出的升级版AI语音模型
豆包语音2.0是字节跳动推出的升级版语音合成模型,包含两大核心模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0)。
豆包大模型1.6 lite – 字节跳动推出的轻量级AI模型
豆包大模型1.6 Lite(Doubao-Seed-1.6-lite)是字节跳动推出的轻量级人工智能模型。模型相比旗舰版豆包1.6更轻量、推理速度更快,性价比更高。
Sora2怎么玩?Sora爆火视频分析,一文看懂
最近不少友友用了Sora 2 都说它出片效果很扎实。不少友友就问啦:为什么有人随手做的视频就成了爆款,自己精心做的视频播放量连亲戚点赞都凑不齐。在我看来 Sora 2 是少有的真正面向普通用户的AI视频工具,它不拼参数、细节,而是脑洞、想象力和娱乐性。这两天,我仔细研究了 Sora 2 平台上不少热播视频,终于摸清了爆款的套路,给大家整理了3个邪修捷径!
DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架
DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成(TTS)框架。框架基于国际音标(IPA)统一输入体系,结合方言感知的 Mixture-of-Experts(MoE)架构和低资源适配策略(PEFT),实现低成本、低门槛的多方言语音合成。
Claude Haiku 4.5 – Anthropic最新推出的小型AI模型
Claude Haiku 4.5 是 Anthropic 公司最新推出的高性能、低成本的小型 AI 模型。模型在编码性能上与之前的旗舰模型 Claude Sonnet 4 相当,且在某些任务中表现更优,成本仅为三分之一,速度提升两倍多。
Veo 3.1 – 谷歌推出的AI视频生成模型
Veo 3.1 是谷歌推出的最新 AI 视频生成模型,在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。
ProWritingAid – AI英文写作工具,提供语法检查和优化建议
ProWritingAid 是功能强大的AI写作辅助工具,专为作家、编辑和创意写作者设计。工具提供全面的语法检查、风格优化建议及详细的写作分析报告,帮助用户提升写作质量。
Local-NotebookLM – 开源PDF转播客AI工具,自定义音频
Local-NotebookLM 是开源的本地 AI 工具,能将 PDF 文档转换为引人入胜的音频内容,如播客、访谈、辩论等。支持多种输出格式和内容风格,用户可以根据需求选择不同的音频长度和风格,如短篇、中篇、长篇,以及正常、轻松、正式、技术、学术等风格。
Pyscn – AI代码质量分析工具,快速发现和清理代码问题
Pyscn 是专为 Python 开发者设计的智能代码质量分析工具,帮助开发者快速发现并清理代码中的问题,如死代码、重复代码、复杂代码结构等。通过控制流图(CFG)检测死代码,利用树编辑距离技术识别代码克隆,分析代码的耦合度和圈复杂度。
粤公网安备 123456789号