AI项目
Mobile-Agent-v3.5 – 阿里通义开源的多平台GUI Agent框架
Mobile-Agent-v3.5 是阿里巴巴通义实验室开源的新一代多平台GUI Agent框架,标志着开源GUI智能体从"演示级"迈向"工程可用级"。框架原生支持桌面、手机、浏览器三大平台,可跨Android、Ubuntu、macOS、Windows实现自动化操作。
Tidy – 云端个人AI Agent,通过演示操作教AI用任意网站
Tidy 是云端个人 AI Agent,支持通过 iMessage 或网页与用户随时交互。用户无需编写代码,只需演示操作,工具能学会使用任意网站,转化为可复用的自动化工具。
JadeAI – 开源 AI 智能简历生成器,提供拖拽式编辑器
JadeAI 是 twwch 开发的开源 AI 智能简历生成器,定位为"真正好用、完全免费、可自托管"的简历解决方案。基于 Next.js 构建,采用 Apache 2.0 协议开源,数据完全由用户掌控。核心亮点在于深度融合 AI 能力,支持一键生成简历、PDF/图片智能解析、JD 匹配分析与 ATS 评分、求职信生成、写作质量检查及多语言翻译。
肉包 – 开源的AI手机自动化助手,豆包手机平替
肉包(Roubao)是开源的AI手机自动化助手,作为字节跳动"豆包手机助手"的免费替代方案。肉包基于视觉语言模型(VLM),采用Kotlin原生开发,无需电脑或Root权限,支持通过Shizuku获取系统级控制能力。
漫剧助手 – 阅文集团推出的AI漫剧创作平台
漫剧助手是阅文集团推出的AI漫剧创作平台,专为网文改编漫剧打造的一站式解决方案。平台整合10万+部阅文精品IP资源,支持从小说到分镜的全流程智能创作——包括内容理解、剧本改编、设定提取、分镜拆分及多模态素材生成。
万兴剧厂 – 万兴科技推出的一站式AI漫剧创作平台
万兴剧厂是万兴科技旗下一站式AI漫剧创作平台,专注"影视级规模化生产,小成本成就大爆款"。平台提供剧本智能拆解、人设场物全维提取、导演级分镜规划等核心能力,让剧本改编和分镜创作生成效率得到提升。
Yuan3.0 Ultra – 浪潮信息团队开源的多模态基础模型
Yuan3.0-Ultra 是浪潮信息YuanLab.ai团队开源的万亿参数多模态基础大模型,总参数 1.01T,激活参数 68.8B。采用 MoE 架构,集成视觉编码器与多模态对齐模块,创新提出 Layer-Adaptive Expert Pruning(LAEP)算法,预训练效率提升 49%。
Helios – 北大联合字节等开源的实时长视频生成模型
Helios 是北京大学与字节跳动等联合推出的14B参数实时长视频生成模型,可在单张H100 GPU上以19.5 FPS生成分钟级视频。
泡漫 – 掌阅科技推出的一站式AI漫剧生成平台
泡漫是掌阅科技推出的一站式AI漫剧生成平台,专注用AI重新定义漫剧创作。平台整合超1万部小说IP,提供动态漫、解说漫、AI真人剧等多种形态,将制作周期压缩至5-7天,成本降低约70%。
Phi-4-reasoning-vision-15B – 微软开源的多模态推理模型
Phi-4-reasoning-vision-15B是微软开源的150亿参数多模态推理模型,基于Phi-4-Reasoning语言模型和SigLIP-2视觉编码器构建。
MiniMax Music 2.5+ – MiniMax推出的AI音乐生成模型
MiniMax Music 2.5+是MiniMax推出的AI音乐生成模型,主打纯音乐创作能力。模型支持古典管弦、电子、氛围音等多元风格,覆盖冥想、助眠、游戏、影视等全场景。
播面 – AI面试备考工具,支持AI深度追问解答
播面是播客形式的技术面试题学习平台,主打"戴上耳机听懂面试题"。平台将枯燥的八股文转化为音频讲解,覆盖Java、Spring、Redis、Kafka、LLM等30+主流技术栈,提供3000+精选题目与AI深度追问解答。
纳米漫剧流水线 – 360推出的AI漫剧生成平台
纳米漫剧流水线是360推出的工业级AI漫剧生成平台,通过空间引擎建立三维坐标系,解决AI视频角色/场景不一致的痛点。
Fun-CosyVoice3.5 – 阿里通义实验室推出的语音生成模型
Fun-CosyVoice3.5 是阿里通义实验室语音团队最新发布的语音生成模型,主打多语种音色复刻与精细化表达控制。模型最突出的创新在于FreeStyle自然语言控制能力——用户无需掌握专业参数,直接用口语化指令如"语气坚定一点""语速慢一点"即可精准调控语音效果,实现"一句话自由生成语音"。
FireRed-OCR – 小红书开源的轻量级文档结构解析视觉语言模型
FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型,实现了"小模型击败大模型"的突破。
Epismo – AI工作流管理与协作平台,支持AI技能封装
Epismo 是 AI 工作流管理与协作平台,致力于将零散的 AI 操作经验转化为标准化的"技能"单元。平台支持 Gemini、Claude、ChatGPT 等多种 AI Agent 协同工作,用户可通过自然语言指派任务、智能拆解目标,在可视化看板中管理人机混合团队。
theORQL – 前端AI编程工具,支持自动复现与修复闭环
theORQL 是具备视觉感知能力的前端 AI 编程工具。工具打通了 Chrome DevTools 与 VS Code/Cursor,实现运行时全景感知,能捕获 DOM、CSS、网络请求和 Console 日志,精准映射 UI 元素到源码。
Goose – 开源本地AI Agent框架,自主执行完整开发
Goose 是 Block 开源的本地 AI Agent 框架,能自主执行完整工程任务——读文件、写代码、跑测试、调 API、自动 Debug,出错后自我修正直至完成。
DataClaw – 开源AI对话数据导出工具,一键转为标准训练集
DataClaw 是开发者Peter O'Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史,将其转换为结构化的JSONL训练数据集,支持一键发布到Hugging Face平台供社区使用。
MeowTXT – AI音视频转文字工具,智能说话人识别
MeowTXT 是在线 AI 音视频转文字工具,主打极速、精准的转录体验。用户只需拖拽上传 MP3、MP4、WAV 等文件,或直接粘贴 YouTube 链接,可在数分钟内获得文字稿。其 AI 引擎以 40 倍实时速度处理内容,准确率高达 97.5%,新用户可免费体验前 10 分钟。
粤公网安备 123456789号