Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

AI项目 2026-02-19

Ming-omni-tts是什么

Ming-omni-tts 是蚂蚁集团开源的统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,粤语方言控制准确率达93%,情感控制准确率46.7%,超越CosyVoice3。技术上采用统一连续音频Tokenizer和Diffusion Transformer架构,以12.5Hz帧率处理多模态音频,通过”Patch-by-Patch”压缩策略将LLM推理帧率降至3.1Hz,在降低延迟的同时保持音质。16.8B参数版本在Seed-tts-eval中文测试集上WER仅0.83%,超越SeedTTS和GLM-TTS。模型内置100+优质音色,支持零样本声音设计,提供Docker镜像和Gradio演示,适用于有声书、播客、多语言内容创作等场景。

Ming-omni-tts

Ming-omni-tts的主要功能

  • 统一多模态音频生成:业界首个自回归模型,可在单通道中联合生成语音、环境音和音乐,实现”身临其境”的听觉体验。
  • 细粒度语音控制:支持通过简单指令精确控制语速、音调、音量、情感和方言,粤语方言控制准确率高达93%,情感控制准确率达46.7%。
  • 智能声音设计:内置100+优质音色,支持通过自然语言描述进行零样本声音设计。
  • 高效推理优化:采用”Patch-by-Patch”压缩策略,将LLM推理帧率降至3.1Hz,显著降低延迟。
  • 专业文本归一化:准确解析和朗读复杂数学表达式、化学方程式等专业格式,内部测试集CER仅1.97%。
  • 多语言支持:支持中文、英文等多种语言的语音合成与跨语言迁移。
  • 零样本TTS:仅需3-10秒参考音频即可克隆任意音色,在Seed-tts-eval上WER低至0.83%。

Ming-omni-tts的技术原理

  • 统一连续音频Tokenizer:基于VAE的连续Tokenizer,以12.5Hz帧率将语音、音乐和通用音频整合到统一潜空间,支持多模态音频的联合建模。
  • Diffusion Transformer (DiT) Head:采用扩散头架构增强音频生成质量,提升音质细腻度和自然度。
  • Patch生成策略:采用patch大小为4、回溯历史为32的生成策略,在局部声学细节和长期结构连贯性之间取得平衡。
  • 自回归生成架构:业界首个在单通道中联合生成语音、音乐和音效的自回归模型,实现统一音频生成。
  • “Patch-by-Patch”压缩机制:通过压缩策略将LLM推理帧率从原始频率降至3.1Hz,大幅降低计算延迟和推理成本。
  • 指令微调对齐:通过指令微调实现对语速、音调、音量、情感和方言的细粒度控制,支持自然语言指令解析。

Ming-omni-tts的项目地址

  • GitHub仓库:https://github.com/inclusionAI/Ming-omni-tts
  • Hugging Face模型库
    • https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B
    • https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B

Ming-omni-tts的应用场景

  • 有声书与播客制作:支持长文本语音合成,Podcast TTS任务CER仅1.84%,适合有声读物、新闻播报和播客内容生成。
  • 多语言内容创作:支持中文、英文等多语言语音合成与跨语言音色迁移,满足全球化内容生产需求。
  • 游戏音效设计:可联合生成语音、环境音和音乐,为游戏场景提供沉浸式音频体验。
  • 教育培训领域:准确朗读复杂数学表达式、化学方程式等专业内容,适用于在线教育课件和学术讲解。
  • 智能客服与助手:内置100+优质音色,支持零样本声音克隆,可快速定制品牌专属语音助手。
  • 广告与营销配音:通过情感控制和方言支持,生成富有感染力的广告配音和本地化营销内容。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章