通义百聆 – 阿里通义推出的企业级语音基座大模型

AI框架 2025-12-16

通义百聆是什么

通义百聆是阿里通义实验室推出的企业级语音基座大模型,整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型,专为复杂环境下的语音应用设计,通过 Context 增强架构大幅降低幻觉率,解决串语种问题,支持热词动态注入和精准识别行业术语。模型语音合成能力支持跨语种克隆,声音相似度领先。基于海量真实音频训练,覆盖金融、教育等多行业,能快速部署,助力企业高效落地语音应用。

通义百聆最新升级, Fun-CosyVoice3 模型升级后,首包延迟降低50%,中英混字准确率翻倍,支持9种通用语言、18种方言口音以及跨语种克隆与情感控制,具备zero-shot音色克隆能力,可实现更高效、自然的语音合成。同时,Fun-ASR 模型能力显著增强,噪声场景下识别准确率提升至93%,支持31种语言自由混说、方言口音覆盖,新增歌词与说唱识别能力,流式识别首字延迟降低到160ms,让语音识别更精准、更快速。

通义百聆

通义百聆的主要功能

  • 幻觉率大幅下降:通过 Context 增强架构(CTC+LLM+RAG),将 CTC 初筛结果作为 LLM 上下文,幻觉率从 78.5% 降至 10.7%,输出更稳定可靠。
  • 彻底解决串语种问题:CTC 解码文本输入 LLM Prompt,极大缓解“自动翻译”现象,例如避免英文录音输出为中文。
  • 强定制化能力:引入 RAG 机制动态注入术语库,支持人名、品牌、行业黑话(如“ROI”“私域拉新”)的精准识别,5 分钟完成配置。
  • 跨语种语音克隆:基于多阶段训练方法,一个音色能支持多种语言,声音相似度行业领先。
  • 行业场景全覆盖:基于数千万小时真实音频训练,覆盖金融、教育、制造、互联网、畜牧等 10+ 行业,深入产业一线。

通义百聆的技术原理

  • Fun-ASR 语音识别大模型:基于百聆的 Fun-ASR 语音识别大模型采用了创新的 Context 增强架构(CTC+LLM+RAG),通过 CTC 技术进行初步的语音到文本转换,用 LLM 对生成的文本进行上下文优化,显著降低幻觉率,从 78.5% 降至 10.7%,输出更稳定可靠。基于 RAG 机制动态注入术语库,支持人名、品牌、行业黑话等的精准识别,5 分钟内完成配置,满足不同企业的个性化需求。
  • Fun-CosyVoice 语音合成大模型:Fun-CosyVoice 语音合成大模型基于创新的语音解耦训练方法,将语音的音色、语速、语调等特征进行分离和独立训练,进行组合生成高质量的语音,使合成语音更加自然流畅。模型支持跨语种语音克隆,通过多阶段训练方法,一个音色能支持多种语言,实现“一个音色说遍全球”,声音相似度行业领先。

通义百聆的项目地址

通义百聆的应用场景

  • 金融行业:用在智能客服、语音交易和风险监控,提升服务效率与风险防控能力。
  • 教育行业:助力在线教育平台、智能辅导系统和语音作业批改,优化教学与学习体验。
  • 制造业:实现工业设备语音控制、生产流程监控和质量检测,提高生产效率与安全性。
  • 互联网行业:支持语音搜索、智能助手和内容创作,增强用户体验与内容多样性。
  • 畜牧行业:应用在智能养殖系统、动物健康监测和养殖环境管理,提升养殖效率与动物健康管理。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章