GLM-ASR – 智谱开源的语音识别系列模型

AI框架 2025-12-10

GLM-ASR是什么

GLM-ASR是智谱推出的语音识别模型系列,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语种、多口音,字符错误率仅为0.0717。GLM-ASR-Nano-2512是1.5B参数的端侧模型,性能达到开源领域SOTA,支持方言识别、低音量语音捕捉,兼顾隐私保护和低延迟。基于此模型,智谱AI输入法可实现语音转文字、翻译、改写等功能,推动语音交互向高效、智能方向发展。

GLM-ASR

GLM-ASR的主要功能

  • 精准语音转文字:模型能将语音实时转换为文字,支持多场景、多语种和多口音,字符错误率低,确保高精度识别。
  • 方言与低音量识别:模型优化了对粤语等方言的支持,在低音量(如耳语)场景下能准确捕捉和转录语音。
  • 端侧隐私保护:GLM-ASR-Nano-2512可在本地运行,无需上传语音数据到云端,保护用户隐私,同时降低交互延迟。
  • 智能交互与功能拓展:基于GLM-ASR的智谱AI输入法支持翻译、改写、情绪转化等操作,提供“人设”切换功能,适应不同场景的表达需求。
  • 开发者支持:为开发者提供“语感编程”功能,支持通过语音输入代码逻辑和注释,查找指令,完成复杂数学计算或脚本编写。
  • 专属词汇定制:用户能导入专属词汇、项目代号、生僻人名和地名等,提升特定领域的识别准确率。

GLM-ASR的性能表现

  • GLM-ASR-2512:在多场景、多语种、多口音的复杂环境中,字符错误率(CER)仅为0.0717,处于行业领先水平。
  • GLM-ASR-Nano-2512:在多个基准测试中表现优异,平均错误率仅为4.10%,在开源模型中达到SOTA(State-of-the-Art)水平。
GLM-ASR

如何使用GLM-ASR

  • 云端调用:访问 智谱开放平台 注册账号,即可调用最新的 GLM-ASR-2512 模型。
  • 本地部署(开源模型):智谱为开源社区提供 GLM-ASR-Nano-2512 模型(1.5B参数),适合在本地运行。模型的权重和推理代码已经发布,开发者能下载并集成到自己的项目中,适合需要隐私保护或离线使用的场景。

GLM-ASR的项目地址

  • GitHub仓库:https://github.com/zai-org/GLM-ASR
  • HuggingFace模型库:https://huggingface.co/zai-org/GLM-ASR-Nano-2512

GLM-ASR的应用场景

  • 办公会议记录:模型可实时将会议语音精准转录为文字,自动生成会议记录,提升办公效率。
  • 教育语言学习:GLM-ASR辅助学生口语练习,支持多语言翻译与发音纠正,助力语言学习。
  • 开发者编程辅助:开发者通过语音输入代码逻辑和注释,GLM-ASR帮助快速生成代码,提高开发效率。
  • 视频内容创作:模型能自动为视频生成多语言字幕,方便内容创作与传播,提升制作效率。
  • 公共场合低音量输入:GLM-ASR优化微弱声音识别,适合在图书馆、办公室等安静场所使用,保护隐私。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章