GLM-ASR – 智谱开源的语音识别系列模型

AI框架 2025-12-10

GLM-ASR是什么

GLM-ASR是智谱推出的语音识别模型系列，包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型，支持多场景、多语种、多口音，字符错误率仅为0.0717。GLM-ASR-Nano-2512是1.5B参数的端侧模型，性能达到开源领域SOTA，支持方言识别、低音量语音捕捉，兼顾隐私保护和低延迟。基于此模型，智谱AI输入法可实现语音转文字、翻译、改写等功能，推动语音交互向高效、智能方向发展。

GLM-ASR的主要功能

精准语音转文字：模型能将语音实时转换为文字，支持多场景、多语种和多口音，字符错误率低，确保高精度识别。
方言与低音量识别：模型优化了对粤语等方言的支持，在低音量（如耳语）场景下能准确捕捉和转录语音。
端侧隐私保护：GLM-ASR-Nano-2512可在本地运行，无需上传语音数据到云端，保护用户隐私，同时降低交互延迟。
智能交互与功能拓展：基于GLM-ASR的智谱AI输入法支持翻译、改写、情绪转化等操作，提供“人设”切换功能，适应不同场景的表达需求。
开发者支持：为开发者提供“语感编程”功能，支持通过语音输入代码逻辑和注释，查找指令，完成复杂数学计算或脚本编写。
专属词汇定制：用户能导入专属词汇、项目代号、生僻人名和地名等，提升特定领域的识别准确率。

GLM-ASR的性能表现

GLM-ASR-2512：在多场景、多语种、多口音的复杂环境中，字符错误率（CER）仅为0.0717，处于行业领先水平。
GLM-ASR-Nano-2512：在多个基准测试中表现优异，平均错误率仅为4.10%，在开源模型中达到SOTA（State-of-the-Art）水平。

如何使用GLM-ASR

云端调用：访问智谱开放平台注册账号，即可调用最新的 GLM-ASR-2512 模型。
本地部署（开源模型）：智谱为开源社区提供 GLM-ASR-Nano-2512 模型（1.5B参数），适合在本地运行。模型的权重和推理代码已经发布，开发者能下载并集成到自己的项目中，适合需要隐私保护或离线使用的场景。