Voxtral Transcribe 2 – Mistral AI推出的系列语音转文本模型

AI项目 2026-02-05

Voxtral Transcribe 2是什么

Voxtral Transcribe 2 是 Mistral AI 推出的新一代系列语音转文本模型，包含两个版本：Voxtral Mini Transcribe V2 专注批量转录，支持13种语言、说话人分离、词级时间戳和上下文偏置功能；Voxtral Realtime 专为实时场景设计，采用流式架构，延迟可配置低至200毫秒以下，适合语音助手等交互应用。两款模型在 FLEURS 等基准测试中准确率领先，且性价比显著优于 GPT-4o mini、Gemini 等竞争对手。

Voxtral Transcribe 2的主要功能

多语言转录：支持英、中、印地、西、阿、法、葡、俄、德、日、韩、意、荷共13种语言的高精度语音转文本。
词级时间戳：为每个转录词生成精确的起止时间，适用字幕生成和内容对齐。
说话人分离：自动识别不同说话人标注其发言时段，清晰区分多方对话。
上下文偏置：支持输入最多100个自定义词汇，提升专有名词和行业术语识别准确率。
超低延迟实时转录：Voxtral Realtime 采用流式架构，延迟可配置至200毫秒以下，实现边听边写。
噪音鲁棒性：在工厂、呼叫中心等嘈杂环境中仍保持高转录准确度。
长音频处理：单次请求可处理长达3小时的音频文件。
多格式支持：兼容 .mp3、.wav、.m4a、.flac、.ogg 格式，单文件最大1GB。

Voxtral Transcribe 2的技术原理

流式架构：Voxtral Realtime 采用原生流式架构，使其延迟可配置低至200毫秒以下，满足实时交互需求。
动态延迟配置：Realtime 模型支持灵活的延迟设置，在2.4秒延迟时准确率匹配批量模型，480毫秒延迟时词错误率仅比离线模型高1-2%，用户可根据场景平衡速度与精度。
统一多语言建模：两款模型均采用单一架构处理13种语言，通过共享表示学习实现跨语言迁移，使非英语语种获得与英语相近的识别性能。
上下文偏置机制：系统支持注入最多100个自定义词汇作为先验知识，在解码过程中提升特定术语的识别概率，优化专有名词和行业术语的拼写准确性。
边缘优化设计：Voxtral Realtime 以40亿参数规模实现高效推理，可在消费级硬件上运行，兼顾模型能力与部署成本，支持隐私优先的本地化处理。