VoxCPM1.5 – 面壁智能开源的端到端语音合成模型

AI框架 2025-12-11

VoxCPM1.5是什么

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音（TTS）模型，专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音，支持 44.1kHz 高采样率音频克隆，生成效果更细腻。同时，模型生成效率翻倍，仅需 6.25 个 token 即可生成 1 秒音频，且稳定性增强，减少伪影。VoxCPM 1.5 提供深度定制功能，支持 LoRA 和全量微调，助力开发者打造个性化语音模型。

VoxCPM1.5的主要功能

高采样率音频克隆：支持 44.1kHz 采样率，能根据高质量音频克隆出细节更丰富的声音。
高效语音合成：模型生成效率提升，仅需 6.25 个 token 生成 1 秒音频，速度翻倍且质量更高。
上下文感知语音生成：根据文本内容自动调整语调和风格，生成自然流畅的语音。
深度定制能力：新增 LoRA 和全量微调脚本，支持开发者进行个性化训练和优化。
增强稳定性：减少音频伪影，优化长文本语音生成效果。

VoxCPM1.5的技术原理

无标记（Tokenizer-Free）架构：VoxCPM 1.5 采用无标记的端到端架构，直接从文本生成连续的语音信号，避免传统 TTS 中离散标记化带来的限制。
扩散自回归模型：基于扩散模型的自回归架构，通过逐步生成语音信号的连续表示，实现高质量的语音合成。
层次化语言建模：结合 MiniCPM-4 语言模型，通过层次化建模实现语义与声学的隐式解耦，提升语音的自然度和表达力。
FSQ 约束：利用 Flow Matching 等技术优化语音生成的稳定性，确保语音合成的高质量输出。
高效实时合成：支持流式合成，RTF 低至 0.15，能在消费级 GPU 上实现低延迟的实时语音合成。