Step-Audio-EditX – 阶跃星辰开源的音频编辑大模型

AI项目 2025-11-07

Step-Audio-EditX是什么

Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型,主打“情感、说话风格、副语言”三轴细粒度迭代控制,可把愤怒、开心、悲伤等情绪强度任意增减,能把撒娇、耳语、老人等风格叠加多次,能像字幕一样插入呼吸、笑声、叹气等 10 类自然副语言 token。自带零样本 TTS,无需目标人语音即可克隆音色,在文本前加“[四川话]”“[粤语]”等标签秒切方言。模型完全基于大间隔合成数据做 SFT+PPO,后训练阶段无需额外编码器或 adapter 能实现属性解耦与迭代控制。

Step-Audio-EditX

Step-Audio-EditX的主要功能

  • 情感编辑:愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等几十种标签,可多次迭代增强或减弱强度。
  • 风格编辑:撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种说话风格,支持叠加与微调。
  • 副语言插入:精确插入呼吸、笑声、叹气、惊讶(oh/ah)、确认(en)、不满(hnn)、疑问(ei)、嗯(uhm)等 10 类自然 token。
  • 零样本 TTS:无需目标人语音即可克隆音色,文本前加“[四川话]”“[粤语]”等标签直接切换方言。
  • 迭代控制:同一语音可反复编辑,属性解耦不串扰,效果逐级增强。
  • 开源轻量:提供 8bit 量化版,单卡 8 GB 显存可跑,4×A800/H800 获最佳音质;含推理/训练代码、Gradio Demo、HF Space。

Step-Audio-EditX的技术原理

  • 双码本音频分词:并行 16.7 Hz/1024 项“语言码本”与 25 Hz/4096 项“语义码本”,按 2:3 交错切片,把任意语音统一转成离散 token,保留情感与韵律信息,为后续 LLM 直接操作提供“语音词汇”。
  • 3B 音频 LLM:以文本预训练 3B 模型热启,文本 token 与双码本音频 token 按聊天格式拼接输入,仅输出音频 token;训练数据文本:音频=1:1,充分利用已有文本 LLM 生态做后训练。
  • 大间隔合成数据驱动:不引入额外编码器或 adapter,仅用“同文本、异属性(情感/风格/副语言)”成对数据做 SFT+PPO;大间隔迫使模型学会属性解耦,实现迭代式强度增减与多属性叠加。
  • 流匹配 + BigVGANv2 解码:音频 LLM 输出的双码本 token 经 DiT-流匹配模块生成 Mel 谱,再由 BigVGANv2 声码器还原波形;200 k 小时高质量训练保证发音准确度与音色相似度。
  • 统一框架:同一套“分词→LLM→解码”管线同时支持零样本 TTS、情感/风格/副语言编辑、语速调节与降噪,无需任务专属模块,显著降低系统复杂度与推理成本。

Step-Audio-EditX的项目地址

  • 项目官网:https://stepaudiollm.github.io/step-audio-editx/
  • Github仓库:https://github.com/stepfun-ai/Step-Audio-EditX
  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • arXiv技术论文:https://arxiv.org/pdf/2511.03601

Step-Audio-EditX的应用场景

  • 有声内容升级:有声书、播客、新闻朗读可一键叠加“开心/悲伤/耳语”等情绪或风格,无需重新录音即可快速生成多版本音频,提升沉浸感。
  • 视频与广告配音:短视频、动画、广告片可零样本克隆角色音色,再迭代添加“撒娇、夸张、严肃”等风格,实现低成本、多角色、多情绪的自动配音。
  • 游戏/虚拟偶像:NPC、虚拟主播、VTuber 先用一句参考语音克隆音色,再实时插入笑声、呼吸、叹气等副语言,打造更鲜活、可持续互动的角色语音。
  • 智能客服与语音助手:客服机器人可在原有 TTS 基础上,通过编辑把“平淡答复”转为“热情/安抚”情绪,改善用户体验;同时支持方言标签,满足地域化服务。
  • 教育/语言学习:在线课程、语言 APP 利用“老人/小孩/耳语”风格生成适龄读音,或把标准普通话秒切粤语、四川话,帮助学生跟读模仿,降低教师录音成本 。
  • 会议记录与无障碍:对含噪声或过长停顿的会议录音,先进行“降噪+静音修剪”编辑,再按需求提高语速或加入情感,生成清晰、易读的会议纪要音频 。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章