MMAE – 腾讯混元联合高校推出的音频编辑评测基准

AI项目 2026-06-16

MMAE是什么

MMAE(Massive Multitask Audio Editing Benchmark)是首个面向通用指令式音频编辑的大规模多任务评测基准,由上海交通大学、上海创智学院、南洋理工大学、腾讯混元团队等机构联合推出。基准包含 2,000 条真实场景音频编辑任务与 17,741 条细粒度 rubric 评测项,系统覆盖 7 种音频模态、6 级任务难度、8 类编辑操作,为下一代智能音频编辑系统建立标准化、可解释的评测范式。

MMAE

MMAE的主要功能

  • 真实场景任务库:提供 2,000 条来自真实场景的高保真音频编辑样本,而非合成数据,确保评测贴近实际应用。
  • 三维系统分类:建立 Modality(7 种模态:sound / music / speech 及两两/三者混合)、Complexity(6 级难度:single → multi-part → multi-instruction → multi-audio → multi-round → multi-hop)、Operation(8 类操作:local 增删改查属性编辑 + global 背景/前景/属性编辑)的正交分类体系。
  • 细粒度 Rubric 评测:为每条样本平均设计约 9 条原子化、可验证的选择题式 rubric,从指令遵循和”上下文一致性”两个独立维度进行评测。
  • 多维量化指标:输出 IFR、CR与 EMR,实现从平均能力到完美执行率的全面刻画。
  • 自动化评测流水线:基于 Qwen3-Omni 多模态大模型担任评判器,支持对模型输出进行自动、可复现的评分。

MMAE的技术原理

  • Human-Agent 协作标注:采用五阶段数据构建流程——专家头脑风暴收集场景 → 构建分类学与评测范式 → 指令中心数据收集与动态平衡 → 人机协作 rubric 标注→ 交叉审核质量检查。
  • Rubric-Based 评测范式:将开放式自由格式编辑任务分解为 17,741 条原子化、正交、客观的多选题,每条 rubric 仅考核一个不可再分的属性,确保评测可解释且避免信号级指标的模糊性。
  • 双维度正交评估:IFR 维度考核模型是否精确执行了指令要求的修改,CR 维度考核指令未涉及的部分是否被严格保留,两者结合有效阻断”只改不保”或”只保不改”的投机策略。
  • 稳定评判机制:使用 Qwen3-Omni 作为外部评判模型,每条 rubric 独立查询 3 次取多数决,且每次随机打乱选项顺序以消除位置偏见。
挖挖GitHub

微信关注回复 “开源”,加入AI开源项目交流群

如何使用MMAE

  • 部署评判模型:克隆 Qwen3-Omni 官方仓库并配置环境,启动 vLLM 服务,参考脚本在 8 块 GPU 上启动两个 tensor-parallel=4 的实例,分别监听 8001 与 8002 端口。
  • 准备预测结果:在 MMAE 基准元数据上运行待测音频编辑模型,将输出音频路径以 chatml 格式追加为 assistant 回复,另存为 JSON 文件。
  • 运行自动评估:执行 python -m eval.score 命令,传入预测文件路径、评判模型 API 地址、音频根目录及并发数,即可自动生成 IFR、CR、EMR 等指标。

MMAE的核心优势

  • 真实数据驱动:所有样本源自真实场景音频,经过多轮精细化修订与独立审核,避免合成数据带来的分布偏移。
  • 错误可定位:相比 FAD、CLAP 等粗粒度指标只能给出总体打分,MMAE 的 rubric 体系可精确诊断模型在哪一环节出错,提供清晰的模型能力诊断路线图。
  • 防投机设计:同时考核 IFR 与 CR 并引入 EMR 指标,迫使模型必须在准确修改与保留原内容之间取得平衡,无法通过单一策略刷分。
  • 跨模态统一:首次将 sound、music、speech 及其混合场景纳入同一评测框架,解决了此前基准高度碎片化、严格域受限的问题。
  • 难度全覆盖:从最简单的单步单元素编辑到需要多跳推理和多轮上下文依赖的复杂任务,完整覆盖模型认知 pipeline 的感知、推理、生成三层能力。

MMAE的项目地址

  • GitHub仓库:https://github.com/ddlBoJack/MMAE
  • arXiv技术论文:https://arxiv.org/pdf/2606.07229

MMAE的同类竞品对比

对比维度 MMAE SpeechEditBench
定位 首个通用音频编辑评测基准(跨 sound/music/speech) 双语多属性语音编辑评测基准(仅 speech)
覆盖模态 7 种:sound、music、speech 及两两/三者混合 仅 speech(中文 + 英文双语)
数据规模 2,000 条真实场景样本 + 17,741 条 rubric 未公开具体样本数,覆盖 7 种原子属性编辑任务
任务类型 8 类操作 × 6 级复杂度(single → multi-hop / multi-round) 7 种原子属性:Content、Emotion、Style、Prosody、Paralinguistic、Speaker、Acoustic;支持组合式多属性同时编辑
评测维度 IFR(指令遵循率)+ CR(一致性率)+ EMR(精确匹配率) Target Success(目标达成率)+ Preservation Success(内容保持率)+ Joint Success(联合成功率)
评测粒度 Rubric 级:每条样本平均 9 条原子化多选题,可定位具体错误环节 属性级:每个原子任务有预定义阈值(如 WER≤10%、余弦相似度≥0.5、DNSMOS 增益>0 等)
评判器 Qwen3-Omni(多模态大模型,每条 rubric 独立查询 3 次取多数决) Gemini(多模态大模型,用于情感/风格/副语言评判)+ Whisper(ASR)+ WavLM(说话人嵌入)+ PANNs(场景分类)

MMAE的应用场景

  • 音频编辑模型研发:为 Step-Audio-EditX、Ming-UniAudio、Audio-Omni 等模型提供标准化能力评测与迭代诊断依据。
  • 多模态大模型音频模块评估:评测统一音频理解/生成/编辑系统的跨模态编辑鲁棒性。
  • 学术研究基准:作为公平比较不同音频编辑架构的公共测试平台,推动领域标准化。
  • 工业质检:音频内容生产平台可利用 MMAE 框架构建内部评测体系,筛选最优编辑模型上线。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章