PrismAudio – 阿里通义推出的视频生成音频框架

AI项目 2026-03-24

PrismAudio是什么

PrismAudio 是阿里通义实验室推出的视频生成音频(Video-to-Audio)框架,可为无声视频自动配上环境音效。模型首创”分解式思维链”技术,让模型先思考声音内容、时机、质感、空间位置,再生成音频,引入四位”老师”(语义、时序、美学、空间)多维打分优化。模型仅5.18亿参数,生成9秒音频仅需0.63秒,性能全面超越现有方法,现已被ICLR 2026收录。

PrismAudio

PrismAudio的主要功能

  • 视频转音频:模型能为无声视频自动生成与画面匹配的环境音效(如马蹄声、风雨声等)。
  • 语义对齐:模型能确保生成的声音内容与视频中的物体、动作准确对应,避免音画不符。
  • 时序同步:支持精准控制声音与视觉事件的发生时机,实现严丝合缝的同步效果。
  • 美学优化:模型生成自然、有层次感、无电子感的高质量音频,提升听觉体验。
  • 空间定位:支持立体声输出,根据画面中声源位置自动调整左右声道,实现听声辨位。
  • 思维链推理:采用”先思考、再发声”的分解式思维链,让生成过程可解释、可控制。

PrismAudio的关键信息和使用要求

  • 开发方:阿里通义实验室(Tongyi Fun Team)
  • 技术类型:视频生成音频(V2A)框架
  • 核心创新:分解式思维链 + 多维度强化学习
  • 模型规模:5.18 亿参数
  • 输出规格:44kHz 立体声
  • 推理速度:生成 9 秒音频仅需 0.63 秒
  • 输入格式:无声视频(支持常见视频格式)
  • 内容限制:仅生成环境音/音效,不支持人物配音
  • 可选输入:可搭配文本描述辅助生成(非必须)
  • 硬件需求:支持 GPU 加速,也可 CPU 运行

PrismAudio的核心优势

  • 四维协同优化:首创分解式思维链,将语义、时序、美学、空间四个维度独立建模并协同优化,避免传统模型”顾此失彼”的弊端,实现音画高度统一。
  • 先思考再发声:突破端到端黑箱生成模式,模型先输出结构化推理文本(声音内容、时机、质感、方位),再生成音频,过程可解释、可控制。
  • 高效轻量:仅5.18亿参数,生成9秒音频仅需0.63秒,速度比同类模型快近一倍,更适合实时应用场景。
  • 复杂场景鲁棒:在自建的AudioCanvas复杂场景基准上表现远超现有方法,多事件、多声源场景下仍能保持稳定输出。

如何使用PrismAudio

  • 在线体验(推荐新手):访问 Hugging Face 在线体验Demo,上传无声视频,可选输入文本描述辅助生成,AI自动生成音频文件。
  • 本地部署:从 GitHub 或 Hugging Face 下载开源代码与模型权重,安装依赖环境后加载预训练模型,输入视频路径调用推理接口生成音频,支持自定义调整思维链参数或奖励权重。

PrismAudio的项目地址

  • 项目官网:https://prismaudio-project.github.io/
  • GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
  • HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
  • arXiv技术论文:https://arxiv.org/pdf/2511.18833
  • 在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio

PrismAudio的同类竞品对比

对比维度 PrismAudio MMAudio ThinkSound
开发方 阿里通义实验室 新加坡南洋理工大学等 阿里通义实验室
核心方法 分解式思维链 + 多维度强化学习 多模态Transformer 单体思维链
参数量 5.18亿 约10亿 数十亿
推理速度 0.63秒/9秒音频 1.30秒/9秒音频 1.07秒/9秒音频
输出音质 44kHz立体声 44kHz单声道 44kHz立体声
语义一致性(CLAP) 0.47 0.40 0.43
时序同步性(DeSync) 0.41 0.46 0.55
空间准确性(CRW) 7.72 13.47
美学质量(MOS-Q) 4.21 3.95 4.05

PrismAudio的应用场景

  • 影视后期:为电影、纪录片、预告片自动生成环境音效,替代传统拟音工作,降低后期制作成本和时间。
  • 短视频创作:为Vlog、美食、旅行等无声视频快速配上氛围音,增强ASMR和治愈类内容的沉浸感与传播效果。
  • 游戏开发:为过场动画和CG宣传片生成动态音效,根据森林、城市、战场等场景实时匹配环境音,减少音效师重复劳动。
  • 广告营销:为产品展示视频自动添加操作音效,支持快速迭代多版本音轨,提升广告测试效率和创意灵活性。
  • 教育培训:为教学视频和操作演示补充提示音与背景音,丰富多媒体课件的听觉体验,提高学习专注度和信息吸收率。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章