PrismAudio – 阿里通义推出的视频生成音频框架
PrismAudio是什么
PrismAudio 是阿里通义实验室推出的视频生成音频(Video-to-Audio)框架,可为无声视频自动配上环境音效。模型首创”分解式思维链”技术,让模型先思考声音内容、时机、质感、空间位置,再生成音频,引入四位”老师”(语义、时序、美学、空间)多维打分优化。模型仅5.18亿参数,生成9秒音频仅需0.63秒,性能全面超越现有方法,现已被ICLR 2026收录。

PrismAudio的主要功能
-
视频转音频:模型能为无声视频自动生成与画面匹配的环境音效(如马蹄声、风雨声等)。
-
语义对齐:模型能确保生成的声音内容与视频中的物体、动作准确对应,避免音画不符。
-
时序同步:支持精准控制声音与视觉事件的发生时机,实现严丝合缝的同步效果。
-
美学优化:模型生成自然、有层次感、无电子感的高质量音频,提升听觉体验。
-
空间定位:支持立体声输出,根据画面中声源位置自动调整左右声道,实现听声辨位。
-
思维链推理:采用”先思考、再发声”的分解式思维链,让生成过程可解释、可控制。
PrismAudio的关键信息和使用要求
- 开发方:阿里通义实验室(Tongyi Fun Team)
- 技术类型:视频生成音频(V2A)框架
- 核心创新:分解式思维链 + 多维度强化学习
- 模型规模:5.18 亿参数
- 输出规格:44kHz 立体声
- 推理速度:生成 9 秒音频仅需 0.63 秒
- 输入格式:无声视频(支持常见视频格式)
- 内容限制:仅生成环境音/音效,不支持人物配音
- 可选输入:可搭配文本描述辅助生成(非必须)
- 硬件需求:支持 GPU 加速,也可 CPU 运行
PrismAudio的核心优势
- 四维协同优化:首创分解式思维链,将语义、时序、美学、空间四个维度独立建模并协同优化,避免传统模型”顾此失彼”的弊端,实现音画高度统一。
- 先思考再发声:突破端到端黑箱生成模式,模型先输出结构化推理文本(声音内容、时机、质感、方位),再生成音频,过程可解释、可控制。
- 高效轻量:仅5.18亿参数,生成9秒音频仅需0.63秒,速度比同类模型快近一倍,更适合实时应用场景。
- 复杂场景鲁棒:在自建的AudioCanvas复杂场景基准上表现远超现有方法,多事件、多声源场景下仍能保持稳定输出。
如何使用PrismAudio
- 在线体验(推荐新手):访问 Hugging Face 在线体验Demo,上传无声视频,可选输入文本描述辅助生成,AI自动生成音频文件。
- 本地部署:从 GitHub 或 Hugging Face 下载开源代码与模型权重,安装依赖环境后加载预训练模型,输入视频路径调用推理接口生成音频,支持自定义调整思维链参数或奖励权重。
PrismAudio的项目地址
- 项目官网:https://prismaudio-project.github.io/
- GitHub仓库:https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
- HuggingFace模型库:https://huggingface.co/FunAudioLLM/PrismAudio
- arXiv技术论文:https://arxiv.org/pdf/2511.18833
- 在线体验Demo:https://huggingface.co/spaces/FunAudioLLM/PrismAudio
PrismAudio的同类竞品对比
| 对比维度 | PrismAudio | MMAudio | ThinkSound |
|---|---|---|---|
| 开发方 | 阿里通义实验室 | 新加坡南洋理工大学等 | 阿里通义实验室 |
| 核心方法 | 分解式思维链 + 多维度强化学习 | 多模态Transformer | 单体思维链 |
| 参数量 | 5.18亿 | 约10亿 | 数十亿 |
| 推理速度 | 0.63秒/9秒音频 | 1.30秒/9秒音频 | 1.07秒/9秒音频 |
| 输出音质 | 44kHz立体声 | 44kHz单声道 | 44kHz立体声 |
| 语义一致性(CLAP) | 0.47 | 0.40 | 0.43 |
| 时序同步性(DeSync) | 0.41 | 0.46 | 0.55 |
| 空间准确性(CRW) | 7.72 | — | 13.47 |
| 美学质量(MOS-Q) | 4.21 | 3.95 | 4.05 |
PrismAudio的应用场景
-
影视后期:为电影、纪录片、预告片自动生成环境音效,替代传统拟音工作,降低后期制作成本和时间。
-
短视频创作:为Vlog、美食、旅行等无声视频快速配上氛围音,增强ASMR和治愈类内容的沉浸感与传播效果。
-
游戏开发:为过场动画和CG宣传片生成动态音效,根据森林、城市、战场等场景实时匹配环境音,减少音效师重复劳动。
-
广告营销:为产品展示视频自动添加操作音效,支持快速迭代多版本音轨,提升广告测试效率和创意灵活性。
-
教育培训:为教学视频和操作演示补充提示音与背景音,丰富多媒体课件的听觉体验,提高学习专注度和信息吸收率。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号