PrismAudio – 阿里通义推出的视频生成音频框架

AI项目 2026-03-24

PrismAudio是什么

PrismAudio 是阿里通义实验室推出的视频生成音频（Video-to-Audio）框架，可为无声视频自动配上环境音效。模型首创”分解式思维链”技术，让模型先思考声音内容、时机、质感、空间位置，再生成音频，引入四位”老师”（语义、时序、美学、空间）多维打分优化。模型仅5.18亿参数，生成9秒音频仅需0.63秒，性能全面超越现有方法，现已被ICLR 2026收录。

PrismAudio

PrismAudio的主要功能

视频转音频：模型能为无声视频自动生成与画面匹配的环境音效（如马蹄声、风雨声等）。
语义对齐：模型能确保生成的声音内容与视频中的物体、动作准确对应，避免音画不符。
时序同步：支持精准控制声音与视觉事件的发生时机，实现严丝合缝的同步效果。
美学优化：模型生成自然、有层次感、无电子感的高质量音频，提升听觉体验。
空间定位：支持立体声输出，根据画面中声源位置自动调整左右声道，实现听声辨位。
思维链推理：采用”先思考、再发声”的分解式思维链，让生成过程可解释、可控制。

PrismAudio的关键信息和使用要求

开发方：阿里通义实验室（Tongyi Fun Team）
技术类型：视频生成音频（V2A）框架
核心创新：分解式思维链 + 多维度强化学习
模型规模：5.18 亿参数
输出规格：44kHz 立体声
推理速度：生成 9 秒音频仅需 0.63 秒
输入格式：无声视频（支持常见视频格式）
内容限制：仅生成环境音/音效，不支持人物配音
可选输入：可搭配文本描述辅助生成（非必须）
硬件需求：支持 GPU 加速，也可 CPU 运行

PrismAudio的核心优势

四维协同优化：首创分解式思维链，将语义、时序、美学、空间四个维度独立建模并协同优化，避免传统模型”顾此失彼”的弊端，实现音画高度统一。
先思考再发声：突破端到端黑箱生成模式，模型先输出结构化推理文本（声音内容、时机、质感、方位），再生成音频，过程可解释、可控制。
高效轻量：仅5.18亿参数，生成9秒音频仅需0.63秒，速度比同类模型快近一倍，更适合实时应用场景。
复杂场景鲁棒：在自建的AudioCanvas复杂场景基准上表现远超现有方法，多事件、多声源场景下仍能保持稳定输出。

如何使用PrismAudio

在线体验（推荐新手）：访问 Hugging Face 在线体验Demo，上传无声视频，可选输入文本描述辅助生成，AI自动生成音频文件。
本地部署：从 GitHub 或 Hugging Face 下载开源代码与模型权重，安装依赖环境后加载预训练模型，输入视频路径调用推理接口生成音频，支持自定义调整思维链参数或奖励权重。

PrismAudio的项目地址

项目官网：https://prismaudio-project.github.io/
GitHub仓库：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
HuggingFace模型库：https://huggingface.co/FunAudioLLM/PrismAudio
arXiv技术论文：https://arxiv.org/pdf/2511.18833
在线体验Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

PrismAudio的同类竞品对比

对比维度	PrismAudio	MMAudio	ThinkSound
开发方	阿里通义实验室	新加坡南洋理工大学等	阿里通义实验室
核心方法	分解式思维链 + 多维度强化学习	多模态Transformer	单体思维链
参数量	5.18亿	约10亿	数十亿
推理速度	0.63秒/9秒音频	1.30秒/9秒音频	1.07秒/9秒音频
输出音质	44kHz立体声	44kHz单声道	44kHz立体声
语义一致性(CLAP)	0.47	0.40	0.43
时序同步性(DeSync)	0.41	0.46	0.55
空间准确性(CRW)	7.72	—	13.47
美学质量(MOS-Q)	4.21	3.95	4.05

PrismAudio的应用场景

影视后期：为电影、纪录片、预告片自动生成环境音效，替代传统拟音工作，降低后期制作成本和时间。
短视频创作：为Vlog、美食、旅行等无声视频快速配上氛围音，增强ASMR和治愈类内容的沉浸感与传播效果。
游戏开发：为过场动画和CG宣传片生成动态音效，根据森林、城市、战场等场景实时匹配环境音，减少音效师重复劳动。
广告营销：为产品展示视频自动添加操作音效，支持快速迭代多版本音轨，提升广告测试效率和创意灵活性。
教育培训：为教学视频和操作演示补充提示音与背景音，丰富多媒体课件的听觉体验，提高学习专注度和信息吸收率。

©️版权声明：若无特殊声明，本站所有文章版权均归AI工具集原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

相关文章

AI工具箱收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明区小号债务重组个人债务重组债务重组优化

Copyright © AI导航爱途网络粤ICP备15040630号-11

粤公网安备 123456789号