daVinci-MagiHuman – Sand.ai等开源的音视频生成模型
daVinci-MagiHuman是什么
daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Transformer 架构,统一建模文本、视频、音频三种模态,无需跨注意力机制。模型擅长人物为中心的生成,支持中英日韩德法等多语言,在单张 H100 上 2 秒即可生成 5 秒 256p 视频。相比 Ovi 1.1 和 LTX 2.3 分别取得 80% 和 60.9% 的胜率,代码、模型权重及在线 Demo 已全面开源。

daVinci-MagiHuman的主要功能
-
音视频联合生成:支持同步生成带自然语音和口型同步的人物视频,实现真正的音画一体输出。
-
多语言支持:支持中文(普通话与粤语)、英文、日文、韩文、德文、法文等多种语言的语音生成。
-
人像演绎生成:专注于人物中心场景,生成富有表现力的面部表情、肢体动作与情感传达。
-
极速推理:支持单张 H100 GPU 上 2 秒生成 5 秒 256p 视频,满足实时交互需求。
-
高分辨率输出:通过隐空间超分技术,可扩展至 540p 或 1080p 高清视频。
daVinci-MagiHuman的技术原理
- 单流统一架构:daVinci-MagiHuman 采用单流 Transformer 架构,将文本、视频、音频统一放入同一个 150 亿参数、40 层的去噪网络中,用纯自注意力机制完成联合建模,彻底摒弃跨注意力或模态专属分支。架构上采用”三明治”设计,首尾少数层保留模态相关参数,中间主干网络共享参数,在模态特化与深层融合之间取得平衡;同时引入无显式 timestep 条件注入、Attention-Head 门控等机制提升训练稳定性与表达能力。
- 隐空间超分辨率:模型采用两阶段流水线:底模先生成低分辨率音视频隐变量,再通过隐空间超分直接在 latent space 中完成高分辨率细化,避免额外的 VAE 编解码开销,音频隐变量会继续作为输入进入超分模型,保持唇形同步效果。
- 推理加速优化:推理阶段使用轻量级 Turbo VAE 解码器降低延迟,集成自研 MagiCompiler 进行全图编译优化,通过跨层算子融合带来约 1.2 倍加速;结合 DMD-2 蒸馏技术实现仅需 8 步去噪的高质量生成。
daVinci-MagiHuman的关键信息和使用要求
-
模型规模:150 亿参数,40 层 Transformer
-
架构特点:单流统一架构,纯自注意力,无跨注意力
-
生成能力:支持文本/图像驱动的人像音视频联合生成
-
支持语言:中文(普通话、粤语)、英文、日文、韩文、德文、法文
-
推理速度:单张 H100 上 2 秒生成 5 秒 256p 视频,38 秒生成 1080p 视频
-
性能表现:对比 Ovi 1.1 胜率 80.0%,对比 LTX 2.3 胜率 60.9%
-
硬件:NVIDIA GPU(推荐 H100),需支持 CUDA
-
软件环境:Python 3.12,PyTorch 2.9.0,CUDA 12.x
-
依赖组件:Flash Attention(Hopper 架构)、MagiCompiler(自研编译器)、Turbo VAE
daVinci-MagiHuman的核心优势
-
架构简洁高效:采用单流 Transformer 统一建模文本、视频、音频,告别跨注意力与模态分支,降低系统复杂度,训练与推理优化更直接。
-
音画精准同步:原生联合建模确保语音、口型、表情、动作高度协调,避免传统方案音视频语义对齐不足的问题。
-
生成速度极快:支持单张 H100 上 2 秒生成 5 秒 256p 视频,结合隐空间超分、Turbo VAE、全图编译与模型蒸馏,实现实时级推理。
-
多语言泛化强:支持中英日韩德法及粤语等多种语言,满足全球化内容生成需求。
-
人像表现力突出:专注人物中心场景,生成富有情感的面部表情、自然语音与逼真肢体动作,达到演绎级质量。
如何使用daVinci-MagiHuman
-
方式一:Docker
-
拉取预构建镜像:
docker pull sandai/magi-human:latest。 -
启动容器并挂载本地目录:
docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash。 -
进入容器后安装 MagiCompiler 并克隆 daVinci-MagiHuman 代码仓库。
-
从 HuggingFace 下载模型权重并更新配置文件中的路径。
-
运行对应脚本开始生成。
-
-
方式二:Conda 手动安装
-
创建 Python 3.12 环境并激活:
conda create -n davinci python=3.12 && conda activate davinci。 -
安装 PyTorch 2.9.0 及相关组件。
-
编译安装 Flash Attention(Hopper 架构版本)。
-
克隆并安装 MagiCompiler 与 daVinci-MagiHuman 项目依赖。
-
下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型及项目权重。
-
更新配置文件中的模型路径后运行生成脚本。
-
-
运行脚本
-
基础 256p 生成:执行
bash example/base/run.sh。 -
蒸馏快速版 256p(8 步去噪,无 CFG):执行
bash example/distill/run.sh。 -
超分至 540p:执行
bash example/sr_540p/run.sh。 -
超分至 1080p:执行
bash example/sr_1080p/run.sh。
-
daVinci-MagiHuman的项目地址
- GitHub仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman
- HuggingFace模型库:https://huggingface.co/GAIR/daVinci-MagiHuman
- arXiv技术论文:https://arxiv.org/pdf/2603.21986
- 在线体验Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman
daVinci-MagiHuman的同类竞品对比
| 对比项 | daVinci-MagiHuman | LTX 2.3 | Ovi 1.1 |
|---|---|---|---|
| 研发方 | 上海创智学院 GAIR + Sand.ai | Lightricks | Ovi Labs |
| 架构设计 | 单流 Transformer,无跨注意力 | 多流或扩散架构 | 多流架构 |
| 模型规模 | 150 亿参数 | 未公开 | 未公开 |
| 音视频生成 | 原生联合建模,同步生成 | 支持 | 支持 |
| 生成速度 | H100 上 2 秒/5 秒 256p | 较慢 | 较慢 |
| 视觉质量 | 4.80 | 4.76 | 4.73 |
| 文本对齐 | 4.18 | 4.12 | 4.10 |
| 物理一致性 | 4.52 | 4.56 | 4.41 |
| 音频质量(WER) | 14.60% | 19.23% | 40.45% |
| 人工评测胜率 | 基准 | 60.9% 胜率 | 80.0% 胜率 |
| 开源程度 | 完整开源(代码+权重+工具链) | 部分开源 | 部分开源 |
| 多语言支持 | 中英日韩德法+粤语 | 有限 | 有限 |
daVinci-MagiHuman的应用场景
-
AI 数字人主播:自动生成口型精准、表情自然的带货或新闻播报视频,支持多语言适配不同地区市场。
-
虚拟客服与助手:打造具备真实语音交互能力的智能客服形象,提升服务温度与用户体验。
-
影视与广告制作:快速生成人物特写镜头、配音小样或分镜预演,降低前期制作成本与时间。
-
教育与培训内容:生成多语言教学视频,让虚拟讲师以生动表情和清晰口型讲解知识点。
-
游戏与元宇宙角色:为虚拟角色赋予实时语音驱动能力,实现玩家与 NPC 的自然对话互动。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号