daVinci-MagiHuman – Sand.ai等开源的音视频生成模型

AI项目 2026-03-26

daVinci-MagiHuman是什么

daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Transformer 架构,统一建模文本、视频、音频三种模态,无需跨注意力机制。模型擅长人物为中心的生成,支持中英日韩德法等多语言,在单张 H100 上 2 秒即可生成 5 秒 256p 视频。相比 Ovi 1.1 和 LTX 2.3 分别取得 80% 和 60.9% 的胜率,代码、模型权重及在线 Demo 已全面开源。

daVinci-MagiHuman

daVinci-MagiHuman的主要功能

  • 音视频联合生成:支持同步生成带自然语音和口型同步的人物视频,实现真正的音画一体输出。
  • 多语言支持:支持中文(普通话与粤语)、英文、日文、韩文、德文、法文等多种语言的语音生成。
  • 人像演绎生成:专注于人物中心场景,生成富有表现力的面部表情、肢体动作与情感传达。
  • 极速推理:支持单张 H100 GPU 上 2 秒生成 5 秒 256p 视频,满足实时交互需求。
  • 高分辨率输出:通过隐空间超分技术,可扩展至 540p 或 1080p 高清视频。

daVinci-MagiHuman的技术原理

  • 单流统一架构:daVinci-MagiHuman 采用单流 Transformer 架构,将文本、视频、音频统一放入同一个 150 亿参数、40 层的去噪网络中,用纯自注意力机制完成联合建模,彻底摒弃跨注意力或模态专属分支。架构上采用”三明治”设计,首尾少数层保留模态相关参数,中间主干网络共享参数,在模态特化与深层融合之间取得平衡;同时引入无显式 timestep 条件注入、Attention-Head 门控等机制提升训练稳定性与表达能力。
  • 隐空间超分辨率:模型采用两阶段流水线:底模先生成低分辨率音视频隐变量,再通过隐空间超分直接在 latent space 中完成高分辨率细化,避免额外的 VAE 编解码开销,音频隐变量会继续作为输入进入超分模型,保持唇形同步效果。
  • 推理加速优化:推理阶段使用轻量级 Turbo VAE 解码器降低延迟,集成自研 MagiCompiler 进行全图编译优化,通过跨层算子融合带来约 1.2 倍加速;结合 DMD-2 蒸馏技术实现仅需 8 步去噪的高质量生成。

daVinci-MagiHuman的关键信息和使用要求

  • 模型规模:150 亿参数,40 层 Transformer
  • 架构特点:单流统一架构,纯自注意力,无跨注意力
  • 生成能力:支持文本/图像驱动的人像音视频联合生成
  • 支持语言:中文(普通话、粤语)、英文、日文、韩文、德文、法文
  • 推理速度:单张 H100 上 2 秒生成 5 秒 256p 视频,38 秒生成 1080p 视频
  • 性能表现:对比 Ovi 1.1 胜率 80.0%,对比 LTX 2.3 胜率 60.9%
  • 硬件:NVIDIA GPU(推荐 H100),需支持 CUDA
  • 软件环境:Python 3.12,PyTorch 2.9.0,CUDA 12.x
  • 依赖组件:Flash Attention(Hopper 架构)、MagiCompiler(自研编译器)、Turbo VAE

daVinci-MagiHuman的核心优势

  • 架构简洁高效:采用单流 Transformer 统一建模文本、视频、音频,告别跨注意力与模态分支,降低系统复杂度,训练与推理优化更直接。
  • 音画精准同步:原生联合建模确保语音、口型、表情、动作高度协调,避免传统方案音视频语义对齐不足的问题。
  • 生成速度极快:支持单张 H100 上 2 秒生成 5 秒 256p 视频,结合隐空间超分、Turbo VAE、全图编译与模型蒸馏,实现实时级推理。
  • 多语言泛化强:支持中英日韩德法及粤语等多种语言,满足全球化内容生成需求。
  • 人像表现力突出:专注人物中心场景,生成富有情感的面部表情、自然语音与逼真肢体动作,达到演绎级质量。

如何使用daVinci-MagiHuman

  • 方式一:Docker
    • 拉取预构建镜像:docker pull sandai/magi-human:latest
    • 启动容器并挂载本地目录:docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash
    • 进入容器后安装 MagiCompiler 并克隆 daVinci-MagiHuman 代码仓库。
    • 从 HuggingFace 下载模型权重并更新配置文件中的路径。
    • 运行对应脚本开始生成。
  • 方式二:Conda 手动安装
    • 创建 Python 3.12 环境并激活:conda create -n davinci python=3.12 && conda activate davinci
    • 安装 PyTorch 2.9.0 及相关组件。
    • 编译安装 Flash Attention(Hopper 架构版本)。
    • 克隆并安装 MagiCompiler 与 daVinci-MagiHuman 项目依赖。
    • 下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型及项目权重。
    • 更新配置文件中的模型路径后运行生成脚本。
  • 运行脚本
    • 基础 256p 生成:执行 bash example/base/run.sh
    • 蒸馏快速版 256p(8 步去噪,无 CFG):执行 bash example/distill/run.sh
    • 超分至 540p:执行 bash example/sr_540p/run.sh
    • 超分至 1080p:执行 bash example/sr_1080p/run.sh

daVinci-MagiHuman的项目地址

  • GitHub仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • HuggingFace模型库:https://huggingface.co/GAIR/daVinci-MagiHuman
  • arXiv技术论文:https://arxiv.org/pdf/2603.21986
  • 在线体验Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman的同类竞品对比

对比项 daVinci-MagiHuman LTX 2.3 Ovi 1.1
研发方 上海创智学院 GAIR + Sand.ai Lightricks Ovi Labs
架构设计 单流 Transformer,无跨注意力 多流或扩散架构 多流架构
模型规模 150 亿参数 未公开 未公开
音视频生成 原生联合建模,同步生成 支持 支持
生成速度 H100 上 2 秒/5 秒 256p 较慢 较慢
视觉质量 4.80 4.76 4.73
文本对齐 4.18 4.12 4.10
物理一致性 4.52 4.56 4.41
音频质量(WER) 14.60% 19.23% 40.45%
人工评测胜率 基准 60.9% 胜率 80.0% 胜率
开源程度 完整开源(代码+权重+工具链) 部分开源 部分开源
多语言支持 中英日韩德法+粤语 有限 有限

daVinci-MagiHuman的应用场景

  • AI 数字人主播:自动生成口型精准、表情自然的带货或新闻播报视频,支持多语言适配不同地区市场。
  • 虚拟客服与助手:打造具备真实语音交互能力的智能客服形象,提升服务温度与用户体验。
  • 影视与广告制作:快速生成人物特写镜头、配音小样或分镜预演,降低前期制作成本与时间。
  • 教育与培训内容:生成多语言教学视频,让虚拟讲师以生动表情和清晰口型讲解知识点。
  • 游戏与元宇宙角色:为虚拟角色赋予实时语音驱动能力,实现玩家与 NPC 的自然对话互动。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章