SoulX-LiveAct – Soul App开源的实时数字人生成框架

AI项目 2026-03-24

SoulX-LiveAct是什么

SoulX-LiveAct 是Soul App AI团队开源的实时数字人生成框架,解决AR扩散模型流式生成的稳定性难题。核心创新包括,Neighbor Forcing技术对齐相邻帧扩散步数确保画面一致;ConvKV Memory机制实现恒定显存占用,支持小时级甚至无限时长生成。仅需双卡H100/H200可实现20 FPS实时推理,延迟仅0.94秒。SoulX-LiveAct 适用直播、虚拟客服、播客等场景,标志着开源数字人技术进入可落地生产环境的新阶段。

SoulX-LiveAct

SoulX-LiveAct的主要功能

  • 实时人像动画生成:根据音频和文本条件实时生成高保真数字人视频,实现精准的唇同步、自然的面部表情和协调的肢体动作。
  • 小时级/无限时长视频:通过恒定显存机制突破传统模型的时长限制,可稳定生成小时级甚至无限时长的连续视频流。
  • 情感与动作可控编辑:支持通过文本指令灵活控制头部姿态、手势动作和面部表情,如心形手势、捂脸、大笑等,同时保持身份一致和唇同步准确。
  • 低延迟流式推理:仅需双卡H100/H200即可实现20 FPS实时输出,端到端延迟仅0.94秒,满足直播、虚拟客服等实时交互场景需求。

SoulX-LiveAct的技术原理

  • Neighbor Forcing:传统AR扩散模型在相邻帧使用不同扩散步数,导致分布不一致和画面抖动。Neighbor Forcing强制相邻帧在相同扩散步下生成,将前一帧的潜变量作为当前帧的条件输入,使生成过程处于一致的噪声空间,消除跨步对齐问题,实现稳定的时序连贯性。
  • ConvKV Memory:长视频生成的显存瓶颈源于KV缓存随帧数线性增长。ConvKV Memory采用”短期精确+长期压缩”策略:保留最近帧的高精度KV缓存确保连贯性,对历史帧通过1D卷积(压缩比5:1)压缩为固定长度记忆,重置RoPE位置编码。
  • 端到端性能优化:系统采用自适应FP8精度降低计算量,结合序列并行充分利用多卡算力,通过算子融合减少内存访问开销。三管齐下实现20 FPS实时推理,每帧仅需27.2 TFLOPs,较同类方法降低30%-45%计算成本。

SoulX-LiveAct的关键信息和使用要求

  • 项目定位:Soul App AI Lab开源的实时交互数字人生成框架,解决AR扩散模型在流式生成中的稳定性与时长限制问题,支持小时级甚至无限时长视频合成。
  • 核心突破 – Neighbor Forcing:相同扩散步对齐相邻帧,消除分布不一致导致的画面抖动。
  • 核心突破 – ConvKV Memory:恒定显存占用,突破时长瓶颈。
  • 核心突破 – 实时性能:20 FPS流式推理,延迟0.94秒。
  • 实测表现 – 分辨率:512×512 或 720×416。
  • 实测表现 – 帧率:20 FPS。
  • 实测表现 – 延迟:0.94秒。
  • 实测表现 – 计算成本:27.2 TFLOPs/帧。
  • 推荐配置 – GPU:2× NVIDIA H100 或 H200。
  • 推荐配置 – 环境:Python 3.10,CUDA支持。
  • 推荐配置 – 关键依赖:SageAttention(FP8注意力)、vLLM(FP8 GEMM)、LightVAE。
  • 消费级显卡 – 适用型号:RTX 4090/5090 单卡。

SoulX-LiveAct的核心优势

  • Neighbor Forcing 技术:通过相同扩散步对齐相邻帧,消除传统AR扩散模型中分布不一致导致的画面抖动,确保生成过程稳定连贯。
  • ConvKV Memory 机制:采用”短期精确+长期压缩”策略,将历史KV缓存压缩为固定长度,实现恒定显存占用,突破时长瓶颈,支持小时级甚至无限时长生成。
  • 实时流式推理:模型仅需双卡H100/H200即可实现20 FPS实时输出,端到端延迟仅0.94秒,满足直播等实时交互场景需求。
  • 低计算成本:每帧仅需27.2 TFLOPs,较同类方法降低30%-45%计算成本,兼顾高质量与高效率。
  • 长时一致性:小时级视频中保持人物身份稳定、关键细节不丢失、口型精准同步,避免身份漂移和配饰忽隐忽现等问题。

如何使用SoulX-LiveAct

  • 环境准备:使用conda创建名为liveact的Python 3.10环境并激活。
  • 安装基础依赖:通过pip安装requirements.txt中的依赖,并通过conda安装sox音频处理工具。
  • 安装SageAttention:克隆SageAttention仓库并切换到v2.2.0版本,运行setup.py安装来启用FP8注意力加速。
  • 安装QKV算子融合版本(可选):克隆SageAttentionFusion仓库进行安装,进一步提升算子融合性能。
  • 安装vLLM:通过pip安装vLLM 0.11.0版本,提供FP8 GEMM矩阵运算支持。
  • 安装LightVAE:克隆LightX2V仓库并运行setup_vae.py安装视频编解码组件。
  • 下载模型权重:从Hugging Face或ModelScope下载SoulX-LiveAct模型文件到本地目录。
  • 下载音频编码器:获取chinese-wav2vec2-base音频特征提取模型。
  • 双卡H100/H200实时推理:设置环境变量并运行torchrun启动双卡分布式推理,指定模型路径、音频编码器路径、输入JSON文件,启用20 FPS流式音频生成。
  • 支持动作/表情编辑的推理:用512×512分辨率和24 FPS帧率,加载包含编辑指令的example_edit.json文件实现可控表情动作生成。
  • RTX 4090/5090消费级显卡运行:单卡模式下启用FP8 KV缓存、显存块卸载和T5文本编码器CPU offload,在消费级显卡上降低显存占用运行。
  • 准备输入数据:编辑JSON配置文件指定参考图像路径、驱动音频路径、情感动作文本提示等生成参数。
  • 启动实时流式生成:执行推理命令后,系统根据音频输入实时输出唇同步、表情动作协调的数字人视频流。

SoulX-LiveAct的项目地址

  • 项目官网:https://soul-ailab.github.io/soulx-liveact/
  • GitHub仓库:https://github.com/Soul-AILab/SoulX-LiveAct
  • HuggingFace模型库:https://huggingface.co/Soul-AILab/LiveAct
  • arXiv技术论文:https://arxiv.org/pdf/2603.11746

SoulX-LiveAct的同类竞品对比

对比维度 InfiniteTalk Live-Avatar OmniAvatar SoulX-LiveAct
推理效率
吞吐量 25 FPS 20 FPS 20 FPS
延迟 3.20 s 2.89 s 0.94 s
GPU数量 8 5 2
每帧TFLOPs 50.2 39.1 27.2
长时生成能力
显存占用 线性增长 线性增长 线性增长 恒定
最大时长 受显存限制 受显存限制 受显存限制 无限
身份一致性 后期漂移 逐渐漂移 严重漂移 稳定保持
口型同步 后期失配 逐步失配 失配严重 持续精准
配饰/纹理一致性 忽隐忽现 细节丢失 严重丢失 持续稳定

SoulX-LiveAct的应用场景

  • 直播场景:模型能实时生成数字人主播,支持7×24小时不间断直播,口型与语音精准同步,表情自然丰富,适用电商带货、娱乐直播、知识分享等场景。
  • 虚拟客服:模型能提供全天候在线服务,数字人形象稳定一致,支持长时间对话交互,降低企业人力成本,提升服务体验。
  • 播客/对话节目:用于双人对谈、访谈节目制作,实时生成自然的面部表情和肢体语言,嘉宾形象可控可编辑,快速产出高质量内容。
  • FaceTime/视频通话:可用于虚拟社交、在线教育、远程会议等B端场景,延迟低至0.94秒,交互流畅自然。
<!-- Remove item from normal navigation flow, only available via hotkey -->
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章