SoulX-LiveAct – Soul App开源的实时数字人生成框架
SoulX-LiveAct是什么
SoulX-LiveAct 是Soul App AI团队开源的实时数字人生成框架,解决AR扩散模型流式生成的稳定性难题。核心创新包括,Neighbor Forcing技术对齐相邻帧扩散步数确保画面一致;ConvKV Memory机制实现恒定显存占用,支持小时级甚至无限时长生成。仅需双卡H100/H200可实现20 FPS实时推理,延迟仅0.94秒。SoulX-LiveAct 适用直播、虚拟客服、播客等场景,标志着开源数字人技术进入可落地生产环境的新阶段。

SoulX-LiveAct的主要功能
- 实时人像动画生成:根据音频和文本条件实时生成高保真数字人视频,实现精准的唇同步、自然的面部表情和协调的肢体动作。
- 小时级/无限时长视频:通过恒定显存机制突破传统模型的时长限制,可稳定生成小时级甚至无限时长的连续视频流。
- 情感与动作可控编辑:支持通过文本指令灵活控制头部姿态、手势动作和面部表情,如心形手势、捂脸、大笑等,同时保持身份一致和唇同步准确。
- 低延迟流式推理:仅需双卡H100/H200即可实现20 FPS实时输出,端到端延迟仅0.94秒,满足直播、虚拟客服等实时交互场景需求。
SoulX-LiveAct的技术原理
- Neighbor Forcing:传统AR扩散模型在相邻帧使用不同扩散步数,导致分布不一致和画面抖动。Neighbor Forcing强制相邻帧在相同扩散步下生成,将前一帧的潜变量作为当前帧的条件输入,使生成过程处于一致的噪声空间,消除跨步对齐问题,实现稳定的时序连贯性。
- ConvKV Memory:长视频生成的显存瓶颈源于KV缓存随帧数线性增长。ConvKV Memory采用”短期精确+长期压缩”策略:保留最近帧的高精度KV缓存确保连贯性,对历史帧通过1D卷积(压缩比5:1)压缩为固定长度记忆,重置RoPE位置编码。
- 端到端性能优化:系统采用自适应FP8精度降低计算量,结合序列并行充分利用多卡算力,通过算子融合减少内存访问开销。三管齐下实现20 FPS实时推理,每帧仅需27.2 TFLOPs,较同类方法降低30%-45%计算成本。
SoulX-LiveAct的关键信息和使用要求
- 项目定位:Soul App AI Lab开源的实时交互数字人生成框架,解决AR扩散模型在流式生成中的稳定性与时长限制问题,支持小时级甚至无限时长视频合成。
- 核心突破 – Neighbor Forcing:相同扩散步对齐相邻帧,消除分布不一致导致的画面抖动。
- 核心突破 – ConvKV Memory:恒定显存占用,突破时长瓶颈。
- 核心突破 – 实时性能:20 FPS流式推理,延迟0.94秒。
- 实测表现 – 分辨率:512×512 或 720×416。
- 实测表现 – 帧率:20 FPS。
- 实测表现 – 延迟:0.94秒。
- 实测表现 – 计算成本:27.2 TFLOPs/帧。
- 推荐配置 – GPU:2× NVIDIA H100 或 H200。
- 推荐配置 – 环境:Python 3.10,CUDA支持。
- 推荐配置 – 关键依赖:SageAttention(FP8注意力)、vLLM(FP8 GEMM)、LightVAE。
- 消费级显卡 – 适用型号:RTX 4090/5090 单卡。
SoulX-LiveAct的核心优势
- Neighbor Forcing 技术:通过相同扩散步对齐相邻帧,消除传统AR扩散模型中分布不一致导致的画面抖动,确保生成过程稳定连贯。
- ConvKV Memory 机制:采用”短期精确+长期压缩”策略,将历史KV缓存压缩为固定长度,实现恒定显存占用,突破时长瓶颈,支持小时级甚至无限时长生成。
- 实时流式推理:模型仅需双卡H100/H200即可实现20 FPS实时输出,端到端延迟仅0.94秒,满足直播等实时交互场景需求。
- 低计算成本:每帧仅需27.2 TFLOPs,较同类方法降低30%-45%计算成本,兼顾高质量与高效率。
- 长时一致性:小时级视频中保持人物身份稳定、关键细节不丢失、口型精准同步,避免身份漂移和配饰忽隐忽现等问题。
如何使用SoulX-LiveAct
- 环境准备:使用conda创建名为liveact的Python 3.10环境并激活。
- 安装基础依赖:通过pip安装requirements.txt中的依赖,并通过conda安装sox音频处理工具。
- 安装SageAttention:克隆SageAttention仓库并切换到v2.2.0版本,运行setup.py安装来启用FP8注意力加速。
- 安装QKV算子融合版本(可选):克隆SageAttentionFusion仓库进行安装,进一步提升算子融合性能。
- 安装vLLM:通过pip安装vLLM 0.11.0版本,提供FP8 GEMM矩阵运算支持。
- 安装LightVAE:克隆LightX2V仓库并运行setup_vae.py安装视频编解码组件。
- 下载模型权重:从Hugging Face或ModelScope下载SoulX-LiveAct模型文件到本地目录。
- 下载音频编码器:获取chinese-wav2vec2-base音频特征提取模型。
- 双卡H100/H200实时推理:设置环境变量并运行torchrun启动双卡分布式推理,指定模型路径、音频编码器路径、输入JSON文件,启用20 FPS流式音频生成。
- 支持动作/表情编辑的推理:用512×512分辨率和24 FPS帧率,加载包含编辑指令的example_edit.json文件实现可控表情动作生成。
- RTX 4090/5090消费级显卡运行:单卡模式下启用FP8 KV缓存、显存块卸载和T5文本编码器CPU offload,在消费级显卡上降低显存占用运行。
- 准备输入数据:编辑JSON配置文件指定参考图像路径、驱动音频路径、情感动作文本提示等生成参数。
- 启动实时流式生成:执行推理命令后,系统根据音频输入实时输出唇同步、表情动作协调的数字人视频流。
SoulX-LiveAct的项目地址
- 项目官网:https://soul-ailab.github.io/soulx-liveact/
- GitHub仓库:https://github.com/Soul-AILab/SoulX-LiveAct
- HuggingFace模型库:https://huggingface.co/Soul-AILab/LiveAct
- arXiv技术论文:https://arxiv.org/pdf/2603.11746
SoulX-LiveAct的同类竞品对比
| 对比维度 | InfiniteTalk | Live-Avatar | OmniAvatar | SoulX-LiveAct |
|---|---|---|---|---|
| 推理效率 | ||||
| 吞吐量 | 25 FPS | 20 FPS | – | 20 FPS |
| 延迟 | 3.20 s | 2.89 s | – | 0.94 s |
| GPU数量 | 8 | 5 | – | 2 |
| 每帧TFLOPs | 50.2 | 39.1 | – | 27.2 |
| 长时生成能力 | ||||
| 显存占用 | 线性增长 | 线性增长 | 线性增长 | 恒定 |
| 最大时长 | 受显存限制 | 受显存限制 | 受显存限制 | 无限 |
| 身份一致性 | 后期漂移 | 逐渐漂移 | 严重漂移 | 稳定保持 |
| 口型同步 | 后期失配 | 逐步失配 | 失配严重 | 持续精准 |
| 配饰/纹理一致性 | 忽隐忽现 | 细节丢失 | 严重丢失 | 持续稳定 |
SoulX-LiveAct的应用场景
- 直播场景:模型能实时生成数字人主播,支持7×24小时不间断直播,口型与语音精准同步,表情自然丰富,适用电商带货、娱乐直播、知识分享等场景。
- 虚拟客服:模型能提供全天候在线服务,数字人形象稳定一致,支持长时间对话交互,降低企业人力成本,提升服务体验。
- 播客/对话节目:用于双人对谈、访谈节目制作,实时生成自然的面部表情和肢体语言,嘉宾形象可控可编辑,快速产出高质量内容。
- FaceTime/视频通话:可用于虚拟社交、在线教育、远程会议等B端场景,延迟低至0.94秒,交互流畅自然。
<!-- Remove item from normal navigation flow, only available via hotkey -->
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号