Yume1.5 – 上海AI Lab联合复旦开源的交互式世界生成模型
Yume1.5是什么
Yume1.5 是上海人工智能实验室和复旦大学等推出的交互式世界生成模型,能从单张图像或文本提示生成逼真、连续且可探索的虚拟世界。模型通过联合时空通道建模(TSCM)和实时加速策略,解决了现有模型的通用性、延迟和文本控制能力不足的问题。Yume1.5 支持文本到世界、图像到世界及基于文本的事件编辑三种模式,支持用户通过键盘控制人物和摄像机移动。Yume1.5 在单卡 GPU 上实现 12 FPS 的实时渲染,显著提升交互性能,为虚拟环境和模拟系统提供新的可能性。

Yume1.5的主要功能
- 文本到世界(Text-to-World):支持用户通过输入文本描述生成对应的虚拟世界。
- 图像到世界(Image-to-World):以单张静态图像为基础,生成一个动态、可探索的虚拟世界。
- 基于文本的事件编辑:用户可通过文本指令触发特定事件,如“突然出现一个幽灵”或“下起暴雨”,实时观察事件在虚拟世界中的发生。
- 实时交互与控制:支持通过键盘输入(如 WASD 键控制人物移动,箭头键控制摄像机方向)实现对虚拟世界的实时探索。用户能在生成的世界中自由移动,观察不同视角下的场景变化,实现沉浸式体验。
- 长视频生成与连贯性:模型支持生成无限长的视频内容,保持时间和视觉上的连贯性。通过联合时空通道建模(TSCM)和 Self-Forcing 技术,解决长序列生成中常见的质量下降问题,确保视频在长时间生成中保持稳定。
Yume1.5的技术原理
-
联合时空通道建模(TSCM):Yume1.5 采用联合时空通道建模技术,通过时空压缩和通道压缩减少历史帧的显存占用。模型对历史帧进行时间和空间维度的下采样,同时对通道维度进行压缩,再通过线性注意力进行特征融合。这种方法在保持生成质量的同时,显著降低了计算成本,使长视频生成更加高效。
-
实时加速策略:Yume1.5 结合双向注意力蒸馏(Self-Forcing)和增强的文本嵌入方案,减少推理过程中的误差累积。模型用自身生成的历史帧作为条件进行预测,提高对误差的鲁棒性,通过优化训练过程,实现快速推理,显著提升实时交互性能。
-
文本控制事件生成:Yume1.5 将文本提示分解为“事件描述”和“动作描述”,分别处理降低计算开销。通过混合数据集训练策略,模型能根据文本指令触发特定事件,实现基于文本的事件生成能力,增强虚拟世界的交互性和动态性。
-
系统优化与交替训练范式:Yume1.5 采用混合数据集训练策略,结合交替训练范式,同时实现世界生成和编辑能力。模型在训练过程中交替处理文本到视频和图像到视频任务,提升在不同任务上的综合性能,为复杂现实场景的生成提供更强大的支持。
Yume1.5的项目地址
- 项目官网:https://stdstu12.github.io/YUME-Project/
- GitHub仓库:https://github.com/stdstu12/YUME
- HuggingFace模型库:https://huggingface.co/stdstu123/Yume-5B-720P
- arXiv技术论文:https://arxiv.org/pdf/2512.22096
Yume1.5的应用场景
- 虚拟现实与增强现实(VR/AR):Yume1.5 能生成沉浸式虚拟世界,支持用户通过 VR/AR 设备自由探索和交互,适用虚拟旅游、教育和娱乐体验。
- 游戏开发:Yume1.5 能为游戏开发者实时生成和编辑动态游戏场景,支持文本指令触发特定事件,提升游戏的多样性和可玩性。
- 影视制作:模型可用于影视后期快速生成虚拟场景和特效,通过文本描述生成特定环境,降低制作成本和时间。
- 建筑设计与城市规划:Yume1.5 能根据设计图纸或文本描述生成动态城市环境,帮助建筑师和规划师进行虚拟漫游和方案评估。
- 教育:Yume1.5 能生成历史场景、科学实验环境等虚拟内容,为学生提供沉浸式学习体验。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号