InstanceAssemble – 小红书联合复旦推出的图像生成框架
InstanceAssemble是什么
InstanceAssemble 是小红书与复旦大学联合推出的轻量级的布局到图像生成框架。框架通过创新的“实例组装注意力”机制,实现从简单到复杂、从稀疏到密集布局的精准图像生成。用户只需提供物体的边界框位置和内容描述,AI 能在对应位置生成符合语义的图像。InstanceAssemble 基于扩散变换器架构,采用轻量级适配方式,仅需少量额外参数能适配主流模型,大幅降低使用门槛。

InstanceAssemble的主要功能
-
精准布局控制:通过指定每个物体的位置(边界框)和内容描述,让 AI 在对应位置生成符合语义的图像内容。
-
从简单到复杂的布局生成:对简单的几个物体和复杂、密集的场景,InstanceAssemble 能保持高精度的布局对齐和语义一致性。
-
多模态内容控制:支持通过文本描述、参考图像、深度图、边缘图等多种模态来定义每个实例的内容,进一步提升生成图像的准确性和细节表现。
-
轻量级适配:无需重新训练整个模型,仅通过少量额外参数(如适配 Stable Diffusion 3-Medium 模型仅需约 3.46% 的额外参数),适配多种主流扩散模型,降低使用门槛。
-
强大的泛化能力:在训练时仅使用稀疏布局(≤10 个实例),能在密集布局(≥10 个实例)上保持稳健性能,适应不同复杂度的布局条件。
InstanceAssemble的技术原理
-
扩散模型基础:InstanceAssemble 基于当前主流的扩散变换器架构(如 Multimodal Diffusion Transformer, MMDiT),用扩散模型的强大生成能力,通过逐步去噪的过程生成高质量图像。
-
实例组装注意力机制:
-
布局编码器(Layout Encoder):将用户提供的布局条件(如边界框、文本描述等)编码为实例令牌(instance tokens)。对于每个实例,结合其位置信息(通过 DenseSample 增强)和内容描述(文本或视觉内容),生成对应的实例令牌。
-
组装注意力模块(Assemble-Attn):在生成过程中,将图像令牌(image tokens)与实例令牌进行交互。对于每个实例,仅关注边界框内的图像区域,通过注意力机制更新区域特征。通过加权组装的方式将更新后的特征融合到整体图像中,确保每个实例的布局和语义一致性。
-
级联结构:采用级联机制,通过基础的 MMDiT 模型处理全局文本提示和图像特征,再通过 Assemble-MMDiT 模块处理实例布局条件,在保持全局生成质量的同时实现精准布局控制。
-
-
轻量级适配(LoRA):为高效适配现有扩散模型,InstanceAssemble 使用低秩适配(LoRA)技术,仅在注意力模块中引入少量可训练参数(如低秩矩阵),在不改变基础模型能力的前提下,实现布局控制功能。
-
评估与基准测试:为更准确地衡量布局与图像的匹配程度,InstanceAssemble 提出“布局锚定分数”(Layout Grounding Score, LGS)评估指标,创建了包含 5000 张图像和 90000 个实例的“DenseLayout”基准测试集,用于评估复杂布局条件下的生成性能。
InstanceAssemble的项目地址
- GitHub仓库:https://github.com/FireRedTeam/InstanceAssemble
- arXiv技术论文:https://arxiv.org/pdf/2509.16691
InstanceAssemble的应用场景
-
设计与广告:帮助设计师和广告公司快速生成符合特定布局和风格的设计草图或广告画面,精准控制元素位置和内容。
-
内容创作:为内容创作者提供高质量图像生成工具,用于社交媒体、视频制作等,提升内容吸引力和专业性。
-
游戏开发:框架能快速生成游戏场景和角色装备布局,助力游戏开发者高效设计逼真的背景和关卡。
-
教育与培训:框架能生成教学材料和虚拟实验室场景,帮助教师更直观地传达知识,提升教学效果。
-
建筑设计:辅助室内设计师和建筑师生成室内空间和建筑外观的布局图与效果图,优化设计方案。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。
粤公网安备 123456789号