北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成-新闻-人工智能全球合作联盟

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成

#新闻 ·2025-01-07

本文经AIGC Studio公众号授权转载，转载请联系出处。

北航提出了第一个多功能的即插即用适配器MV-Adapter。可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成，并展示了出色的适应性和多功能性。它还能扩展到任意视角生成，为更广泛的应用打开了新大门。

下图展示的第1行显示了将 MV-Adapter 与个性化T2I、精炼的少步T2I 和 ControlNet 集成的结果，展示了其适应性。第 2 行显示了各种控制信号下的结果，包括使用文本或图像输入的视图引导或几何引导生成，展示了其多功能性。

论文介绍

MV-Adapter：轻松实现多视图一致图像生成

摘要

现有的多视图图像生成方法通常会对预训练的文本转图像 (T2I) 模型进行侵入性修改并需要完全微调，会导致以下问题：

计算成本高，尤其是对于大型基础模型和高分辨率图像。
由于优化困难和高质量 3D 数据稀缺而导致图像质量下降。

论文提出了第一个基于适配器的多视图图像生成解决方案，并介绍了 MV-Adapter，这是一种多功能的即插即用适配器，可在不改变原始网络结构或特征空间的情况下增强 T2I 模型及其衍生产品。通过更新更少的参数，MV-Adapter 可以实现高效训练并保留预训练模型中嵌入的先验知识，从而降低过度拟合风险。

为了在适配器中有效地对 3D 几何知识进行建模，论文引入了创新设计，包括重复的自注意力层和并行注意力架构，使适配器能够继承预训练模型的强大先验来对新颖的 3D 知识进行建模。此外还提出了一个统一的条件编码器，无缝集成了相机参数和几何信息，促进了基于文本和图像的 3D 生成和纹理化等应用。

MV-Adapter 在稳定扩散 XL (SDXL) 上实现了 768 分辨率的多视图生成，并展示了适应性和多功能性。它还可以扩展到任意视图生成，从而实现更广泛的应用。MV-Adapter 为多视图图像生成设定了新的质量标准，并因其效率、适应性和多功能性开辟了新的可能性。