ILLUME+：华为诺亚探索新GPT-4o架构，理解生成一体模型

2025年04月07日 15:03:30 来源：机器之心Pro

　　近年来，基于大语言模型(LLM)的多模态任务处理能力取得了显著进展，特别是在将视觉信息融入语言模型方面。像 QwenVL 和 InternVL 这样的模型已经展示了在视觉理解方面的卓越表现，而以扩散模型为代表的文本到图像生成技术也不断突破，推动了统一多模态大语言模型(MLLM)的发展。这些技术的进步使得视觉理解和生成能力的无缝集成成为可能，进一步推进了视觉和语义深度融合下的人工通用智能(AGI)的探索。

　　新一代 GPT-4o 作为理解生成一体的模型，其强大的能力已经令人瞩目。它不仅在语义理解和图像生成方面展现出极高的准确性和流畅性，还特别擅长上下文感知生成(context-aware generation)和图像编辑(image editing)任务。无论是在进行高精度的图像生成，还是在复杂的图像编辑任务中，GPT-4o 都能动态理解和生成符合上下文需求的内容，极大地增强了模型的实用性和灵活性。这使得 GPT-4o 能够在多模态任务中更加高效地完成多种复杂场景下的理解与生成工作。

　　最近，华为诺亚盘古研究团队联合香港大学推出了ILLUME+，这款模型是 ILLUME 的升级版本，采用了双重视觉联合词表（DualViTok）和扩散解码器的创新设计，显著提升了语义理解和高保真图像生成能力。与当前现有的统一模型不同，ILLUME + 能够在图像理解、生成和编辑三大能力上达到优异的表现，解决了传统模型在图像纹理保持和语义对齐方面的难题。

　　ILLUME + 在处理多模态任务时，展现出强大的上下文感知能力和语义深层交互能力，能够更准确地理解和生成视觉与语言的关系。它的创新架构通过双视觉联合词表（DualViTok）将语义信息与图像细节同时保留，为图像编辑和生成任务提供了更加精细的控制能力。此外，扩散解码器的引入，不仅提升了生成图像的质量，还使得超分辨率图像生成变得更加高效，避免了传统自回归模型在高分辨率生成时的计算瓶颈。

　　而这正是目前行业所需要的一种能够同时满足理解、生成和编辑需求的统一架构。与新一代 GPT-4o 架构相比，ILLUME + 采用了类似的其官网中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的结构，在语义理解和上下文感知生成能力上达到新的高度。我们认为，ILLUME + 所展示的架构，正是未来统一大语言模型发展的方向。

　　随着我们对该架构的深入研究，ILLUME + 的 3B 模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能(比肩 7B)。ILLUME + 的优势不仅体现在单一任务的出色表现，更在于它能够灵活适应多样的应用场景，推动着多模态大语言模型向着更加智能化、可扩展的方向迈进。

　　ILLUME+ 关键技术点与模型架构

　　1. 双重视觉联合词表（DualViTok）

　　ILLUME + 的核心创新之一是双重视觉联合词表(DualViTok)，该词表通过两条分支设计，分别处理图像的语义信息和细节纹理。具体来说，语义分支利用预训练的文本对齐视觉编码器(如 QwenViT)提取高层次的语义特征，这些特征被量化为离散标记，并通过轻量级解码器进行重建。同时，像素分支则通过 MoVQGAN 类似的架构进行像素级的细节重建，保证图像细节的高保真度。

　　2. 扩散解码器（Diffusion Decoder）

　　为进一步提升生成图像的质量，ILLUME + 引入了扩散解码器。该解码器使用扩散模型进行图像生成，显著提高了图像的细节和鲁棒性。扩散解码器还能够进行高效的超分辨率生成，缓解了传统自回归生成方法在高分辨率生成时的 token 数目急剧增长带来的推理速度瓶颈。通过这种设计，ILLUME + 能够生成高分辨率图像(最高可达 1024×1024)，同时有效提高了图像的细节和质量。

　　3. 连续输入、离散输出的 MLLM 架构

　　ILLUME + 采用了统一的多模态大语言模型(MLLM)，该模型能够同时生成文本和图像，并通过共同的预测头来进行联合建模。ILLUME + 采用连续输入、离散输出的机制。在输入端，直接使用视觉连接器连接离散化层前的视觉特征到 LLM 中。输出端仍然保留统一输出头，以自回归的形式预测文本 token 与视觉 token。这种机制确保了图像输入时不会因量化过程丢失细粒度信息，保证了模型在视觉理解任务中展现了更好的稳定性和细致的语义处理能力。在生成图像时，ILLUME + 采用生成语义 token 后再生成纹理 token 的方式(Coarse-to-fine Unified Image Representation)，由于图像语义表征更容易和文本对齐，这种先语义再纹理的序列化方式，加速了文本和图像细节纹理信息的对齐，从而提升生成图像的高保真度和语义一致性。

　　4. 支持任意分辨率的渐进式训练策略

　　ILLUME + 采用渐进式的训练策略，从而使得词表、MLLM 和 Diffusion decoder 三个模块均支持动态分辨率的训练与推理。训练流程包括五个阶段，逐步增强模型能力，确保稳定性和最终性能。下图展示了我们的五个训练阶段的打开参数和每个阶段的数据分布情况。

　　Dual Vision Tokenizer Training：训练双重视觉标记化器，通过重建语义和像素信息，逐步增加输入分辨率，先训练固定 256 分辨率，再训练固定 512，最后训练 512×512 以内的任意分辨率，确保模型在不同分辨率下的稳定训练。该阶段采用了 63M 训练数据，包括自然图像，美学图像，人物肖像，文档图表类和学科类图片数据。

　　Diffusion Decoder Training（扩散解码器优化）：进一步优化图像生成质量，通过扩散模型提升生成细节，并进行图像超分辨率输出，解决自回归方法的生成高分辨率速度瓶颈。训练时，我们冻结视觉词表中的编码器和词表的权重，打开 Diffusion 的参数进行训练。为支持高分辨率，训练分为两个子阶段，即先训练像素数量在 512×512 左右的分辨率，再训练像素数量在 1024×1024 左右的分辨率。该阶段采用了 10M 与训练视觉词表相同分布的数据。

　　MLLM Stage 1: Visual Embedding Initialization：初始化 MLLM 中新增的视觉词表与视觉连接器，优化图像重建和描述任务，固定分辨率为 256×256，以获得良好的视觉表示。

　　MLLM Stage 2: Unified Image-Text Alignment：通过多模态数据训练，打开视觉适配器和语言模型，增强图像与文本的语义对齐，先训练分辨率 256×256，再提升至 512×512。

　　MLLM Stage 3: Supervised Fine-tuning：使用复杂的多任务数据进行微调，支持任意分辨率图像输入，以及高达 11 种不同长宽比的图像生成，最高像素达到 1024×1024。

　　ILLUME+（3B）实验结果

　　实验设置

　　在实验中，ILLUME + 使用 Qwen2.5(3B)作为基础大语言模型(LLM)。其 encoder 采用了预训练的 QwenVIT 语义编码器和基于 MoVQGAN 的像素编码器架构。流程上打通了昇腾训练与推理。训练过程中，使用了 256 Ascend NPUs。其中，视觉词表和 Diffusion 训练 3+3 天;3B 的 MLLM 模型，经过三个阶段的训练，总训练时间约为 13 天。

　　与 SOTA 模型的比较

　　多模态理解：在多模态理解任务中，ILLUME + 在常用的基准测试(如 POPE、MMBench、SEED 等)上表现优秀，尤其在文档相关任务中展现了优异的性能。尽管是 3B 模型，ILLUME + 在这些任务上与现有的 7B 模型如 Janus-Pro-7B 和 ILLUME-7B 相当，特别是在文档理解任务中，得益于双重编码器设计，模型在保留强大理解能力方面取得了显著优势。

　　多模态图像生成：在多模态图像生成方面，ILLUME + 在 MJHQ-30K、GenAI-bench 和 GenEval 基准测试中取得了显著成绩。在 MJHQ-30K 的 FID 分数为 6.00，达到了最先进的生成质量和多样性，在复杂文本描述生成方面获得了很好的准确度。

　　多模态图像编辑：在图像编辑任务中，ILLUME + 在 Emu Edit 基准测试中优于专门的图像编辑模型，特别是在 CLIP-T 评分上，表明其强大的理解能力增强了对编辑指令的解释能力，实现了更加精确的修改。DualViTok 设计有效提高了与原始图像的一致性，特别是在纹理信息处理上。

　　Tokenizer 的图像重建：在 ImageNet 50k 验证集上，DualViTok 在不同分辨率下的重建效果超越了多种现有的视觉标记化器，尤其在 256×256 分辨率下，展现了最优的性能。特别是在 384×384 分辨率下，DualViTok 相较于 VILA-U 有了显著的提升，突出了其在处理不同输入分辨率时的灵活性和高效性。

　　更多的 Ablation Study 可参看具体论文

　　结语

　　ILLUME + 通过创新的 DualViTok 保留图像中的语义和细节纹理，并结合扩散解码器提升图像生成质量，实现了任意分辨率。凭借统一的粗到细图像表示和动态视觉分辨率的渐进训练过程，ILLUME + 仅用 3B 参数便能处理灵活分辨率的视觉输入和输出，并在多模态理解、生成和编辑任务中表现出色，在 context-aware 生成和泛化上表现出了令人意外的水平。

　　作者表示将会尝试更大的模型，并且尝试更多原生图像 - 文本交织预训练的效果，让 ILLUME + 能够真正在视觉任务上完成大一统。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信