谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
GoodNav 于 10 月 23 日报道,科技媒体 The Decoder 于 10 月 22 日发布了一篇博文,指出谷歌 DeepMind 团队与麻省理工学院(MIT)合作推出了全新的“Fluid”模型,在拥有 105 亿参数时,能够实现最佳的文生图效果。
当前在文生图领域,业内普遍认为 自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。
下面简要介绍这两种模型:
-
扩散模型 (Diffusion Models): 这是一种近年来备受关注的内容生成技术,通过模拟信号逐渐从噪声中恢复的过程来实现。扩散模型通过逐步减少随机噪声,生成高质量的图像、文本以及其他数据形式。例如,DDPM(离散扩散概率模型)及其变体在图像生成领域获得了广泛关注。
-
自回归模型 (Autoregressive Models): 自回归模型在预测序列中的下一个元素时依赖于之前的元素。在文本生成领域,像基于 Decoder-only 架构的 GPT 系列(例如 GPT-3、GPT-4)便是经典自回归模型的代表,它们通过逐词预测下一个词以生成连贯的文本段落。
谷歌 DeepMind 和 MIT 团队深入研究后发现,使用连续 tokens(而非离散 tokens)以及采用随机生成顺序(而非固定顺序)是显著提升自回归模型性能与可扩展性的两个关键设计因素。
团队指出,离散 tokens 为每个图像区域分配来自有限词汇的代码,这可能导致信息丢失。而连续 tokens 则能更精确地存储图像信息,降低信息损失,从而让模型更有效地重建图像,提高视觉质量。
此外,大部分自回归模型以固定顺序生成图像,而 Fluid 则采用随机生成顺序,使模型能够在每一步预测任意位置的多个像素,这在理解整个图像结构时表现更加出色。
通过结合连续标记和随机生成顺序,Fluid 模型在规模扩展到 105 亿参数后,在重要基准测试中超过了 Stable Diffusion 3 扩散模型和谷歌之前的 Parti 自回归模型。
与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 数据集上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。