大数跨境
0
0

视觉生成新范式:VAR模型通过“下一尺度预测”实现性能突破

视觉生成新范式:VAR模型通过“下一尺度预测”实现性能突破 USTC大规模智算实验室
2025-09-04
0
导读:视觉生成新范式:VAR模型通过“下一尺度预测”实现性能突破

    人工智能生成内容(AIGC)领域正经历着快速的技术迭代。在图像生成方向,扩散模型(Diffusion Model)因其出色的生成质量,长期以来被视为主流技术路径。然而,一项名为“视觉自回归建模”(Visual Autoregressive Modeling, VAR)的新研究,为该领域带来了全新的视角和解决方案。

    该研究提出了一种创新的自回归生成范式,使其在性能、效率和可扩展性上,首次全面超越了以DiT(Diffusion Transformer)为代表的强基线模型,并展现出与大语言模型(LLM)类似的关键特性。

传统自回归模型的局限性

    自回归模型(AR)在自然语言处理领域取得了巨大成功,其代表作GPT系列的核心机制是“预测下一个词元(token)”。这一机制被直接迁移至图像生成领域时,通常表现为一种“光栅扫描”(raster-scan)模式:模型按照从左到右、从上到下的固定顺序,逐个预测图像块(token)来构建完整图像。

    然而,这种方法存在固有的理论与实践缺陷。首先,它将二维的图像数据强行转换为一维序列,破坏了图像固有的空间局部性与结构信息。其次,其单向的生成过程限制了模型对全局上下文的理解,导致生成图像的整体协调性不足。此外,逐个词元的生成方式导致计算复杂度极高,推理速度缓慢,严重制约了其实用性。这些因素共同导致了传统AR模型在图像生成任务上的表现长期落后于扩散模型。

VAR的核心创新:“下一尺度预测”

    VAR模型的研究者们提出,图像的生成过程更符合人类视觉感知与艺术创作的逻辑,即一个“从粗到细”(Coarse-to-Fine)的层级化过程。基于此洞察,VAR重新定义了图像的自回归学习目标,用“下一尺度预测”(next-scale prediction)取代了“下一词元预测”。

    VAR的生成流程如下:

1.初始阶段:模型首先生成一个极低分辨率的特征图(例如1x1),该特征图封装了图像最高层级的语义与结构信息。

2.尺度递进:以此低分辨率特征图为条件,模型预测并生成一个分辨率更高、细节更丰富的下一尺度特征图。

3.迭代生成:该过程迭代进行,每个新生成的尺度都基于前一个更粗糙的尺度进行细化,直至达到目标分辨率。

    在这种范式下,模型在每一步生成时都能够利用前一阶段完整的全局信息,确保了生成内容在结构和语义上的一致性。同时,由于在每个尺度内部,所有词元是并行生成的,其计算效率相较于传统AR模型得到了根本性的提升。

实验结果与核心优势

    为了验证VAR范式的有效性,研究者在ImageNet等标准数据集上进行了广泛的实验评估。

1. 性能与效率的全面超越
    实验结果表明,VAR模型在图像生成质量的核心指标(如FID,值越低越好)上,取得了业界领先的水平,其性能表现优于包括DiT在内的多种主流生成模型。同时,其推理速度相比传统AR模型提升了约20倍,且显著快于多数扩散模型。

2. 验证视觉模型的“缩放定律”
    更具深远意义的是,VAR模型清晰地展现了与LLM类似的“缩放定律”(Scaling Laws)。通过训练从千万级到20亿参数的12个不同规模的模型,研究发现模型的性能(以测试损失衡量)与参数量、计算投入之间存在着稳定、可预测的幂律关系。这为构建更大、更强的视觉基础模型提供了一条清晰、可量化的技术路径。

3. 零样本泛化能力的初步体现
    VAR模型还继承了LLM的另一项关键能力——零样本泛化(Zero-shot Generalization)。未经任何针对性微调,VAR能够直接应用于多种下游任务,如图像修复(in-painting)、图像扩展(out-painting)和图像编辑(editing),并生成合理且高质量的结果。

    这种无需额外训练即可适应新任务的能力,证明了VAR不仅学习了像素的统计分布,更深层次地理解了图像的内在结构与语义逻辑。

结论与展望

    VAR模型的提出,标志着自回归技术路线在视觉生成领域的一次重大突破。它不仅在技术层面解决了传统AR模型的固有缺陷,在性能上实现了对主流范式的超越,更重要的是,它在视觉模型上成功复现了LLM的“缩放定律”与“零样本泛化”等关键特性。

    这项工作为视觉生成领域开辟了新的研究方向,并为探索视觉与语言统一的基础模型提供了有力的实证支持。未来,VAR的“下一尺度预测”思想有望扩展至视频生成等更复杂的任务中,推动多模态通用人工智能的发展。

【声明】内容源于网络
0
0
USTC大规模智算实验室
大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
内容 14
粉丝 0
USTC大规模智算实验室 大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
总阅读11
粉丝0
内容14