>

ICLR 2026｜变长视觉Token调度加速大模型3D影像理解

>

ICLR 2026｜变长视觉Token调度加速大模型3D影像理解

ICLR 2026｜变长视觉Token调度加速大模型3D影像理解

AI TIME 论道

2026-05-04

12

摘要

多模态大语言模型在临床视觉问答中具有应用潜力，但扩展至三维成像时受限于高计算成本。传统2D切片法或固定长度Token压缩会破坏3D数据连续性，丢失细微病灶等关键信息。

本研究提出可变长度Token表征框架，通过指令条件Token调度机制与代理梯度传播策略，自适应减少冗余Token，在降低计算开销的同时缓解注意力稀释问题。该框架采用带梯度恢复的自定义反向传播，确保离散Token剪枝的可微优化，并引入正则化目标弱化语言模态偏置。实验表明，在多种医学视觉问答任务中，该方法显著降低资源消耗并加速训练推理，同时保持高准确率。

图1：3D原生框架通过自适应Token压缩实现高效医疗视觉问答

论文链接：https://arxiv.org/pdf/2603.25155

引言

人工智能已在临床影像解读中发挥作用，但现有模型多面向2D图像。对于常见的3D CT、MRI数据，在保持完整3D Volume的前提下控制显存与计算量仍是难题。

传统方法依赖2D切片选取或固定长度Token压缩，虽降低序列长度，却破坏三维连续性、抹平细小病灶，并引入人工裁剪偏差。不同临床问题的信息需求差异显著，统一压缩比例难以平衡精度与效率。本文提出3D原生框架，直接以3D Patch为单元建模，通过可变长度Token序列自适应保留关键信息。

3D医学数据建模挑战

三维医学影像建模面临三大挑战：

第一，体素数量庞大。以常规胸部CT为例，划分为3D Patch后Token数量远超二维图像，直接输入将超出常规硬件配置。

第二，三维结构与局部细节关键。病灶跨层延展、器官边界形态等依赖跨切片关系，裁剪或下采样会削弱复杂任务（如肿瘤评估）所需信息。

第三，临床指令差异显著。异常筛查仅需整体判断，而病灶测量需精确定位。固定Token压缩比例无法适配不同任务的信息需求。

该框架核心目标是在3D原生表示下，按指令自适应决策Token保留量与位置。

图2：工作流分为两阶段：第一阶段对齐视觉嵌入层，第二阶段微调适配任务

3D原生框架设计

指令条件Token调度(ITS)

框架将3D Volume划分为非重叠Patch，通过3D编码器生成视觉Token序列，并与语言Token序列拼接。ITS机制包含两步：

1. 指令显著性估计：分析指令内部Token重要性，计算各视觉Token与关键指令成分的对齐程度，生成显著性分数。

2. 自适应阈值预测：轻量感知机基于整体显著性分布与指令语义，动态确定样本级保留比例。在简单任务中保留较少Token，复杂任务中保留更多关键区域Token。

代理梯度传播(SGP)

SGP解决硬剪枝导致的梯度中断问题：

前向计算采用硬剪枝，剔除未保留Token及其缓存，真实降低计算量；反向传播时，通过一阶泰勒估计构造Token任务重要性，驱动保留概率更新。该机制使Token选择与任务损失紧密耦合。

实验结果与分析

框架采用两阶段训练：

第一阶段：对齐3D视觉表示与语言空间，轻量训练3D patch嵌入层。

第二阶段：在3D-RAD、DeepTumorVQA等基准任务上微调，优化Token选择策略。

表1：3D-RAD基准测试性能（紫色/靛蓝标最优/次优结果）

在3D-RAD与DeepTumorVQA多任务测试中，该框架优于现有3D医学多模态基线模型（含更大参数规模模型），尤其在肿瘤检测、测量及纵向变化分析任务中表现突出。

表3：消融实验显示显存占用降低38%，推理速度提升42%

通过指令自适应Token裁剪，在保持高精度的同时，训练迭代速度提升35%，推理时GPU峰值内存降低38%。可视化分析证实剪枝行为精准保留临床关键区域（图3），非盲目压缩。

图3：白色区域为裁剪Token，紫色框突出保留的关键临床区域

【声明】内容源于网络

0

0

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来

内容 2150

粉丝 0

AI TIME 论道 AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来

总阅读28.1k

粉丝0

内容2.1k