极市导读
首次将掩码扩散架构引入医学视觉语言任务,LLaDA-MedV 通过三阶段指令调优在三大 VQA 基准刷新 SOTA,并凭借可控长输出显著优于自回归模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
文章 《 LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding 》 由Xuanzhao Dong, Wenhui Zhu, Xiwen Chen 等人撰写。
Paper link: http://arxiv.org/abs/2508.01617
Open-Source Code: https://github.com/LLM-VLM-GSL/LLaDA-MedV
1.总结
自回归模型(ARMs)长期主导了生物医学视觉语言模型(VLMs)领域。近年来,诸如 LLaDA 的掩码扩散模型作为一种有前景的替代方案逐渐出现,但其在生物医学领域的应用仍然鲜有探索。为弥补这一空白,本文提出了 LLaDA-MedV,这是首个通过视觉指令调优,专门面向生物医学图像理解的大型语言扩散模型。
LLaDA-MedV在多个任务上表现优秀,具体来说,在开放式生物医学视觉对话任务中,LLaDA-MedV 相较于 LLaVA-Med 和 LLaDA-V 分别实现了 7.855% 和 1.867% 的相对性能提升,并在三个 生物医学的视觉问答基准测试的封闭式子集上取得了新的最先进准确率:VQA-RAD 上为 84.93%,SLAKE 为 92.31%,PathVQA 为 95.15%。除此之外,本位还通过与 LLaVA-Med 的详细比较表明,LLaDA-MedV 通过显式控制回答长度,能够生成相对更长的回复,从而带来更具信息量的输出。最后,文章还对训练与推理阶段进行了深入分析,强调了初始化权重选择、微调策略等关键因素的重要性
2.模型训练
训练 LLaDA-MedV共包含三个阶段。前两个阶段旨在建立生物医学语言与视觉内容之间的语义对齐,并赋予模型生物医学视觉理解所需的指令跟随能力。为了进一步提升模型在特定数据场景下的服务质量,本文额外引入了一个基于三个人工标注的生物医学视觉问答训练集的监督微调(SFT)阶段。各阶段具体如下:
阶段一:生物医学语义对齐。 在该阶段,作者冻结视觉编码器和语言主干网络,仅微调轻量级的 MLP 投影模块。此步骤旨在确保提取到的视觉特征能被有效地投影到语言嵌入空间中,并与生物医学概念语义对齐。
阶段二:端到端视觉指令调优。 在完成阶段一后,作者对语言主干网络和投影模块进行联合微调,使 LLaDA-MedV 具备医学图像理解能力以及连贯回答生成能力。不同与LLaDA-V的是,作者在此阶段仍旧冻结保持视觉编码器。每个训练样本包含一张图像及其对应的多轮对话。
阶段三:数据集特定微调。 为了进一步提升模型在精度要求更高的场景中的表现,作者在三个生物医学视觉问答基准数据集(VQA-RAD,SLAKE和PathVQA)上对模型进行进一步微调。为了保持和第二阶段的一致性,每个训练样本被格式化为用户与模型之间的单轮对话,训练流程也与阶段二一致。该阶段同样保持视觉编码器冻结,从而允许 LLaDA-MedV 针对封闭式和开放式生物医学问题生成自由形式的回答。
3. 模型测试表现
本文用开放式医学视觉对话任务基准数据集测试LLaDA-MedV在开放式医学对话任务中的表现. 在此任务中,GPT4.1 mini被用来衡量候选模型输出并给出相对于参考答案的标准化得分。于下表一所示,LLaDA-MedV在此任务的多个指标中取得最佳表现,其在对话(例如,针对图片内容进行提问)以及描述任务(例如描述图片细节)中分别超过LLaVA-Med 2.391% 以及 23.484%, 并取得52.605得总体得分,相较 LLaVA-Med 提升 7.855%,相较 LLaDA-V 提升 1.867%。除此之外我们发现在相同生成长度限制下相较于传统自回归模型而言(例如LLaVA-Med 以及MedVLM-R1),LLaDA-MedV更倾向于生活曾更多信息更丰富得回答。如下图所示,除了直接回答问题以外,LLaDA-MedV仍然会倾向提供更多信息,例如造成肺部X光照片不透明得原因。我们在后续进一步讨论中进一步分析这点。
在经历语义对齐以及监督训练之后, LLaDA-MedV已经能够超过LLaVA-Med在VQA-RAD 以及SLAKE数据集上得零样本表现, 如表四所示,LLaDA-MedV在下游开放以及闭合医学视觉问答数据集上得表现超过LLaVA-Med。但与任务具体微调过后得模型有一定差距
因此,再进一步任务具体微调过后作者发现LLaDA-MedV 在 VQA-RAD(84.93%)、SLAKE(92.31%) 和 PathVQA(95.15%) 三个数据集的闭合式问题准确率均为当前最高,如表二所示。但由于缺乏足够的后训练优化,在开放式问题上表现略逊于自回归模型。
4. 深入分析
1. 相较于自回归模型,我们为什么要选择掩码扩散模型呢?掩码扩散模型是不是更倾向与生成更长得回答呢?
作者通过与LLaVA-Med对比做了分析。具体来说,自回归模型的生成是启发性的,在推理过程中通常通过最大生成限制或系统提示来控制回答长度,但作者在医学开放问答中发现其更容易因过早预测到终止符而提前结束回答,导致回答的长度以及细节不足。于此不同的是,LLaDA-MedV 的扩散式生成是从全掩码序列出发,逐步替换掩码内容。其天然具备更强的长度可控性和信息填充能力。
如表3以及下图所示,在开放式生物医学对话的193个问题中,LLaDA-MedV平均生成166词的回答,而LLaVA-Med 仅平均生成36 词,即使通过改变系统提示强制LLaVA-Med生成200 词的回答,实际的提升效果也很微弱。与此相比,LLaDA-MedV平均生成长度更长,同时也能提供更丰富的信息,例如在问题1中, LLaDA-MedV不仅正确回答了图片所用的技术(PET-CT 扫描),同时提供了关于两者的技术细节。然而,对更长更丰富的文本回答对应的是相对更长的生成时间,如表3所示,相较于LLaVA-Med的平均文字生成时间(0.036),LLaDA-MedV的平均文字生成时间提升了约6倍(0.23)。然而作者强调,目前对于LLaDA-MedV的推理消耗相对于其生成质量提升而言是可以接受的,并且指出掩码扩散模型的生成优化相较于自回归模型而言仍有很大的提升空间。
2. 那么在模型推理过程中需要注意什么呢?
作者着重强调了采样步数(Z)的重要性,因其将直接影响生成质量与效率:步数越多,模型有更多机会重掩码低置信度内容,使生成结果更完整,但推理耗时显著增加(如上表3所示,Z=256 时,平均每词生成耗时为 0.230 秒,而 Z=16 时仅为 0.045 秒,但模型得分却从13.525提升到了52.605)。除此之外,作者仍指出模型生成的多样行仍是一个值得关注的问题。如下图所示,作者发现token生成重复普遍存在于各种参数设置中,尤其是当生成长度过大但是采样步数相对较少时,模型缺乏充分修正机会,模型生成多样性将受到很大影响。然而在长序列生成回答中,因为生成长度天然限制了采样步骤的上限,如何平衡推理效率以及推理质量需要更加细节的研究。
-
在模型训练中作者发现(1)任务特定微调对医学场景收益显著;尽管LLaDA-MedV 在下游医学视觉问答(VQA-RAD以及SLAKE)中超过LLaVA-Med的零样本表现,但进一步微调能显著提升模型表现。(2)模型初始化权重对于医学大模型训练十分重要。作者发现直接用 LLaDA-V(通用图文/视频任务)做初始化会显著劣化模型表现,影响模型生成多样性。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

