
【论文链接】http://arxiv.org/html/2502.09838v1
摘要

背景
近年来,LVLMs在开放世界视觉理解和推理方面表现出色,为专业领域应用带来新机遇。
在医学场景中,已有研究利用预训练大语言模型和视觉指令数据构建诊断工具和治疗规划系统,但主要集中于视觉理解任务,缺乏医学视觉生成能力。
同时,开发统一的医学 LVLMs 面临两大挑战:
一是医学数据在规模和质量上与自然多模态数据集存在差距,难以从头开发统一模型。
二是理解任务和生成任务存在冲突,增加生成(或理解)数据比例会导致理解(或生成)任务性能下降。
现有方法虽探索了两者的相互增强,但效果提升有限,性能下降问题仍显著。
贡献
统一的医学视觉语言模型:引入 HealthGPT,据本文所知,这是首个用于复杂医学场景中多模态理解和生成的统一框架。
有效的学习范式:提出 H-LoRA,这是一种基于任务门控解耦的优化多 LoRA 参数高效微调(PEFT)架构,旨在有效缓解数据冲突问题。
全面的训练数据集:精心策划了 VL-Health 数据集,这是一个专为理解和生成任务设计的综合数据集。
卓越的下游任务改进:进行了广泛的实验,结果证实了 HealthGPT 在医学视觉语言理解和生成方面的有效性。
技术方案
统一自回归生成:HealthGPT利用离散tokens表示涵盖文本和视觉输出,将视觉理解和生成统一为自回归任务。
理解时,模型接收输入联合序列输出文本tokens。
生成时,先接收特殊起始tokens,生成对应 VQGAN 索引的tokens序列,最后由解码器重构目标图像。
分层视觉感知:鉴于理解和生成任务对视觉感知的差异,利用 ViT 在多个层次将图像压缩为离散视觉tokens。
隐藏状态分为具体粒度特征(适用于生成任务)和抽象粒度特征(适用于理解任务),根据任务类型选择相应特征集与文本特征连接后输入 LLM 进行自回归生成。
异构知识适应:设计 H-LoRA,将理解和生成任务的异构知识存储在单独模块中,并动态路由提取任务相关知识。
在任务级别为每种任务类型分配专用 H-LoRA 子模块。
在特征级别,融合MoE思想,设计高效矩阵合并和路由权重分配机制,避免现有方法的计算延迟。
训练流程:分为三个阶段。第一阶段进行多模态对齐,分别训练医学理解和生成任务的视觉适配器和 H-LoRA 子模块,扩展文本词汇表;
第二阶段进行异构 H-LoRA 插件适应,微调词嵌入层和输出头,使多个 H-LoRA 插件与 LLMs 无缝对接;
第三阶段进行视觉指令微调,引入特定任务数据优化模型,增强其对下游任务的适应性。
实验结果
医学视觉理解任务结果
HealthGPT 在医学视觉理解任务中表现卓越,优于医学特定模型(如 HuatuoGPT-Vision)和通用模型(如 Llama-3.2),在与其他模型对比中取得领先成绩(表1)。
医学成像生成任务结果

模态转换:在 CT 和 MRI 模态转换任务中,HealthGPT 在多个评估指标上超越其他方法,且能将所有任务统一在一个训练过程中(表2)。

超分辨率:在 IXI 数据集上进行的 4× 超分辨率实验中,HealthGPT 在关键指标上表现优异,能有效利用医学图像关键结构的先验知识,恢复细节(表 3:超分辨率任务的比较结果)。
重建:与具有重建能力的统一模型相比,HealthGPT 在视觉重建方面具有更好的可控性。
深入研究结果
H-LoRA 的效果:H-LoRA 在多数理解任务和所有生成任务中性能出色,相比 LoRA 和 MoELoRA 优势明显,随着 LoRA 专家数量增加,其计算效率优势更突出。
不同学习策略:三阶段学习策略有效减少了任务冲突导致的性能下降,而异构 H-LoRA 插件融合在第二训练阶段对性能影响较小(表 5)。
分层视觉感知分析:理解任务使用抽象粒度输入收敛更高效,生成任务使用具体粒度输入表现更好,验证了分层视觉感知的重要性(图 6:不同视觉感知的损失可视化和性能比较)。
Report-to-CXR 任务:HealthGPT 能基于指令有效生成 CXR 图像,在医疗教育和辅助诊断方面有应用潜力(图 7)。
结论
HealthGPT 通过集成协作和竞争模块引入了一种创新的参数高效微调方法,显著提高了多任务学习的效率和效果。
在CME 基准测试中,HealthGPT 不仅响应速度更快,而且在性能上优于现有的多 LoRA 架构。
未来的研究将进一步探索基于多 LoRA 架构中竞争与协作的博弈论框架,拓展参数高效微调的潜力。

