随着大型语言模型(LLMs)的快速发展,人工智能在多模态任务中展现出强大能力,但其内部机制仍难以解释。为解决这一问题,巴黎索邦大学与Valeo.ai 团队在NeurIPS 2024发表论文《A Concept-Based Explainability Framework for Large Multimodal Models》,提出了基于概念字典学习(Dictionary Learning)的解释框架CoX-LMM。该方法从语义层面揭示了多模态模型的内部结构,实现了视觉与语言域的统一可解释性。
摘要
随着大型多模态模型(Large Multimodal Models, LMMs)的快速发展,它们在视觉与语言任务中展现出强大的能力,但其内部表示机制仍缺乏可解释性。本文提出一种基于字典学习的概念可解释性框架——CoX-LMM(Concept eXplainability for LMMs),旨在揭示LMM内部的多模态概念结构。该方法通过在模型的中间层表示中引入字典分解,将表示矩阵分解为一组概念基向量与其对应的激活系数矩阵,每个基向量代表一个可在视觉与文本域中同时被语义化的“多模态概念”。本文提出的 Semi-NMF(半非负矩阵分解)优化方案,既保持了非负组合的可解释性,又允许混合符号的表示。实验结果表明,CoX-LMM 能够从预训练 LMM(如 DePALM、LLaVA)中提取出语义一致的多模态概念,并在视觉和文本双域中实现良好的语义对齐与可视化解释。该框架为理解大型多模态模型的内部表征机制提供了一种新的分析视角。
引言
深度神经网络(Deep Neural Networks, DNNs)在复杂学习任务中取得了显著成功,但其“黑箱”特性限制了模型的可信度和可解释性。特别是近年来兴起的大型语言模型(LLMs)与视觉变换器(Vision Transformers),尽管具备数十亿参数与极高的性能,但对其内部决策逻辑的理解依然薄弱。随着多模态任务的发展,将视觉编码器与语言模型结合的大型多模态模型(LMMs)已被广泛用于图像描述(Image Captioning)与视觉问答(VQA)等任务。然而,与单模态模型相比,LMM 的可解释性研究仍极为有限。
以往关于模型可解释性的研究多集中于卷积神经网络(CNN)及分类任务,主要通过概念激活向量(Concept Activation Vector, CAV)方法提取概念性特征。然而,这些方法无法直接适用于基于 Transformer 的多模态架构。为此,本文提出一种全新的基于字典学习的概念可解释框架CoX-LMM,用以分析LMM内部的多模态表示结构。
本文的主要贡献包括:
首次提出适用于大型多模态模型的概念可解释框架CoX-LMM;
通过Semi-NMF字典学习提取多模态概念字典,使每个概念同时在视觉和文本域中具备语义可对齐性;
设计了多层次的定量与定性实验,验证所提多模态概念在表示解释、语义解耦及跨模态一致性方面的有效性。
方法
图1. 模型架构图
本研究提出的CoX-LMM(Concept eXplainability for Large Multimodal Models)是一种面向大型多模态模型(LMM)的概念可解释性框架。其核心思想是基于字典学习(Dictionary Learning)的思想,在模型中间层表示空间中学习出一组具有明确语义的“概念向量(Concept Vectors)”,并利用这些概念对模型的内部语义结构进行解释。该方法通过在多模态模型的隐藏表示上执行 半非负矩阵分解(Semi-NMF),将复杂的高维语义表示分解为可解释的低维概念空间。每个概念在视觉与语言域中都可实现语义对应,从而形成跨模态的概念解释系统。整个方法主要包括三个阶段:表示提取(Representation Extraction)、字典分解(Dictionary Learning) 和多模态语义对齐(Multimodal Grounding)。
1
表示提取
设多模态模型由视觉编码器
、连接器
与语言模型
组成。对于输入图像
,视觉编码器与连接模块生成视觉 token 序列:
这些视觉token与语言token一同输入到语言模型中,用于生成输出文本。在分析过程中,关注目标 token
(例如 “dog”),希望研究模型对该词的内部表征方式。为此,从数据集中选取在预测结果与真实标签中均出现该 token 的样本集合:
对于每个样本
,从语言模型第
层中目标 token 位置
(
且
)提取残差流表示:
其中
为表示维度。将所有样本的表示按列堆叠,形成表示矩阵:
其中
表示样本数量。该矩阵包含了 LMM 在高维语义空间中对目标 token 的内部表示,是后续概念提取的基础。
2
字典分解
为揭示模型内部的潜在语义结构,对表示矩阵
进行低秩分解,使其近似为字典矩阵与激活矩阵的乘积:
其中
是概念字典矩阵,每个
表示一个潜在语义概念;
为概念激活矩阵,表示各样本中不同概念的激活强度。由于 LMM的表示既包含正值也包含负值,传统的非负矩阵分解(NMF)无法直接应用,因此采用半非负矩阵分解(Semi-NMF),仅对激活矩阵
施加非负约束,以保持可解释性,同时保留
与
的符号信息。优化目标如下:
其中
为重构误差,
为稀疏正则项,鼓励每个样本仅由少数概念激活;
控制稀疏性强度,
用于防止概念向量无界扩张。优化过程采用交替最小化(Alternating Minimization):当
固定时,通过带
正则的非负最小二乘法求解
;当
固定时,通过最小二乘更新
,并进行列归一化。最终收敛得到的
构成了语义概念字典与其激活系数。
对于任意新样本
,可通过以下优化求解其概念激活向量:
该稀疏向量
表示该样本在概念空间上的语义投影,从而实现了从原始高维残差表示到低维可解释语义空间的映射。
3
多模态语义对齐
获得概念字典后,为了赋予每个概念明确的视觉与语言语义,需要在两种模态中分别实现语义对齐。每个概念
通过其在视觉样本和语言词汇中的激活分布被解释。
在视觉域中,通过选择最能激活概念
的样本形成最大激活样本集(Maximum Activating Samples, MAS):
这些样本构成了概念在图像空间中的视觉表现。例如,对于概念 “brown dog”,其MAS样本通常对应于褐色犬只的图像。
在语言域中,概念向量
位于语言模型的词向量空间中,可通过反嵌入矩阵
映射回词汇表,得到一组语义上相关的词:
其中
表示得分最高的若干词集合。经过停用词与冗余词过滤后,可得到每个概念的语义标签。视觉样本集
与文本标签
共同构成了该概念的多模态语义表示。
4
概念解释与语义分析
在完成概念抽取与对齐后,可以利用概念空间对任意样本进行解释。对于给定样本
,其激活向量
中取前
个响应最强的概念:
这些概念的视觉样本与文本标签共同揭示了模型内部对该样本的多模态语义理解。
例如,在 “dog” 类任务中,不同概念可能对应 “黑色犬”、“奔跑中的犬”、“多只犬”、“幼犬”等视觉语义,或对应 “black”、“running”、“puppy” 等语言标签。这样,模型的复杂语义表示被解析为一组直观、离散且跨模态一致的概念。如图 2 展示了多模态概念在视觉与文本中的语义对齐示例。
图2. 多模态概念在视觉与文本中的语义对齐示例
实验
本节系统评估 CoX-LMM 在多模态概念解释上的性能与可泛化性。实验目标主要包括三方面:其一,验证所学习的概念是否在视觉与语言域上保持语义一致;其二,验证概念组合能否对样本级表示进行解释;其三,分析模型层次、超参数与不同字典学习算法对结果的影响。实验涵盖 DePALM 与 LLaVA 等代表性多模态模型,并在 COCO 图像-文本描述数据集上进行定量与定性验证。
1、实验设置
实验主体采用 DePALM 架构,其中视觉编码器为冻结的CLIP ViT-L/14,语言端为冻结的 OPT-6.7B (32 层)。连接模块C将视觉嵌入压缩为 N_V=10 个 token。所有主实验均从语言模型的第 L=31 层抽取目标 token 的残差表示,概念数量设置为 K=20,稀疏权重 \lambda=1,最强激活样本数
。数据采用 COCO Karpathy 划分(约 12 万训练图像、5 千验证与 5 千测试图像,每图 5 个 caption)。这些设置与训练流程示意如 (见图 2)。
评估指标分为三类:
跨模态一致性(Multimodal Alignment)——使用 CLIPScore 衡量每个概念的视觉原型
与文本标签
之间的相似度;
文本-视觉相关性(Text–Image Correlation)——利用 BERTScore 比较
与真实 caption 的语义一致性;
概念解耦度(Concept Decorrelation)——定义为
,用于度量不同概念间的语义重叠比例。
对比方法包括 PCA、K-Means 和 Semi-NMF 三种字典学习策略,并设计了随机化消融 Rnd-Words (随机打乱概念的文本标签)和 Noise-Imgs (以噪声图像替代真实样本)两项控制实验。各方法配置与超参数总结如 (参见表1)。
表1.不同基线方法在多模态概念解释任务上的性能比较
2、定量结果
从跨模态一致性角度看,CoX-LMM在多种目标token(如 dog、cat、bus、train 等)上的CLIPScore与BERTScore均显著高于随机基线与传统字典学习方法 (参见表 1)。结果显示,模型所学概念在视觉与语言空间中均形成稳定对应,能够生成语义一致的解释。
图3.多模态概念在视觉与文本语义对齐中的评估结果
进一步地,如图3展示了 CLIPScore 对比散点:每个点代表一个概念,其横坐标为随机词标签(Rnd-Words)得分,纵坐标为真实概念
得分。绝大多数点位于y=x上方,表明CoX-LMM生成的文本标签与视觉原型在语义上更为一致。
表2.不同方法学习到的概念间重叠度比较
在概念解耦性方面,(参见表 2) 报告了不同方法的 Overlap 值:K-Means 约 0.42,PCA 虽重叠度极低但解释性差;Semi-NMF 实现了 0.18 的低重叠率与高 CLIPScore 的平衡,说明 CoX-LMM 学习到的概念既独立又可解释。
此外,如图 4给出了不同 L 层的性能变化趋势:中后层(第 28–32 层)所提取的残差表示在 CLIPScore 与 BERTScore 上均达到峰值,印证了模型高层残差空间承载最丰富的语义信息。
图4. “Dog” 词在第 31 层的 20 个概念中选取的 8 个代表性概念的视觉与文本语义对齐示例
3、定性结果(Qualitative Results)
图5.基于 Semi-NMF 学习的概念字典来理解测试样本在 “Dog”、“Cat” 和 “Bus” 等 token 下的内部表示
为了展示概念的可视化解释力,如图 5展示了 token “Dog” 在 L=31 层学得的 20 个概念中 8 个代表性样本。每个概念同时给出 5 张最强激活图像与 5 个最高概率词汇。结果显示,模型成功区分了不同的语义维度:颜色(black, brown)、外观(long hair, puppy)、动作(running, playing)、场景(in park 或 on grass)以及共现物体(dog and cat)。这些概念具有良好的跨模态一致性,说明 CoX-LMM 的语义分解捕获了模型内部的真实表示结构。
如图 6展示了更多类别(如 “Bus”、“Train”、“Cat”)的概念原型,每个概念的文本标签与对应图像样本均呈现高语义一致性。通过这些样本,可直观看到概念字典如何对模型的多模态特征空间进行结构化划分。
图6.不同层次
下,所有概念(基于 Semi-NMF)在视觉与文本语义对齐对
间的平均 CLIPScore。
4、消融与泛化分析(Ablation and Generalization Study)
实验结果表明,CoX-LMM 在不同超参数和模型结构下均表现出良好的稳定性与泛化性。当概念数
、稀疏系数
时,模型在解释性与稀疏性之间达到最佳平衡;迁移至 LLaVA(Vicuna-7B)并在 Flickr30K 数据集上测试后,仍能保持一致的跨模态语义对齐效果。此外,算法在 A100 GPU 上的计算效率显著高于传统 NMF,仅需约 22 分钟即可完成 1 万样本的分解,充分验证了其在大规模多模态场景下的可扩展性与通用性。
5、结果讨论(Discussion)
综上所述,CoX-LMM 在跨模态一致性、概念解耦性与可解释性三方面均优于主流基线方法。实验表明,通过 Semi-NMF 实现的语义分解,能够有效揭示 LMM 隐藏空间的概念结构;在视觉与文本两个域上,模型学得的概念标签与原始语义高度一致。进一步的定性分析还发现,CoX-LMM 能够自发捕获细粒度语义维度(如颜色、动作、上下文对象等),体现出其对模型内部语义的分层解释能力。这一方法在不同模型与数据集上的稳定表现,为未来多模态解释性研究提供了新的可扩展途径。

