大数跨境
0
0

ACL2025 Findings | 探索和增强图文音大模型中的视觉-语音能力

ACL2025 Findings | 探索和增强图文音大模型中的视觉-语音能力 ADaM应用数据挖掘和机器学习
2025-06-28
0
导读:本文对OLLMs内部图文能力和图音能力的差异以及原因进行了探索,同时提出了一个自知识蒸馏的训练方案。


ACL2025 Findings | 探索和增强图文音大模型中的视觉-语音能力


作者: 胡锐1,邱德来2,韦舒羽1,张家明1,王亦宁2,刘升平2,桑基韬1

单位: 1北京交通大学,2云知声

论文: https://arxiv.org/pdf/2503.00059



01

背景和动机


近年来,随着大语言模型(LLMs)的快速发展,多模态大语言模型(MLLMs)应运而生,其中全模态大语言模型(OLLMs)作为新兴领域,展现出在视觉、语言和听觉功能上的先进能力,有望实现更自然、全面的交互。然而,尽管取得了这些进展,OLLMs在处理视觉-文本与视觉-音频输入时的性能仍存在显著差距。例如,将文本问题替换为其音频版本可能导致模型给出错误的回答,图1展示了一个例子。我们观察到这种现象在多个OLLMs中普遍存在,表明模型在处理视觉-文本和视觉-音频输入时的行为有所不同。本文对OLLMs内部图文能力和图音能力的差异以及原因进行了探索,同时提出了一个自知识蒸馏的训练方案来减小这种差距。

图1 OLLM正确回答文本问题但对相同问题的音频形式给出错误回答的示例。对于同一个问题,使用文本形式提问,模型回答正确;而使用语音提问时,模型回答错误。




02

图音能力评估


目前,对OLLMs的评估多集中于其视觉-语言(VL)和音频能力的单独测试,而忽视了对视觉-音频(VA)能力的综合考量。为填补这一空白,本文首先基于现有的VL基准测试数据集,通过文本转语音(TTS)技术将文本问题转换为音频,从而构建了VA基准测试数据集,包括MME、TextVQA等数据集。在此基础上,本文对三款开源OLLMs:VITA、VITA-1.5和Megrez进行了广泛的性能测试。


表1 不同全模态大语言模型(OLLMs)的视觉任务性能。在查询中,“Text” 表示问题以文本形式提出,而 “Audio” 表示问题以音频形式提出。


评估结果如表1所示,这些模型在处理基于文本的查询时表现较为出色,平均得分接近70分。然而,当相同的查询以音频形式呈现时,所有模型的性能均出现了不同程度的下降。其中,VITA模型的性能下降最为显著,平均下降幅度达到62.2分;而Megrez模型的性能下降相对较小,但也出现了19.2分的降幅。这一现象表明,现有的开源OLLMs在整合图像与音频信息方面的能力普遍弱于其整合图像与文本信息的能力。


图2 OLLM 对音频问题给出相关但不准确答案的示例。(上)ChartQA中的示例。(下)TextVQA中的示例。


在视觉问答(VQA)任务中,模型需要将图像和问题结合起来生成准确的答案。观察发现,当使用文本查询时,模型能够准确地将问题和图像结合起来,从而给出正确的答案。然而,当查询以音频形式呈现时,尽管模型给出的答案与图像内容和问题要求相关,但往往并不准确。如图2所示,在ChartQA数据集中,当模型被问及“图表中最不受欢迎的游戏是什么?”时,它回答了“谜题”,这虽然是图表中列出的一款游戏,但并非最不受欢迎的游戏。同样,在TextVQA数据集中也出现了类似的情况,模型在回答音频查询时给出了与问题要求相关但不准确的答案。这些现象表明,当前的OLLMs在处理视觉-音频输入时,虽然能够关注到音频和视觉线索,但在将它们整合成正确答案方面存在困难。




03

为什么图音能力弱?


接着本文深入探究了全模态大语言模型(OLLMs)在视觉-音频任务上表现欠佳的原因,通过多方面的分析揭示了其背后的关键因素。


本文首先从注意力权重的角度对模型在处理视觉-文本和视觉-音频输入时的行为差异进行了分析。如图3所示,通过比较不同layer中各类token(查询token、视觉token和响应token)的注意力权重,我们发现当使用音频查询时,查询token对视觉token的注意力权重明显低于文本查询时查询token对视觉token的注意力权重。这表明当使用音频查询时,模型难以将音频内容和图像内容进行关联。

图3  OLLMs中不同类型token(包括查询、视觉和响应)的注意力权重的逐层变化。“A→B” 表示从A类型token到B类型token的注意力权重。


本文接着从当前OLLMs训练范式的角度对该现象进行了分析。目前OLLMs的训练可以大致分为四个阶段:

  • 视觉-文本对齐:旨在对齐视觉与文本模态,使模型能够理解视觉信息并将其与文本嵌入对齐。

  • 视觉-文本SFT:进一步训练模型理解图像内容,使模型能够基于指令回答与图像相关的问题。

  • 语音-文本对齐:旨在对齐语音与文本模态,使模型能够理解语音信息并将其与文本嵌入对齐。

  • 视觉-语音SFT:进一步训练模型理解音频,并基于音频指令回答与图像相关的问题,


可以看到,在训练过程中,视觉与文本、音频与文本分别进行了对齐,但在视觉与音频之间并未进行直接对齐。由于LLMs的特性,训练损失只能在文本模态构建,因此难以直接对视觉与音频之间的对齐任务进行建模。这导致模型在视觉-音频SFT阶段需要自行学习整合视觉和音频信息以完成下游任务,但前面的实验结果表明,普通的视觉-语音SFT并未达到与视觉-文本SFT相同的效果。




04

方法:自知识蒸馏

前面的实验分析可以发现,当前OLLMs的视觉-语音能力要弱于视觉-文本能力。为了减少这种差距,本文提出一种自知识蒸馏(Self-KD)训练框架,将OLLMs的视觉-文本组件作为教师模型,视觉-音频组件作为学生模型。与传统的知识蒸馏不同,Self-KD中的教师和学生模型来源于同一个模型,因此称为自知识蒸馏,训练框架如图4所示。


图4 自知识蒸馏训练框架。


对于一条视觉-文本SFT训练样本,我们首先将文本问题通过TTS转成语音。对于教师端,输入为(图像,文本问题);得到样本在输出层面的logits,对于学生端,输入为(图像,语音问题),得到学生的输出logits,使用KL散度来衡量教师与学生输出的差异。通过这种训练方式,期望模型在输入语音问题时能够展现出和输入文本问题时相同的行为,即学生端向教师端靠拢。




05

实验


我们选择了Qwen2-VL和InternVL2系列模型作为我们的底座模型,因为它们已经经过了良好的视觉-文本对齐和视觉-文本SFT。我们选择Whisper-large-v3模型作为我们的语音编码器,并通过单层MLP将音频特征与文本特征对齐。


在训练过程中,本文收集了包括LibriSpeech、Common Voice、GigaSpeech和Libriheavy在内的多个ASR数据集,总计988k样本,用于音频-文本对齐。对于视觉-音频SFT和Self-KD训练,本文从llava-1.5-mix-665k中采样了50k指令跟随样本,并将文本问题转换为音频。评估结果如表2所示。


表2 传统视觉-音频SFT与自知识蒸馏(Self-KD)训练的性能对比。每个模型的第一行展示了使用文本查询时的性能。


结果表明,视觉-语言(VL)和视觉-音频(VA)能力之间的差距普遍存在。即使在进行了音频-文本对齐和视觉-音频SFT之后,这种差距依然存在。这表明,即使音频-文本对齐效果良好,音频在与图像交互时也无法完全替代文本。


此外,模型的VL能力与其在视觉-音频SFT之后获得的VA能力成正比。例如,InternVL2-8B在VL性能上表现最佳,经过相同数据的SFT后,其VA性能也是最好的。这表明,具有更强VL能力的模型在视觉-音频SFT后往往能获得更好的VA性能。因此,在开发OLLMs时,应优先增强其VL能力。


Self-KD训练能够缩小模型VL和VA能力之间的差距。与传统SFT相比,使用Self-KD训练的模型在相同训练数据下能够获得更好的VA性能。Self-KD的效果与模型的VL能力成正比,因为Self-KD使用模型的VL组件作为教师。


图5 不同类型token的注意力权重分布的逐层变化。“Q→V” 表示查询token对视觉token的注意力,“Q→Q” 表示查询token对查询token的注意力。


Self-KD训练使模型在处理视觉-音频输入时的行为更加接近于处理视觉-文本输入时的行为。如图5所示,通过可视化模型的注意力权重,本文发现,与传统SFT训练的模型相比,经过Self-KD训练的模型在注意力分配上与基础模型的差异更小。这表明Self-KD有效地使模型在处理视觉-音频输入时的行为更加接近于处理视觉-文本输入时的行为。


图6 三种模型的输出差异的一个例子:传统监督微调(SFT)模型、自我知识蒸馏(Self-KD)模型和Base模型。Self-KD模型的输出与Base模型非常相似。


图6展示了一个Case,传统的SFT训练后,模型在音频查询下的输出和Base模型文本查询下的输出差异明显。而经过了Self-KD训练以后,模型在音频查询下的输出和Base模型较为接近。这表明了Self-KD在将学生组件的行为向教师组件行为靠拢的有效性。




06

总结


本文探索了OLLMs在处理视觉-文本与视觉-音频输入时的性能差距以及具体原因。同时提出了一种自知识蒸馏(Self-KD)训练方法,将OLLMs的视觉-文本组件作为教师模型,视觉-音频组件作为学生模型。与传统的视觉-音频SFT不同,Self-KD利用视觉-文本组件的输出作为软标签来指导视觉-音频组件的训练。这种方法通过知识蒸馏的方式,使学生模型学习教师模型的行为,从而提升视觉-音频任务的性能。



E

N

D

文案:胡锐

排版:杨云帆

责任编辑:桑基韬、黄晓雯



【声明】内容源于网络
0
0
ADaM应用数据挖掘和机器学习
关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
内容 170
粉丝 0
ADaM应用数据挖掘和机器学习 关注数据挖掘和机器学习的共性基础问题, 并应用于解决计算机视觉和自然语言处理中的具体任务。
总阅读24
粉丝0
内容170