视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂

首页

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

量子位

2025-01-17

198

导读：概念瓶颈+渐进式对齐

淘天等提出PSA-VLM：基于概念瓶颈的视觉语言模型安全对齐新方法[k]

通过可解释的高阶概念层实现多模态模型的可控与透明化，兼顾安全性能与通用能力[k]

随着多模态、跨模态成为AI发展主流，视觉语言模型（VLM）在图像理解、视觉问答等任务中表现突出，但其在视觉输入下的安全风险日益凸显。针对该问题，淘天集团未来生活实验室联合南京大学、重庆大学、港中文MMLab提出PSA-VLM（Progressive Safety Alignment for Vision-Language Models），一种基于概念瓶颈模型（CBM）的新型安全对齐框架[k]。

PSA-VLM通过引入可解释的中间概念层，在生成响应前对视觉内容中的安全风险进行显式建模与干预，不仅显著提升模型对有害内容的识别与拦截能力，同时保持在通用多模态任务中的性能竞争力，实现安全性与通用性的有效平衡[k]。

从“黑箱”到“可控”：破解VLM安全难题

当前视觉语言模型面临严重安全挑战，尤其是视觉模态易被恶意攻击绕过语言侧已有的安全机制，生成不当或有害内容，带来广泛社会应用隐患[k]。

传统防御方法多依赖端到端训练，模型内部机制不透明，难以精准定位和干预风险路径。为此，PSA-VLM引入概念瓶颈模型思想，在输入与输出之间构建高阶安全概念层，实现模型决策过程的可解释与可控[k]。

这一设计使系统不仅能准确识别NSFW、仇恨言论等风险内容，还允许用户在概念层面进行干预，适用于医疗、教育等高风险场景[k]。

架构创新：三层协同的安全对齐机制

概念瓶颈驱动的核心结构

显式概念安全头：通过图文交叉注意力，将视觉特征映射至具体安全类型（如NSFW）及风险等级（高、中、低），提供细粒度安全预测[k]。
隐式概念安全标记：作为可训练令牌嵌入视觉输入，增强模型对隐性风险信号的敏感度，并引导注意力机制聚焦潜在威胁[k]。

多模态协同安全模块

安全投影器：位于视觉编码器之后，专门提取与安全相关的视觉特征并转化为对齐表示[k]。
文本－视觉对齐机制：结合文本指令与安全特征，生成条件提示，动态引导大语言模型输出安全响应[k]。

两阶段训练策略

第一阶段为安全特征提取：冻结大语言模型与视觉编码器，仅训练安全模块，确保风险概念被准确捕捉与对齐[k]。

第二阶段为模型微调：解冻大语言模型，深度整合安全模块，使其充分吸收安全概念特征，提升跨模态安全响应能力[k]。

△ 模型架构示意图

性能评估：安全与通用能力双优

研究团队构建包含约1.1万对风险图像与文本查询的数据集，覆盖6类风险、3个等级，并引入RTVLM基准与GPT-4评分结合人工评估，全面衡量模型表现[k]。

在安全性能方面，PSA-VLM在RTVLM基准上显著优于基线模型。以PSA-VLM-7B（+LoRA）为例，平均得分达8.26，其中政治（8.36）、种族（8.43）类别表现最优；PSA-VLM-13B（+LoRA）平均分高达8.46[k]。

在扩展风险数据集测试中，PSA-VLM-13B在有害政治内容识别（9.49）、NSFW检测（8.72）、网络欺凌识别（7.45）等任务上均大幅领先LLaVA基线模型[k]。

在通用性能方面，PSA-VLM未因强化安全而牺牲能力。PSA-VLM-7B在MMBench（68.5）、SEEDBench（65.3）等主流基准上表现优于或持平基线，显示其良好的任务兼容性[k]。

△ 常见通用多模态性能测试基准结果

t-SNE可视化显示，经安全投影器处理后，不安全图像特征在空间中形成清晰聚类，表明模型有效学习到风险相关表征[k]。信息瓶颈层的安全分类准确率与F1得分多数超过90%，验证了概念提取的有效性[k]。

△ 图（a），安全特征的t-SNE可视化

△ 图（b），安全级别和安全类型的分类性能

实验表明，在LLaVA-1.5 7B基座上，仅用4*A100 GPU训练1小时即可将RTVLM评分从6.39提升至8.18，验证方法高效性[k]。

PSA-VLM通过架构级创新，为多模态模型的安全对齐提供了可解释、可干预、高性能的新范式，具备广阔社会应用前景，如降低恶意滥用风险、提升用户信任、推动AI在敏感领域的落地[k]。

论文链接：
https://arxiv.org/pdf/2411.11543
项目主页：
https://github.com/Yingshui-Tan/PSA-VLM[k]

— 完 —

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15877

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读211.9k

粉丝1

内容15.9k