>

NeurIPS 2025 | 港科大&上交大提出HoloV：剪掉近90%视觉Token，性能不掉点，多模态大模型推理“大瘦身”

>

0

0



NeurIPS 2025 | 港科大&上交大提出HoloV：剪掉近90%视觉Token，性能不掉点，多模态大模型推理“大瘦身”

NeurIPS 2025 | 港科大&上交大提出HoloV：剪掉近90%视觉Token，性能不掉点，多模态大模型推理“大瘦身”

极市平台

2025-10-09

2

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

本文提出只留高亮 Token 会丢掉全局上下文，导致高剪枝率下性能雪崩。团队提出 HoloV，把图片切块后「分区给预算、重排再采样」，88.9% 视觉 Token 被砍掉，LLaVA-1.5 仍保留 95.8% 精度，推理提速 2× 以上，为端侧多模态大模型「瘦身」给出新范式。>>加入极市CV技术交流群，走在计算机视觉的最前沿

多模态大语言模型（MLLMs）虽然功能强大，但处理高分辨率图片时，海量的视觉Token（可以理解为图像的“像素块”信息）带来了巨大的计算开销，让推理速度变得很慢。为了给这些“臃肿”的模型“瘦身”，学术界一直在研究视觉Token剪枝（Token Pruning）技术，也就是丢掉那些不重要的视觉信息。

最近，一篇被 NeurIPS 2025 接收的论文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》对现有的剪枝方法提出了挑战，并带来了一个简单又高效的解决方案—— HoloV。这项研究由香港科技大学、INSAIT、索非亚大学和上海交通大学等机构的研究者们共同完成。HoloV这个名字源于“Holistic Vision”，强调了它在剪枝时所采用的“全局视觉”策略。

论文标题: Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention
作者: Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu
机构: 香港科技大学（广州）、香港科技大学、INSAIT 索非亚大学、上海交通大学
录用会议: NeurIPS 2025
论文地址: https://arxiv.org/abs/2510.02912
项目地址: https://github.com/obananas/HoloV

01 现有方法的困境：只追“高光”，丢失全局

以往的Token剪枝方法，如FastV，大多采用一种“注意力优先”（Attention-First）的策略。它们通过计算文本和视觉之间的交叉注意力，或者利用特殊的[CLS] Token的注意力得分，来判断哪些视觉Token最“重要”，然后保留这些“高光”Token。

这种方法看似合理，但论文作者发现了一个致命缺陷：注意力机制倾向于关注那些语义相似的Token。比如，一张图里有一只猫，那么很多高注意力的Token可能都集中在描述这只猫的不同部位。在高比例剪枝（比如剪掉90%）的情况下，模型保留下来的可能是一堆关于“猫”的冗余信息，而图片中的背景、其他物体等全局上下文信息则被完全丢弃了。这导致模型性能急剧下降。

上图清晰地展示了这个问题，随着剪枝率的提高，基于注意力的方法（虚线）性能急剧恶化，而HoloV（实线）则能在高剪枝率下依然保持强大的性能。

上图右侧的可视化案例更直观，FastV保留的Token（绿色点）高度集中，存在大量冗余，而HoloV保留的Token则分布更均匀，覆盖了更丰富的上下文信息。

02 HoloV：从全局视角保留视觉上下文

为了解决上述问题，HoloV放弃了只追逐“高光”Token的思路，而是从一个更宏观、更整体的视角（Holistic Perspective）来重新思考Token的保留策略。

HoloV的核心机制可以概括为：

划分区域：将输入的图片看作由多个空间区块（Spatial Crops）组成。
预算分配：不再将所有“保留名额”都给注意力最高的Token，而是自适应地将剪枝预算分配到不同的空间区块中。
全局保留：通过对高亮Token进行重新排序，确保最终保留下来的Token能够覆盖全局的视觉上下文，而不是仅仅聚集在少数几个显著特征上。

通过这种方式，HoloV避免了“表征崩溃”（Representational Collapse）的现象，即使在极高的剪枝率下，也能有效地保留与任务相关的重要信息，实现了局部显著性和全局上下文的平衡。

03 实验结果：极致的效率-精度权衡

HoloV作为一个即插即用的框架，在多种任务、多种MLLM架构和不同剪枝率下都展现了卓越的性能。

最惊人的结果是，在LLaVA-1.5模型上，HoloV 在剪掉了88.9%的视觉Token后，依然保留了原始模型95.8%的性能，实现了顶尖的效率-精度权衡。

从上面两个性能对比表中可以看到，无论是在哪个基准测试上，HoloV（蓝色字体）的平均性能都远超其他SOTA方法，尤其是在高剪枝率（如87.5%）下，优势更为明显。

在推理速度上，HoloV也带来了实打实的提升。

该方法不仅适用于图像任务，在视频问答（Video QA）任务上同样有效。

下面的可视化案例生动地对比了FastV和HoloV在不同剪枝率下的表现。可以看到，HoloV更好地保留了图片中的关键对象和场景信息（如路标、远处的建筑等），而FastV则丢失了大量重要上下文。

此外，作者还对不同的模型（如Qwen2.5-VL）、不同的剪枝率、不同的超参数（如区块数量）进行了广泛的实验和消融研究，均验证了HoloV的有效性和鲁棒性。

04 总结

小编认为，HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时，不能仅仅关注局部的显著性，更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出，无疑为实现更高效、更实用的MLLM应用铺平了道路。

大家对这个“全局观”的剪枝方法怎么看？欢迎在评论区留下你的看法！

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

0

0

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读7.6k

粉丝0

内容8.2k