大数跨境

重构线性视觉Transformer,精度与效率双平衡 | CVPR'25

重构线性视觉Transformer,精度与效率双平衡 | CVPR'25 新智元
2026-04-11
11

新智元报道 | 编辑:LRST

【新智元导读】南洋理工大学、北京航空航天大学与合肥工业大学联合提出CARE Transformer,以非对称解耦方式并行建模局部细节与全局依赖。该技术通过通道拆分与双交互机制,显著降低线性注意力计算开销,同时提升特征表达能力。实验证明,在iPhone与iPad上实现超低延迟与高精度,成功打破移动端视觉Transformer“效率与精度不可兼得”的困局,为端侧AI落地提供全新范式。

CARE Transformer:突破移动端视觉AI效率精度瓶颈

在图像分类等核心视觉任务中,Transformer凭借全局感受野优势成为主流架构。但自注意力的二次计算复杂度严重制约其在移动设备的应用,成为端侧AI规模化的核心瓶颈。

行业技术痛点

当前移动端高效视觉Transformer方案面临两大难题:一是通过局部注意力限制感受野,牺牲长距离建模能力导致精度下滑;二是串行架构融合僵化,无法解决线性注意力token干扰问题,效率提升有限且精度损失严重,难以满足移动端严苛的精度与延迟要求。

图1. 传统串型方案(a)与CARE Transformer非对称解耦方法(b)对比。后者将局部归纳偏置与长程依赖分治建模,通过通道拆分缓解线性注意力二次计算开销。

创新架构设计

研究团队跳出传统思维框架,首次提出非对称解耦策略:将输入特征按通道维度拆分,局部细节由深度卷积学习,全局依赖通过线性注意力建模,从根本上解决效率与精度平衡问题。

论文链接:https://arxiv.org/pdf/2411.16170v2
代码链接:https://github.com/zhouyuan888888/CARE-Transformer

核心技术突破

方法论聚焦“先解耦,再显式交互”:

非对称特征解耦策略明确回答如何高效兼顾局部细节与全局依赖。通过非对称通道配置,避免传统堆叠瓶颈,在降本的同时保留关键特征信息。

图2. 模型精度-延迟-计算量平衡对比。标记越大,GMACs消耗越高;"SA"、"LA"、"GNN"分别代表基于自注意力、线性注意力和图神经网络的方案。

动态记忆单元与双交互模块充分释放特征互补价值:动态记忆留存全流程关键特征,双交互模块分步完成局部-全局特征及跨层级特征融合,在极低计算增量下保障表达能力。

性能实测表现

在ImageNet-1K等基准测试中,CARE Transformer在iPhone 13上以1.1ms/2.0ms延迟实现78.4%/82.1% Top-1准确率;iPad Pro延迟更低至0.8ms/1.5ms,同步提升效率与精度。

结果表明,移动端视觉模型无需在"全局建模能力"和"部署效率"间妥协,合理组织特征协同关系可充分释放线性注意力潜力。

未来展望

研究团队将深化双轨优化:一方面引入神经网络架构搜索(NAS)探索最优配置;另一方面拓展至大参数量视觉模型与多模态大模型,验证技术通用性。

参考资料:https://arxiv.org/pdf/2411.16170v2
【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15133
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读163.3k
粉丝0
内容15.1k