重构线性视觉Transformer，精度与效率双平衡

新智元

2026-04-11

新智元报道 | 编辑：LRST

【新智元导读】南洋理工大学、北京航空航天大学与合肥工业大学联合提出CARE Transformer，以非对称解耦方式并行建模局部细节与全局依赖。该技术通过通道拆分与双交互机制，显著降低线性注意力计算开销，同时提升特征表达能力。实验证明，在iPhone与iPad上实现超低延迟与高精度，成功打破移动端视觉Transformer“效率与精度不可兼得”的困局，为端侧AI落地提供全新范式。

CARE Transformer：突破移动端视觉AI效率精度瓶颈

在图像分类等核心视觉任务中，Transformer凭借全局感受野优势成为主流架构。但自注意力的二次计算复杂度严重制约其在移动设备的应用，成为端侧AI规模化的核心瓶颈。

行业技术痛点

当前移动端高效视觉Transformer方案面临两大难题：一是通过局部注意力限制感受野，牺牲长距离建模能力导致精度下滑；二是串行架构融合僵化，无法解决线性注意力token干扰问题，效率提升有限且精度损失严重，难以满足移动端严苛的精度与延迟要求。

图1. 传统串型方案(a)与CARE Transformer非对称解耦方法(b)对比。后者将局部归纳偏置与长程依赖分治建模，通过通道拆分缓解线性注意力二次计算开销。

创新架构设计

研究团队跳出传统思维框架，首次提出非对称解耦策略：将输入特征按通道维度拆分，局部细节由深度卷积学习，全局依赖通过线性注意力建模，从根本上解决效率与精度平衡问题。

论文链接：https://arxiv.org/pdf/2411.16170v2
代码链接：https://github.com/zhouyuan888888/CARE-Transformer

核心技术突破

方法论聚焦“先解耦，再显式交互”：

非对称特征解耦策略明确回答如何高效兼顾局部细节与全局依赖。通过非对称通道配置，避免传统堆叠瓶颈，在降本的同时保留关键特征信息。

图2. 模型精度-延迟-计算量平衡对比。标记越大，GMACs消耗越高；"SA"、"LA"、"GNN"分别代表基于自注意力、线性注意力和图神经网络的方案。

动态记忆单元与双交互模块充分释放特征互补价值：动态记忆留存全流程关键特征，双交互模块分步完成局部-全局特征及跨层级特征融合，在极低计算增量下保障表达能力。

性能实测表现

在ImageNet-1K等基准测试中，CARE Transformer在iPhone 13上以1.1ms/2.0ms延迟实现78.4%/82.1% Top-1准确率；iPad Pro延迟更低至0.8ms/1.5ms，同步提升效率与精度。

结果表明，移动端视觉模型无需在"全局建模能力"和"部署效率"间妥协，合理组织特征协同关系可充分释放线性注意力潜力。

未来展望

研究团队将深化双轨优化：一方面引入神经网络架构搜索（NAS）探索最优配置；另一方面拓展至大参数量视觉模型与多模态大模型，验证技术通用性。

参考资料：https://arxiv.org/pdf/2411.16170v2

【声明】内容源于网络

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

内容 15133

粉丝 0

新智元智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

总阅读163.3k

粉丝0

内容15.1k