大数跨境
0
0

华为诺亚开源GhostNetV3:传统小模型的新型优化策略

华为诺亚开源GhostNetV3:传统小模型的新型优化策略 极市平台
2024-04-21
1
↑ 点击蓝字 关注极市平台
作者丨王云鹤@知乎
来源丨https://zhuanlan.zhihu.com/p/693250473
编辑丨极市平台

极市导读

 

ImageNet-1K数据集上的实验结果显示,GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下,达到了79.1%的top-1准确率,大幅度超越了现有模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址:https://arxiv.org/abs/2404.11202

代码地址:https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch

在移动设备和物联网设备日益普及的今天,对高效、轻量化的神经网络模型的需求日益迫切。华为诺亚方舟实验室最新发布的GhostNetV3,通过创新的训练策略,实现了在保持模型大小和推理速度的同时,显著提升了模型性能。

GhostNetV3是华为诺亚方舟实验室继GhostNet和GhostNetV2之后的又一力作。它不仅继承了前代模型在保持低参数量和推理速度方面的优势,更通过创新的训练策略,实现了性能的显著提升。在ImageNet-1K数据集上的实验结果显示,GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下,达到了79.1%的top-1准确率,大幅度超越了现有模型。

不同模型在ImageNet数据集上的性能比较

方法

为了充分发挥轻量化模型的潜力,研究团队系统地研究了多种训练策略,包括重新参数化、知识蒸馏、学习计划和数据增强等。

重新参数化设计:

如图1所示,GhostNetV3采用了训练时重参数化方法,通过使用深度可分离卷积和点群卷积提升模型的学习能力,同时不引入额外的推理阶段参数数量和计算复杂度。具体的,作者们对3×3深度卷积和1×1卷积模块使用重参数化操作,并且发现直连(identity)分支对提升模型性能具有正面作用。

图1 GhostNetV2与GhostNetV3结构对比

知识蒸馏:

为进一步提升模型性能,GhostNetV3采用了知识蒸馏技术,通过模仿教师模型的输出分布,鼓励小型模型学习到更丰富的特征表示,提升了模型的性能。

训练策略:

针对轻量化模型的特点,研究团队探索了适用于小模型的训练策略。一方面,通过比较不同的学习率及学习率衰减策略的组合,找到最优配置;另一方面,重新考量数据增强技术,探索对轻量化模型更有效的数据增强方法。

实验

图像分类任务:

表1展示了GhostNetV3在ImageNet-1K数据集上的实验结果。结果表明该模型在保持轻量化的同时,达到了与一些大型模型相当的性能。具体来说,GhostNetV3 1.3×模型在该数据集上达到了79.1%的top-1准确率,同时保持了269M FLOPs和14.46ms的移动设备延迟。此外,研究团队还将GhostNetV3的训练策略应用于其他一些流行的轻量化模型架构,如MobileNetV2和ShuffleNetV2。实验结果表明,这些模型在使用GhostNetV3的训练策略后,top-1准确率均有显著提升,证明了该训练策略的通用性和有效性。

表1 ImageNet-1K数据集上的实验结果

下图分别展示了上述模型的推理所需计算量及在Huawei Mate40 Pro手机上的实测推理时延。从结果中可以看出,GhostNetV3能够在比现有模型更低计算量及时延的情况下实现更高的推理精度。

图2 不同轻量化模型的推理所需计算量及时延

目标检测任务:

表2展示了GhostNetV3在COCO数据集上的实验结果。使用GhostNetV3作为骨干网络的检测模型,在COCO数据集上达到了与一些大型骨干网络相当的性能,同时保持了更快的推理速度,展现了GhostNetV3在目标检测任务上的优势。

表2 COCO数据集上的实验结果

消融实验:

为了验证各个训练策略对模型性能的影响,研究团队进行了一系列的消融实验,结论如下:

1)在3×3深度卷积的重参数化中加入1×1深度卷积分支对提升性能至关重要;

2)使用大型预训练模型作为教师模型使用知识蒸馏方法,对于提升轻量化模型的性能非常有效;

3)适当的学习率和调度策略(如余弦退火)对轻量化模型的性能有显著影响;

4)某些数据增强技术,如Mixup和CutMix,对于常规模型是有益的,但对轻量化模型则可能是有害的;5)指数移动平均(EMA)在适当的衰减值下,可以提高轻量化模型的性能。更详细的消融实验结果及结论请参阅原论文。

结论

GhostNetV3通过一系列创新的训练策略,在保持模型轻量化的同时,显著提升了模型的性能。这些策略不仅适用于GhostNetV3本身,还可以推广到其他轻量化模型的训练中。通过在多个数据集和任务上的广泛测试,研究团队验证了GhostNetV3的通用性和有效性,为移动设备上的神经网络设计和训练提供了新的思路。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读197
粉丝0
内容8.2k