

华为诺亚开源GhostNetV3：传统小模型的新型优化策略

极市平台

2024-04-21

↑ 点击蓝字关注极市平台

作者丨王云鹤@知乎

来源丨https://zhuanlan.zhihu.com/p/693250473

编辑丨极市平台

极市导读

ImageNet-1K数据集上的实验结果显示，GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下，达到了79.1%的top-1准确率，大幅度超越了现有模型。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2404.11202

代码地址：https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv3_pytorch

在移动设备和物联网设备日益普及的今天，对高效、轻量化的神经网络模型的需求日益迫切。华为诺亚方舟实验室最新发布的GhostNetV3，通过创新的训练策略，实现了在保持模型大小和推理速度的同时，显著提升了模型性能。

GhostNetV3是华为诺亚方舟实验室继GhostNet和GhostNetV2之后的又一力作。它不仅继承了前代模型在保持低参数量和推理速度方面的优势，更通过创新的训练策略，实现了性能的显著提升。在ImageNet-1K数据集上的实验结果显示，GhostNetV3 1.3×模型在仅使用269M FLOPs和14.46ms的移动设备延迟下，达到了79.1%的top-1准确率，大幅度超越了现有模型。

方法

为了充分发挥轻量化模型的潜力，研究团队系统地研究了多种训练策略，包括重新参数化、知识蒸馏、学习计划和数据增强等。

重新参数化设计：

如图1所示，GhostNetV3采用了训练时重参数化方法，通过使用深度可分离卷积和点群卷积提升模型的学习能力，同时不引入额外的推理阶段参数数量和计算复杂度。具体的，作者们对3×3深度卷积和1×1卷积模块使用重参数化操作，并且发现直连（identity）分支对提升模型性能具有正面作用。

知识蒸馏：

为进一步提升模型性能，GhostNetV3采用了知识蒸馏技术，通过模仿教师模型的输出分布，鼓励小型模型学习到更丰富的特征表示，提升了模型的性能。

训练策略：

针对轻量化模型的特点，研究团队探索了适用于小模型的训练策略。一方面，通过比较不同的学习率及学习率衰减策略的组合，找到最优配置；另一方面，重新考量数据增强技术，探索对轻量化模型更有效的数据增强方法。

实验

图像分类任务：

表1展示了GhostNetV3在ImageNet-1K数据集上的实验结果。结果表明该模型在保持轻量化的同时，达到了与一些大型模型相当的性能。具体来说，GhostNetV3 1.3×模型在该数据集上达到了79.1%的top-1准确率，同时保持了269M FLOPs和14.46ms的移动设备延迟。此外，研究团队还将GhostNetV3的训练策略应用于其他一些流行的轻量化模型架构，如MobileNetV2和ShuffleNetV2。实验结果表明，这些模型在使用GhostNetV3的训练策略后，top-1准确率均有显著提升，证明了该训练策略的通用性和有效性。

下图分别展示了上述模型的推理所需计算量及在Huawei Mate40 Pro手机上的实测推理时延。从结果中可以看出，GhostNetV3能够在比现有模型更低计算量及时延的情况下实现更高的推理精度。

目标检测任务：

表2展示了GhostNetV3在COCO数据集上的实验结果。使用GhostNetV3作为骨干网络的检测模型，在COCO数据集上达到了与一些大型骨干网络相当的性能，同时保持了更快的推理速度，展现了GhostNetV3在目标检测任务上的优势。

消融实验：

为了验证各个训练策略对模型性能的影响，研究团队进行了一系列的消融实验，结论如下：

1）在3×3深度卷积的重参数化中加入1×1深度卷积分支对提升性能至关重要；

2）使用大型预训练模型作为教师模型使用知识蒸馏方法，对于提升轻量化模型的性能非常有效；

3）适当的学习率和调度策略（如余弦退火）对轻量化模型的性能有显著影响；

4）某些数据增强技术，如Mixup和CutMix，对于常规模型是有益的，但对轻量化模型则可能是有害的；5）指数移动平均（EMA）在适当的衰减值下，可以提高轻量化模型的性能。更详细的消融实验结果及结论请参阅原论文。

结论

GhostNetV3通过一系列创新的训练策略，在保持模型轻量化的同时，显著提升了模型的性能。这些策略不仅适用于GhostNetV3本身，还可以推广到其他轻量化模型的训练中。通过在多个数据集和任务上的广泛测试，研究团队验证了GhostNetV3的通用性和有效性，为移动设备上的神经网络设计和训练提供了新的思路。