大数跨境
0
0

【论文推荐】基于YOLOv8和视觉变换器的侧扫声呐目标检测方法

【论文推荐】基于YOLOv8和视觉变换器的侧扫声呐目标检测方法 智慧海洋公众交流平台
2025-12-03
2
导读:基于YOLOv8和视觉变换器的侧扫声呐目标检测方法

本文选自期刊《信息与电脑》2025年第21期

作者:伍辉,杨克须,陈怡,曾诚,李庆,邵长城

来源:基于YOLOv8和视觉变换器的侧扫声呐目标检测方法[J].信息与电脑,2025,37(21):33-35.


摘要

摘要:侧扫声呐图像目标检测是现代海洋环境监测中的重要课题。为提高侧扫声呐图像中小目标的检测精度与效率,文章提出了一种基于YOLOv8和视觉变换器(Vision Transformer, viD)的新型目标检测模型——YOLOv8-VIT-KD,首先,将YOLOv8与视觉变换器结合,增强特征提取能力;其次,采用知识蒸馏(Knowledge Distillation,KD)方法,以YOLOv8为教师模型、VOLOv8-ViT-KD模型为学生模型进行训练,有效减少假阳性检测结果。实验结果表明,新模型在测试集上的精确率达85.721%,召回率达82.19%(较标准YOLOv8模型提升12.80%)。与标准YOLOv8模型相比,该模型检测性能显著提升,可在海底复杂环境中有效完成特定目标的检测任务。



一、前言


随着水下声呐技术的不断进步,侧扫声呐图像目标检测成为现代海洋环境监测中的关键任务,目的是准确、快速识别和定位水下目标,如海底地形特征、海洋生物、沉船等,随着海洋资源开发和环境保护需求的增加,对侧扫声呐图像处理技术提出了更高的要求。传统基于卷积神经网络的方法在处理复杂背景和小目标时存在精度不足和计算量大的问题。近年来,ViT凭借全局建模能力和对长距离依赖关系的优越处理能力,在图像识别任务中取得了一定的成果,然而,直接将Vi应用于侧扫声呐图像目标检测存在计算复杂度高和训练难度大的问题。为解决上述问题,本文提出了一种基于YOLOv8和ViT的新型目标检测模型——YOLOv8-ViT-KD。YOLOV8作为骨干网络,具有高效的特征提取能力和快速的推理速度,ViT则通过全局建模能力,进一步提升特征表示的鲁棒性和准确性此外,采用KD方法,将YOLOv8作为教师模型,新模型作为学生模型进行训练,减小模型复杂度和计算开销,同时保持较高的检测精度。



二、核心方法与关键技术


(一)YOLOv8算法

YOLOv8算法是由人工智能研究团队Ultralytics提出的一种高效目标检测算法,在YOLO系列单阶段检测框架的基础上进行了多项创新与优化。该算法的改进之一是网络架构的优化,采用了改进的CSPDarknet作为骨干网络,进一步增强了特征提取能力,并通过调整特征金字塔网络的设计,提升了对不同尺度目标的检测性能。


(二)视觉变换器

ViT是由谷歌研究团队提出的一种创新图像处理架构,将自然语言处理领域中广泛使用的Transformer架构引入计算机视觉任务。它将图像分割为固定大小的块,并将这些块视为序列输入,通过自注意力机制建模图像块之间的全局关系,这使得ViT能够捕捉图像中的长距离依赖和全局背景信息,从而在图像分类等任务中表现出色。


(三)知识蒸馏

知识蒸馏是一种模型压缩技术,通过将复杂模型的知识迁移到一个更小、更高效的模型,从而在保持较高性能的同时,降低计算成本和存储需求。该技术最早由Hinton等人于2015年提出,其思想是利用教师模型的软标签来指导学生模型的学习,使学生模型能够学习教师模型的泛化能力,而不仅仅是简单的标签信息。


三、YOLOv8-ViT-KD模型


本文提出了一种面向侧扫声呐图像小目标检测的YOLOv8-ViT-KD模型,通过嵌入轻量化ViT模块与KD训练策略,提升复杂水下场景的检测精度。模型采用自适应中值滤波与直方图均衡化抑制噪声并增强对比度;在特征提取阶段,将YOLOv8的CSPDarknet骨干网络中层输出特征图分割为图像块序列输入至轻量级V模块,利用自注意力机制建模全局上下文依赖关系:融合后的多尺度特征经颈部网络金字塔传递至检测头,实现目标定位。训练阶段采用知识蒸馏框架:以预训练YOLOv8为教师模型,指导新模型学习真实标签与教师输出的软目标概率分布,通过最小化散度损失传递知识!,提升小目标识别能力。具体结构如图1所示。

四、实验与分析


(一) 数据集

本文所用的数据集来自湛江市徐闻县外罗镇外约14 km海域,地理坐标约为东经110°36'20",北纬20°35'25"。共2 644幅高分辨率原始图像,由EdgeTech 4200双频声呐系统以4km航速获取,标注目标聚焦风电工程关键风险物:小型沉船(5 ~15 m)、海底管线、金属残骸及密集岩石群。其中,小目标占比达35%,标注工作由3名专业海洋工程师依据声学成像原理独立完成,严格区分实体目标与阴影伪影,最终生成COCO(Common Objects in Context)格式标准化标注。数据集按7:1.5:1.5划分为训练集、验证集与测试集。


(二)实验结果分析

测试环境配置实验在Linux服务器上开展,服务器采用Intel(R) Xeon(R) CPU E5-2686 v4 @ 2.30 GHz处理器,配备了两张RTX2080Ti22 GB的显卡。实验使用CUDA 12.5作为图形处理器的计算版本,结合Python 3.12作为编译器。不同检测模型下的结果对比如表1所示。

研究表明,VOLOv8-ViT-KD模型在声呐目标检测任务中表现出最佳性能,精确率与召回率较基准YOLOv8樘型分别提升13.79个百分点和约12.80个百分点。KD模块表现出一定的噪声鲁棒性,YOLOv8-KD模型召回率达78.213%,验证了教师网络在复杂场景中传递知识的有效性,ViT通过全局上下文建模弥补局部特征缺失,YOLOv8-ViT-KD较YOLOv8-KD的召回率提升约3.98个百分点。

五、结语


本文提出了一种YOLOv8-ViT-KD模型,用于海底侧扫声呐图像的目标检测。实验表明,该模型精确率达85.721%,召回率达82.190%,有效解决了假阳性问题与小目标漏检难题,其中,VT模块通过全局特征补偿使召回率较YOLOv8-KD提升了约3.98个百分点,KD机制验证了复杂场景中的噪声鲁棒性,证明了本文所提方法的有效性。

六、参考文献




声明:本公众号相关内容均来自主流媒体及公众号,非商业用途,并不意味着赞同其观点或证实其内容的真实性。版权归原作者所有,如有发现侵犯您的权益,请后台联系编辑,我们会尽快删除相关侵权内容。



【声明】内容源于网络
0
0
智慧海洋公众交流平台
我们旨在给对智慧海洋感兴趣的朋友提供一个相互交流学习的平台!这里汇聚了来自海洋领域的顶级专家、计算机通信高手、各大著名研究机构学者以及奋斗在海洋产业化一线的管理、研发、销售人才……欢迎大家随时随意交流,共同促进智慧海洋事业的快速发展!
内容 928
粉丝 0
智慧海洋公众交流平台 我们旨在给对智慧海洋感兴趣的朋友提供一个相互交流学习的平台!这里汇聚了来自海洋领域的顶级专家、计算机通信高手、各大著名研究机构学者以及奋斗在海洋产业化一线的管理、研发、销售人才……欢迎大家随时随意交流,共同促进智慧海洋事业的快速发展!
总阅读944
粉丝0
内容928