大数跨境
0
0

基于多模态大语言模型的遥感目标检测:以图像分类为例

基于多模态大语言模型的遥感目标检测:以图像分类为例 北京测绘杂志社
2025-11-11
0

基于多模态大语言模型的遥感目标检测:以图像分类为例

郭东艳1 马丽丽1 金贤咏2

(1.61206部队,北京 100042;2.61618部队,北京 100094)

[摘 要]遥感图像分类是遥感目标检测中的重要环节,基于视觉的机器学习算法在该领域已得到有效应用,但仍存在数据获取成本高、计算资源需求大等问题。近年来,人工智能大语言模型快速发展,其中多模态大语言模型(MLLMs)在自然语言处理与计算机视觉领域均展现出卓越性能。本文探讨了MLLMs在遥感目标识别的图像分类领域的应用,特别是在无需自行训练模型的前提下,通过公开大模型在具体目标数据集(机场目标分类)上的实验验证其有效性。实验结果表明,多个在线公开的MLLMs能达到80%以上的分类精度与较高的批量处理速度,且无需任何本地计算资源部署成本,显示了在线的多模态大语言模型在该领域应用的巨大潜力。

[关键词]人工智能;遥感目标识别;图像分类;多模态大语言模型

0 引言

遥感技术在地球观测和环境监测中起着至关重要的作用[1-3]。随着高分辨率遥感图像在环境检测、城市治理和军事探测领域的普及[4-8],目标检测技术在该领域的应用得到了广泛关注,对遥感目标检测算法的研究也日益重要[9-11]。遥感目标检测算法主要分为两个阶段:目标识别与目标分类。如图1所示[12],目标识别算法会先将图像中具有高可能性的区域识别出来,将识别出的区域传输给目标分类模块(分类模型)进行分类,确认是否为具体场景,如机场等。这两个环节对于目标检测都有着重要的意义,任何一个环节的精度和效率的提升都能对整体目标检测效果的提升起到重要的作用。

图1 遥感目标检测算法的两个阶段

早期的目标检测方法中,目标识别主要基于启发式提取的特征进行判断,如尺度不变特征变换(scale-invariant feature transform,SIFT)算法以及方向梯度直方图(histogram of oriented gradients,HOG)算法。进一步从目标识别中提取出来的特征将会使用分类算法进行检测,如较为常用的机器学习算法:支持向量机(support vector machine,SVM)、K-近邻(k-nearest neighbors,KNN)算法[13]等。然而,遥感图像中的场景多样,涉及复杂的地貌以及多样的检测目标,启发式提取的特征往往不具有应用的普适性。除此之外,传统方法具有计算量大的缺点,进一步限制了其在遥感目标检查领域的进一步应用。

近年来,机器学习方法,特别是深度学习算法的快速发展,对图像处理、音频分析等多个领域的传统方法进行了革新[14-16],在遥感领域也产生了多个高效的落地应用[17]。在遥感目标检测领域,基于深度学习的目标检测算法也进一步提升了目标检测的精度与效率[18-20]。如图2所示,深度学习主要基于大量的数据集对模型进行训练,在数据集充足的前提下,训练好的深度学习模型可以直接部署于目标检测中,相比于传统的目标检测方法,可以同时达到检测精度以及速度的良好平衡[21-22]。具有代表性的应用有基于快速卷积神经网络(faster convolutional neural network,Faster-CNN)[23],掩模区域卷积神经网络(mask region-based convolutional neural network,Mask RCNN)[24]等目标检测算法,进一步结合遥感图像的特征,提升算法性能。

图2 基于深度学习的目标检测

随着深度学习的进一步发展,人工智能算法领域以大语言模型的出现作为标志进入了新的阶段[25]。传统的深度学习虽然在精度和性能上都有了显著提升,但仍然受限于对数据集数量和质量的高要求。大语言模型使用海量文本数据进行预训练后,只需要对极少量数据进行微调或无需任何数据即可应用于多个语言处理领域,并且达到良好的性能。随着对大语言模型领域研究的进一步深入,研究者发现上述突破并不限于文本处理领域,在图像、视频领域同样有着类似特征,因此出现大量能够处理多种信息的多模态大语言模型(multimodal large language models,MLLMs),如图3所示,MLLMs可以同时处理文本、图像等信息,使得其应用领域进一步拓展,能够有效处理多个计算机视觉中的下游任务,如图像分类、目标识别等,这大大增加了其在遥感目标检测中的应用潜力。由于资本市场对多模态大语言模型领域的狂热投入,目前我国已经出现了多个公开的多模态大语言模型,如阿里的Qwen[26]、零一万物的Yi-vision[27]以及智谱华章科技的Chat-GLM[28]。这让我们对其在遥感目标检测中的应用潜力验证有了良好的素材,同时也为多模态大语言模型在遥感目标检测未来的有效应用做了铺垫。在本文中,我们研究了MLLMs在遥感目标识别中图像分类的应用,特别是在无需自行训练模型的情况下,通过公开在线的大模型在具体目标数据集(机场目标识别)上的实验验证其有效性。实验结果表明,多个MLLMs均能达到80%以上的分类精度与较高的批量处理速度。更重要的是,基于MLLMs的图像分类方法无需任何本地计算资源部署成本以及额外的数据收集成本,显示了在线的多模态大语言模型在该领域应用的巨大潜力,启发了基于MLLMs的遥感目标检测新框架的诞生。

图3 大语言模型和多模态大语言模型的工作原理

1 相关方法

1.1 遥感目标检测

遥感目标检测是一种利用遥感技术对地面目标进行自动识别和分类的技术,主要包括两个阶段:目标识别和目标分类。目标识别阶段的主要任务是从复杂的遥感图像中检测出感兴趣的目标。图像中的各种物体需要被检测出来,比如车辆、机场或树林等。这一过程通常涉及图像预处理、特征提取和目标检测算法。其中最主要的为目标检测算法,常用的有传统的特征提取方法、基于机器学习的方法等,这些算法能够在图像中定位目标的位置和大小。在目标被成功识别之后,接下来的任务是对这些目标进行分类以及检测。在目标分类阶段,算法会判断识别出的目标的属性,例如判断目标是否为机场、车辆等。这一阶段通常利用机器学习或深度学习模型来实现,模型会通过数据训练学习如何根据目标的特征来分类。通过这两个阶段的处理,遥感目标检测不仅可以大幅提高图像数据的利用效率,还能在军事侦察、环境监测、城市规划等多个领域发挥重要作用。在本文中,我们主要关注多模态大语言模型在第二阶段目标分类中的应用。

1.2 大语言模型

大语言模型(large language models,LLMs)是一类基于深度学习技术的模型,主要用于处理和生成自然语言文本。这些模型通常由数十亿甚至数万亿个参数构成,能够理解和生成复杂的语言结构。大语言模型的巨大参数规模使得它们在理解语言的深度和广度上具有卓越的能力。大语言模型在人工智能领域的意义是非凡的,最为重要的是少样本/零样本学习能力,一般称之为预训练和微调机制。模型先在大规模文本数据上进行预训练。学习语言的通用规律和结构,再在特定任务上使用极少量的数据集进行微调,就可以达到极高的性能。这一点对于深度学习领域进行了革新,使得少样本、高性能的形式能够同时出现在模型中[25]。大语言模型在文字领域有着多样的应用场景,能够进行文本理解、语言翻译、摘要生成等多种自然语言处理任务。

1.3 多模态大语言模型

多模态大语言模型是一种集成了处理多种类型数据(如文本、图像、音频等)能力的人工智能模型,这类模型能够理解并整合来自不同感知域的信息,从而执行更复杂和全面的任务[29]。其主要特征在于多模态输入处理,能够同时处理多种类型的数据输入,如文本与图像或文本与音频的组合,提供更全面的数据理解。通过联合学习机制,模型能够学习不同模态数据之间的相互关系和内在联系,从而生成一个统一的、跨模态的数据表示。因此,多模态大语言模型在视觉领域具有良好的应用前景,通过文字模态和图像模型的融合理解,能够通过少量样本甚至无需样本就可以在各个视觉任务如目标检测、图像分类中获得良好性能。

2 本文方法内容

2.1 图像分类流程

本文方法的主要创新之处在于建立了基于在线的多模态大语言模型的遥感图像分类流程,该流程的主要步骤如图4所示,我们首先使用脚本程序文件对需要分类的图像进行信息读取与处理,同时为了能够让大语言模型按指定要求完成图像分类工作,我们需要给出特定的提示指令(prompt),提示指令一般使用自然语言书写,如“帮我判断这张图片是否为机场”。将提示指令和图像打包成信息,我们一般调用特定程序接口将信息通过网络传递给大模型,大模型进行推断,并返回他的文字信息。同样,我们需要脚本程序对文字信息进行解析,并得到最终的分类结果。

图4 自动化的多模态大语言模型遥感图像分类流程

在我们的流程中,多模态大语言模型的分类性能至关重要,目前我国已经出现了多个商用的多模态大语言模型,如阿里的Qwen[26]、零一万物的Yi-vision[27]以及智谱华章科技的Chat-GLM[28],在我们的流程中也使用了这些商用模型进行了多轮性能测试与验证,这进一步验证了我们流程的通用性。

3 实验设置与结果分析

3.1 实验环境与参数配置

本文实验均在Linux操作系统下进行,硬件配置CPU为Intel i5 13400F,建立自动化的脚本文件使用Python书写,版本为3.9。

3.2 数据集描述

本文实验使用的图像数据来自西北工业大学遥感图像集(Northwest Polytechnic University Remote Sensing Image Scene Classification 45,NWPU-RESISC45),NWPU-RESISC4数据集是一个公开可用的遥感图像场景分类基准,由西北工业大学的研究者创建。该数据集包含31 500张图像,涵盖45个场景类,每类700张图像。这45个场景类包括飞机、机场、棒球场等常见的图像场景。实验中,我们以机场为例,选取了100张机场图片作为正类数据集,提示指令为“请帮我判断图片中是否存在机场,只需在句子开头回答‘对’或者‘错’,不需要任何其他的解释”。此外,为了保证实验的科学性,我们还构建了负类数据集,在其他5个类别数据集中各自选取了20张图片,共100张图片。每张图片的分辨率为256×256个像素,以.jpg格式保存,如图5所示。

图5 正/负类数据集示例[12]

3.3 实验结果分析

为了评估MLLMs在遥感目标识别中图像分类的效果,我们的实验涉及所有国内公开的多模态大语言模型,包括零一万物的Yi-vision、阿里巴巴公司的Qwen-VL-plus及智谱华章科技的Chat-GLM-4V,通过对比不同模型在我们构建的数据集上的表现,我们验证其在目标分类中的效果。对于正类数据集,我们记录真正(true positive,TP)TP作为指标,指的是模型正确地将正类样本预测为正类的情况。同样,对于负类数据集,我们记录真负(true negative,TN)TN作为指标,指的是模型正确地将负类样本预测为负类的情况[30]。实验结果表明,多个模型在遥感图像分类任务中均表现优异,无论是在正类数据集还是负类数据集上,MLLMs均能达到较高的分类精度。其中,以Qwen-VLplus为代表的模型在两个数据集中的TPTN精度均达到了100%。如表1所示。

表1 多模态大语言模型测试精度

除了模型精度的验证,我们还计算了经济成本,根据官方所给的单个词元(token)的价格,以及我们实验中单个图片以及指令使用的词元个数,我们可以计算得到每个模型的成本,如表2所示。以Qwen-VL-plus为例,单张图片分类的成本不到0.001元。需要注意的是,此处我们是以个人用户的价格计算,在未来的自动化流程应用中,其价格一般会以企业用户的价格计算,即在大批量的模型调用中,其单价成本会进一步低于我们的计算价格。

表2 模型经济成本

虽然多模态大语言模型在我们的实验验证中同时达到了高预测精度和极低的运行成本的效果,但我们也发现了一些多模态大语言模型具体应用的缺陷。比如,虽然我们在指令中规定了大语言模型的输出格式,便于后续接收文字后的自动处理,但仍然存在模型的部分回答并没有按规定回答的情况。例如,在对Yi-vision模型进行测试时,部分回答提供了对图片的描述和其判断原因,但并没有按照我们指令在句子开头回答是/否,这给我们后续精度计算自动化带来了额外的挑战。此外,由于我们的自动化流程基于远程的大模型接口,需要通过网络传输图片,因此整体的流程推理速度受到网络延迟的限制,三个模型的单次推理速度均在1 s左右,在极高速度要求的应用场景下无法使用该流程。在低延时要求情景下,需要本地部署模型来减少网络延迟。

虽然实验过程中以上的问题会对目前自动化流程的构建产生影响,但我们的实验结果均基于2024年6月1日前各个公司的公开模型进行。多模态大语言模型仍在快速发展,各个公司的模型处于快速迭代中。这意味着,未来其预测性能和推理速度会进一步提升,经济成本会进一步降低,网络基建会进一步完善,因此上述问题也会随着时间的推移而得到解决。

4 结束语

基于视觉的深度学习算法在遥感目标检测领域得到了有效应用,但仍存在数据昂贵、计算资源不足等问题。多模态大语言模型在计算机视觉领域展现了出色的无需数据/少数据学习能力。本文建立了基于在线的多模态大语言模型在遥感目标检测中的自动图像分类流程。实验结果表明,多个模型均能达到80%以上的分类精度与较高的批量处理速度,最为重要的是,我们的自动化流程无需任何本地计算资源(图形计算卡)部署成本,显示了在线的多模态大语言模型在该领域应用的巨大潜力。

参考文献

[1]XU D,WU Y.MRFF-YOLO:a multi-receptive fields fusion network for remote sensing target detection[J].Remote Sensing,2020,12(19):3118-3129.

[2]王伟超,邹维宝.高分辨率遥感影像信息提取方法综述[J].北京测绘,2013,27(4):1-5.

[3]陈伟.轻量卷积神经网络遥感影像目标检测方法[J].北京测绘,2022,36(2):178-183.

[4]何超.地质灾害体遥感变化信息检测及趋势分析[J].国土资源遥感,2017,29(增刊1):27-33.

[5]张圆,孔祥思,张烁,等,深度学习技术在遥感影像滑坡识别中的应用[J].北京测绘,2022,36(10):1385-1390.

[6]王璠,杨璐萍.多源高分辨率遥感影像不透水面提取[J].北京测绘,2022,36(9):1159-1163.

[7]夏旺.结合自注意力机制的多特征融合点云语义分割网络[J].北京测绘,2023,37(3):443-447

[8]ZHU X,TUIA D,MOU L,et al.Deep learning in remote sensing:a comprehensive review and list of resources[J].IEEE Geoscience and Remote Sensing Magazine,2017,5(4):8-36.

[9]JOO H,JEON J.Feature-point extraction based on an improved SIFT algorithm[EB/OL].(2017-10-18)[2024-09-18].https://ieeexplore.ieee.org/iel7/8167731/8204193/08204463.pdf.

[10]MUKHTAR A,TANG T B.Vision based motorcycle detection using HOG features[EB/OL].(2015-10-01)[2024-09-18].https://www.researchgate.net/profile/Amir_Mukhtar2/publication/297713866_Vision_Based_Motorcycle_Detection_using_HOG_features/links/56e0f74908ae979addf1033a/Vision-Based-Motorcycle-Detection-using-HOG-features.pdf?_tp=eyJjb250-ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19.

[11]CRISTIANINI N,SHAWE-TAYLOR J.An introduction to support vector machines and other kernel-based learning methods[M].Cambridge,UK:Cambridge University Press,2000.

[12]CHENG G,HAN J,LU X.Remote sensing image scene classification:benchmark and state of the art[EB/OL].[2024-09-18].https://arxiv.org/pdf/1703.00121.

[13]COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1):21-27.

[14]徐宗霞,蔡彩,李泽宇,等.基于深度学习的遥感变化检测技术应用研究[J].北京测绘,2023,37(2):248-253.

[15]刘纪平,王琢璐,徐胜华,等.人工智能时代下的应急测绘[J].武汉大学学报(信息科学版),2025,50(6):1029-1041.

[16]李彦胜,吴敏郎,张永军.知识图谱约束深度网络的高分辨率遥感影像场景分类[J].测绘学报,2024,53(4):677-688.

[17]刘宣广,李蒙蒙,汪小钦,等.基于面向对象孪生神经网络的高分辨率遥感影像建筑物变化检测[J].遥感学报,2024,28(2):437-454.

[18]陈力.高分辨率遥感影像的可信智能场景分类方法[J].武汉大学学报(信息科学版),2023,48(12):2104.

[19]杨蕊宁,张景雄,贺超,等.高分辨率遥感影像位置精度建模的机器学习方法[J].测绘地理信息,2023,48(4):11-15.

[20]于明洋,陈肖娴,张文焯,等.融合网格注意力阀门和特征金字塔结构的高分辨率遥感影像建筑物提取[J].地球信息科学学报,2022,24(9):1785-1802.

[21]林文杰.基于最小生成树的高分辨率遥感影像层次化分割方法研究[J].测绘学报,2022,51(2):316.

[22]张继贤,顾海燕,杨懿,等.高分辨率遥感影像智能解译研究进展与趋势[J].遥感学报,2021,25(11):2198-2210.

[23]ZHENG Z, LEI L, SUN H, et al. FAGNet:multi-scale object detection method in remote sensing images by combining MAFPN and GVR[J]. Journal of Computer-Aided Design& Computer Graphics, 2021, 33(6):883-894.

[24]LIN Y D, HE H J, YIN Z K, et al. Rotation-invariant object detection in remote sensing images based on radial-gradient angle[J]. IEEE Geoscience and Remote Sensing Letters,2015, 12(4):746-750.

[25]BROWN T,KOJIMA T,GU S X.Large language models are zero-shot reasoners[EB/OL].[2024-09-18].https://arxiv.org/pdf/2205.11916.

[26]BAI J,BAI S,YANG S,et al.Qwen-VL:a versatile visionlanguage model for understanding,localization,text reading,and beyond[EB/OL].(2023-10-13)[2024-07-01].https://arxiv.org/pdf/2308.12966.

[27]YOUNG A,CHEN B,LI C,et al.Yi:open foundation models by 01.AI[EB/OL].(2024-05-07)[2024-07-01].https://arxiv.org/abs/2403.04652.

[28]ZENG A,XU B,WANG B,et al.ChatGLM:a family of large language models from GLM-130B to GLM-4 all tools[EB/OL].(2024-07-30)[2024-08-01].https://arxiv.org/abs/2406.12793.

[29]CHEN F L,ZHANG D Z,HAN M L,et al.VLP:A Survey on Vision-language Pre-training[J].Mach.Intell.Res.,2023,20:38-56.

[30]BISHOP C M.Pattern recognition and machine learning[M].New York:Springer,2006.

[中图分类号]P208

[文献标识码]A

[文章编号]1007-3000(2025)08-1091-06

引文格式:郭东艳,马丽丽,金贤咏.基于多模态大语言模型的遥感目标检测:以图像分类为例[J].北京测绘,2025,39(8):1091-1096.

[收稿日期]2024-10-16

[基金项目]北京市自然科学基金(8222011)

[作者简介]

郭东艳(1993—),女,浙江绍兴人,大学本科,助理工程师,研究方向为遥感测绘。

E-mail: 867770135@qq.com

【声明】内容源于网络
0
0
北京测绘杂志社
以科学技术是第一生产力为指导,以推动科学技术成果转化为生产力为目标,紧密结合测绘地理信息发展,在生产、管理、科研、教学等方面开展技术与学术交流,介绍测绘地理信息新技术经验,为测绘地理信息各界传播高、新科技信息提供全方位的服务。
内容 119
粉丝 0
北京测绘杂志社 以科学技术是第一生产力为指导,以推动科学技术成果转化为生产力为目标,紧密结合测绘地理信息发展,在生产、管理、科研、教学等方面开展技术与学术交流,介绍测绘地理信息新技术经验,为测绘地理信息各界传播高、新科技信息提供全方位的服务。
总阅读33
粉丝0
内容119