大数跨境
0
0

StfMLP:用于遥感图像时空融合的多层感知机(IEEE GRSL)

StfMLP:用于遥感图像时空融合的多层感知机(IEEE GRSL) 极市平台
2023-02-25
0
导读:本文参考特征金字塔网络(FPN),提出一种基于MLP结构的深度学习STF方法。
↑ 点击蓝字 关注极市平台
作者丨Hailiang Lu 
编辑丨极市平台

极市导读

 

本文提出了一种基于深度多层感知机(MLP)结构的时空融合(STF)方法StfMLP,与其他STF方法相比,StfMLP以更快的收敛速度对未知图像进行重建,尤其在具有物候特征明显的区域表现出色。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文章由东北林业大学、深圳sailyond科技有限公司、埃及姆努菲亚大学合作完成,2022年发表在《IEEE Geoscience and remote sensing letters》的遥感图像时空融合方法。

论文链接:https://ieeexplore.ieee.org/abstract/document/9999642

代码链接:https://github.com/luhailaing-max/StfMLP-master

摘要:

遥感图像具有较高的时空分辨率,对于监测地球表面景观周期性变化具有重要意义。为了获取丰富的遥感图像,时空融合(STF)方法被认为是一种有效的途径。当前时空融合方法面临的主要挑战是对大规模数据的需求。在这项工作中,我们提出了一种深度学习方法,称为时空融合多层感知机(StfMLP),来缓解这一问题。首先,StfMLP以转导学习的方式,只关注有限的输入数据。其次,我们设计的多层感知机(MLP)模型用来捕获输入图像之间的时间依赖性和时间一致性。因此,StfMLP能够实现更精确的融合,并只需要较少的输入数据。我们在两个公开数据集上进行了验证,即Coleambally灌溉区(CIA)和Gwydir集水区(LGC)。实验结果表明,该方法在融合性能和收敛时间上优于现有方法。

模型:

所提出的StfMLP的目标是通过使用粗图像C1、C2和C3(在Time1、Time2和Time3)和细图像F1和F3(在Time1和Time3)来预测细图像F2(在Time2)。

所提出的StfMLP框架如图1所示。

图1 StfMLP框架图

A. 训练阶段

在训练阶段,将输入的三幅粗图像(C1, C2, C3)分别相减得到粗差图像(C12, C23, C13)。同时结合两幅细图像(F1和F3)共同作为MLP网络中子网络(N1和N2:具有相同的结构)的输入(图1)。通过提出的MLP子网络,可以学习到粗图像与细图像之间的映射关系:

其中, 分别为网络N1与N2的可学习参数。N1_F12与N2_F23是细图像F2与细图像(F1,F3)的差值图像,在预测阶段进一步处理。N1_F13与N2_F13为细图像F1与细图像F3的差值图像,仅用于训练阶段。N1与N2网络每次迭代时运算流程相同,例如N1中,首先将(C12, F1)作为输入,输出N1_F12, 然后输入(C13, F1) 输出N1_F13。

1)MLP Net:每个子网络中的一个Level层主要包含多个MLP层和一个或者0个Transition层(图2),以便在Level层之间提取和压缩特征图。输入图像首先被裁剪成填充值为0,不重叠(40,40,6)大小的图像块。然后将两幅对应的输入图像进行通道维度的拼接,得到(40,40,12)大小的图像块。通过输入层生成初始特征图(40×40,60)。使用多层MLP在每个Level层提取不同维度的特征图。

图2 MLP net网络结构图

采用的MLP结构如下公式所示:

其中 表示 层的输入与输出特征图, 分别表示高, 宽与通道数, B 表示 batch size。 为 GELU 函数, 是层归一化函数 (LayerNorm)。 代表线性层的权重。

对于过渡(Transition)层,我们结合转置运算完成了特征图的降维。从而使MLP层可以提取不同维度的特征信息。Transition层可由如下公式表示:

其中, 表示转置操作, 是 Level 的标识。, 且 。最后结合所有 Level 的特征图,并进行上采样。综合考虑多维特征进行目标细差图像的重建。

2)损失函数:需要重构的目标细图像F2可以通过相邻的细图像及其对应细差图像获得:即F1+F12,或者F3-F23,更好的F2重构应该综合考虑这两种情况。因此,在提出的模型中,细差分图像F12(N1_F12)可以利用N1网络从C12中获得。同理F23(N2_F23)可以通过N2获得。另外,为了满足文献[17]中的时间依赖性与一致性,F1与F3也被作为网络的输入,并且N1_F13与N2_F13也通过网络N1与N2预测,结合真实的F13,参与模型损失函数的计算。

其中 分别为两个 MLP 网络 (N1, N2) 的可学习的参数。LDep 表示时间依赖, 表示时间一致。 为权重参数。参考文献 , 我们将 设置为 .

B. 预测阶段

预测阶段使用自适应局部权重策略进行细图像F2的重构:

其中α表示权重参数。一般认为,两幅粗图像结构相似性越高,预测出的细图像越好。因此,对于权重α的定义,采用以下公式:

其中ave(C12), ave(C23)分别表示粗差图像C12与C23像素值的绝对平均值。β是一个阈值常量,本文参考StfNet[17],设置为0.2.

实验分析:

A. 实验数据

我们采用的实验数据与文献[18]保持一致,称为CIA与LGC[23]。CIA中包含17对无云的Landsat-MODIS图像对,尺寸为1720×2040,LGC中包含14对无云的Landsat-MODIS图像对,尺寸为3200×2720。两个数据集都包含6个波段,并且已经完成了图像对之间的波段对应工作。考虑到无效值以及实验方便,我们将所有图像统一裁剪为1280×1800像素大小。选择三种不同的STF方法与所提出的方法进行对比:

1)STARFM[8]:基于权重的融合方法。

2)FSDAF[13]:基于光谱解混结合权重函数的融合方法。

3)StfNet[17]:一种基于转导学习的深度学习方法。

用于实验的硬件平台主要包括2块Tesla V100s显卡,64GB内存。Batch size设置为64。采用SGD优化器,初始学习率为0.1,weight decay设置为0.0001.迭代次数设置为600,并且每300次迭代,通过StepLR方法将学习率再减少到原来的十分之一,直到学习率缩小到0.001。

B. 实验结果

1)算法性能实验:去掉数据集中的第一幅与最后一幅图像,我们测试了CIA中的15对图像,以及LGC中的12对图像。表Ⅰ和表Ⅱ给出了所有测试图像在5个评价指标(RMSE, SAM, ERGAS, CC, SSIM)上的平均值。表Ⅰ中,StfMLP在两个数据集上的性能远高于STARFM与FSDAF方法。

只有在LGC数据集上,StfNet方法略胜于本文提出的方法:在RMSE上比本文所提方法低0.0006,SAM比本文所提方法低0.0022,ERGAS比本文所提方法低0.0091,CC上比本文所提方法高0.0046,SSIM比本文所提方法高0.0047。但是本文提出的方法StfMLP可以实现更快的收敛速度,可以达到较少的训练时间(表Ⅲ)。特别是StfNet在预测阶段采用重叠块预测,以缓解边界效应,但是效果并不明显。因此,在我们的预测中忽略了边界效应,以实现更快的预测速度。

另外,两个数据集的可视化结果如图3和图4所示。从可视化中可以看出,两种深度学习方法(StfNet, StfMLP)在空间结构上预测效果远好于其他两种传统方法(STARFM, FSDAF)。特别是在LGC数据集中,FSDAF方法的预测结果出现了许多异常值,这是由于解混过程的错误像素值所导致的。回顾预测结果,在具有明显物候变化的CIA 数据集上,StfMLP取得了最好的预测效果。在具有土地类型变化的LGC数据集上,StfMLP的性能略差于StfNet。这也表明StfMLP方法对物候变化区域的重构能力较高,对地物类别变化区域的重构能力不足。

图3 2001年12月4日CIA数据集参考图像与预测图像,(a)参考的真实图像。预测图像:(b) STARFM, (c) FSDAF, (d) StfNet, (e) StfMLP. 右上角为图中方框区域的放大图。
图4 2001年1月29日LGC数据集参考图像与预测图像,(a)参考的真实图像。预测图像:(b) STARFM, (c) FSDAF, (d) StfNet, (e) StfMLP. 右上角为图中方框区域的放大图。

2)不同输入尺寸实验:为了验证不同输入图像块对于本文提出算法的影响,我们采用了三种图像尺寸:40×40像素(模型所允许输入的最小尺寸),50×50像素(StfNet方法采用的尺寸),60×60像素(GPU显存允许的最大尺寸)。从表Ⅱ中可以看出,输入的图像尺寸越小,性能指标越高。这是因为小的图像尺寸对应较大的训练数据集合,从而提高了融合性能。故本文最终选取40×40像素作为模型输入的图像尺寸。

结论:

本文参考特征金字塔网络(FPN),提出一种基于MLP结构的深度学习STF方法,更适合于实际应用需求。实验结果表明所提出的方法在具有明显物候变化的区域表现出色,并获得更低得时间消耗。未来我们将考虑FPN的变种网络,或者其它网络结构,例如SPP-net[24], ASPP[25], RFBNet[26], 和SAM[27]等进行特征信息的提取。

未来研究方向:

当前基于深度学习的时空融合方法取得了明显的性能优势,但是很多方法都需要大量的训练数据,并且需要较大的时间消耗,难以应用于实际。接下来可以进一步研究如何在较少输入数据和时间消耗的情况下取得更好的融合性能。从而服务于实际应用。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

技术干货损失函数技术总结及Pytorch使用示例深度学习有哪些trick?目标检测正负样本区分策略和平衡策略总结
实操教程GPU多卡并行训练总结(以pytorch为例)CUDA WarpReduce 学习笔记卷积神经网络压缩方法总结

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k