

StfMLP:用于遥感图像时空融合的多层感知机（IEEE GRSL）

极市平台

2023-02-25

导读：本文参考特征金字塔网络（FPN），提出一种基于MLP结构的深度学习STF方法。

↑ 点击蓝字关注极市平台

作者丨Hailiang Lu

编辑丨极市平台

极市导读

本文提出了一种基于深度多层感知机（MLP）结构的时空融合（STF）方法StfMLP，与其他STF方法相比，StfMLP以更快的收敛速度对未知图像进行重建，尤其在具有物候特征明显的区域表现出色。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

文章由东北林业大学、深圳sailyond科技有限公司、埃及姆努菲亚大学合作完成，2022年发表在《IEEE Geoscience and remote sensing letters》的遥感图像时空融合方法。

论文链接：https://ieeexplore.ieee.org/abstract/document/9999642

代码链接：https://github.com/luhailaing-max/StfMLP-master

摘要：

遥感图像具有较高的时空分辨率，对于监测地球表面景观周期性变化具有重要意义。为了获取丰富的遥感图像，时空融合(STF)方法被认为是一种有效的途径。当前时空融合方法面临的主要挑战是对大规模数据的需求。在这项工作中，我们提出了一种深度学习方法，称为时空融合多层感知机(StfMLP)，来缓解这一问题。首先，StfMLP以转导学习的方式，只关注有限的输入数据。其次，我们设计的多层感知机(MLP)模型用来捕获输入图像之间的时间依赖性和时间一致性。因此，StfMLP能够实现更精确的融合，并只需要较少的输入数据。我们在两个公开数据集上进行了验证，即Coleambally灌溉区(CIA)和Gwydir集水区(LGC)。实验结果表明，该方法在融合性能和收敛时间上优于现有方法。

模型：

所提出的StfMLP的目标是通过使用粗图像C1、C2和C3(在Time1、Time2和Time3)和细图像F1和F3(在Time1和Time3)来预测细图像F2(在Time2)。

所提出的StfMLP框架如图1所示。

A. 训练阶段

在训练阶段，将输入的三幅粗图像(C1, C2, C3)分别相减得到粗差图像(C12, C23, C13)。同时结合两幅细图像(F1和F3)共同作为MLP网络中子网络(N1和N2：具有相同的结构)的输入(图1)。通过提出的MLP子网络，可以学习到粗图像与细图像之间的映射关系：

其中，和分别为网络N1与N2的可学习参数。N1_F12与N2_F23是细图像F2与细图像（F1，F3）的差值图像，在预测阶段进一步处理。N1_F13与N2_F13为细图像F1与细图像F3的差值图像，仅用于训练阶段。N1与N2网络每次迭代时运算流程相同，例如N1中，首先将（C12, F1）作为输入，输出N1_F12，然后输入（C13, F1）输出N1_F13。

1）MLP Net：每个子网络中的一个Level层主要包含多个MLP层和一个或者0个Transition层（图2），以便在Level层之间提取和压缩特征图。输入图像首先被裁剪成填充值为0，不重叠（40，40，6）大小的图像块。然后将两幅对应的输入图像进行通道维度的拼接，得到（40，40，12）大小的图像块。通过输入层生成初始特征图（40×40，60）。使用多层MLP在每个Level层提取不同维度的特征图。

采用的MLP结构如下公式所示：

其中表示层的输入与输出特征图, 分别表示高, 宽与通道数, B 表示 batch size。为 GELU 函数, 是层归一化函数 (LayerNorm)。和代表线性层的权重。

对于过渡（Transition）层，我们结合转置运算完成了特征图的降维。从而使MLP层可以提取不同维度的特征信息。Transition层可由如下公式表示：

其中, 表示转置操作, 是 Level 的标识。, 且。最后结合所有 Level 的特征图，并进行上采样。综合考虑多维特征进行目标细差图像的重建。

2）损失函数：需要重构的目标细图像F2可以通过相邻的细图像及其对应细差图像获得：即F1+F12,或者F3-F23，更好的F2重构应该综合考虑这两种情况。因此，在提出的模型中，细差分图像F12（N1_F12）可以利用N1网络从C12中获得。同理F23（N2_F23）可以通过N2获得。另外，为了满足文献[17]中的时间依赖性与一致性，F1与F3也被作为网络的输入，并且N1_F13与N2_F13也通过网络N1与N2预测，结合真实的F13，参与模型损失函数的计算。

其中和分别为两个 MLP 网络 (N1, N2) 的可学习的参数。LDep 表示时间依赖, 表示时间一致。为权重参数。参考文献 , 我们将设置为 .

B. 预测阶段

预测阶段使用自适应局部权重策略进行细图像F2的重构：

其中α表示权重参数。一般认为，两幅粗图像结构相似性越高，预测出的细图像越好。因此，对于权重α的定义，采用以下公式：

其中ave(C12), ave(C23)分别表示粗差图像C12与C23像素值的绝对平均值。β是一个阈值常量，本文参考StfNet[17]，设置为0.2.

实验分析：

A. 实验数据

我们采用的实验数据与文献[18]保持一致，称为CIA与LGC[23]。CIA中包含17对无云的Landsat-MODIS图像对，尺寸为1720×2040，LGC中包含14对无云的Landsat-MODIS图像对，尺寸为3200×2720。两个数据集都包含6个波段，并且已经完成了图像对之间的波段对应工作。考虑到无效值以及实验方便，我们将所有图像统一裁剪为1280×1800像素大小。选择三种不同的STF方法与所提出的方法进行对比：

1）STARFM[8]：基于权重的融合方法。

2）FSDAF[13]：基于光谱解混结合权重函数的融合方法。

3）StfNet[17]：一种基于转导学习的深度学习方法。

用于实验的硬件平台主要包括2块Tesla V100s显卡，64GB内存。Batch size设置为64。采用SGD优化器，初始学习率为0.1，weight decay设置为0.0001.迭代次数设置为600，并且每300次迭代，通过StepLR方法将学习率再减少到原来的十分之一，直到学习率缩小到0.001。

B. 实验结果

1）算法性能实验：去掉数据集中的第一幅与最后一幅图像，我们测试了CIA中的15对图像，以及LGC中的12对图像。表Ⅰ和表Ⅱ给出了所有测试图像在5个评价指标（RMSE, SAM, ERGAS, CC, SSIM）上的平均值。表Ⅰ中，StfMLP在两个数据集上的性能远高于STARFM与FSDAF方法。

只有在LGC数据集上，StfNet方法略胜于本文提出的方法：在RMSE上比本文所提方法低0.0006，SAM比本文所提方法低0.0022，ERGAS比本文所提方法低0.0091，CC上比本文所提方法高0.0046，SSIM比本文所提方法高0.0047。但是本文提出的方法StfMLP可以实现更快的收敛速度，可以达到较少的训练时间（表Ⅲ）。特别是StfNet在预测阶段采用重叠块预测，以缓解边界效应，但是效果并不明显。因此，在我们的预测中忽略了边界效应，以实现更快的预测速度。

另外，两个数据集的可视化结果如图3和图4所示。从可视化中可以看出，两种深度学习方法（StfNet, StfMLP）在空间结构上预测效果远好于其他两种传统方法(STARFM, FSDAF)。特别是在LGC数据集中，FSDAF方法的预测结果出现了许多异常值，这是由于解混过程的错误像素值所导致的。回顾预测结果，在具有明显物候变化的CIA 数据集上，StfMLP取得了最好的预测效果。在具有土地类型变化的LGC数据集上，StfMLP的性能略差于StfNet。这也表明StfMLP方法对物候变化区域的重构能力较高，对地物类别变化区域的重构能力不足。

图3 2001年12月4日CIA数据集参考图像与预测图像，(a)参考的真实图像。预测图像：(b) STARFM, (c) FSDAF, (d) StfNet, (e) StfMLP. 右上角为图中方框区域的放大图。

图4 2001年1月29日LGC数据集参考图像与预测图像，(a)参考的真实图像。预测图像：(b) STARFM, (c) FSDAF, (d) StfNet, (e) StfMLP. 右上角为图中方框区域的放大图。

2）不同输入尺寸实验：为了验证不同输入图像块对于本文提出算法的影响，我们采用了三种图像尺寸：40×40像素（模型所允许输入的最小尺寸），50×50像素（StfNet方法采用的尺寸），60×60像素（GPU显存允许的最大尺寸）。从表Ⅱ中可以看出，输入的图像尺寸越小，性能指标越高。这是因为小的图像尺寸对应较大的训练数据集合，从而提高了融合性能。故本文最终选取40×40像素作为模型输入的图像尺寸。

结论：

本文参考特征金字塔网络（FPN），提出一种基于MLP结构的深度学习STF方法，更适合于实际应用需求。实验结果表明所提出的方法在具有明显物候变化的区域表现出色，并获得更低得时间消耗。未来我们将考虑FPN的变种网络，或者其它网络结构，例如SPP-net[24], ASPP[25], RFBNet[26], 和SAM[27]等进行特征信息的提取。