

CVPR2024｜针对自动驾驶场景下单目深度估计模型的对抗攻击

极市平台

2024-04-09

↑ 点击蓝字关注极市平台

作者丨郑君豪

来源丨CVer

编辑丨极市平台

极市导读

本文提出3D Depth Fool （3D²FoO），第一个针对MDE模型的基于3D纹理的对抗攻击。3D²FoO经过优化可生成与汽车模型种类无关的3D对抗纹理，并提高了在恶劣天气条件(如雨、雾)下的鲁棒性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

投稿人简介：郑君豪，西安交通大学网络空间安全学院博士一年级学生，导师是沈超老师，主要研究方向为自动驾驶感知安全和对抗攻击。本文介绍西安交通大学网络空间学院先智所提出的针对自动驾驶场景下单目深度估计模型的对抗攻击方法，论文被CVPR2024收录。

Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous Driving

论文：https://arxiv.org/abs/2403.17301

代码：https://github.com/gandolfczjh/3d2fool

摘要

基于深度学习的单目深度估计(MDE)被广泛应用于自动驾驶领域，容易受到对抗攻击。以往针对 MDE模型的物理对抗攻击依赖于对抗补丁，因此它们只能影响估计深度图中的一个小的局部区域，并且不能保证在不同视角下保持稳定的攻击效果。为解决这些限制，本文提出3D Depth Fool 方法，第一个针对MDE模型的基于纹理的对抗攻击。具体来说，经过优化可生成与汽车模型种类无关的对抗纹理，并提高了在恶劣天气条件(如雨、雾)下的鲁棒性。实验结果验证了3D Fool在各种场景中的优越性能，包括不同的汽车类型、MDE模型、天气条件和视角下。在物理世界中，我们在汽车模型上打印纹理，实验结果表明我们的可以导致超过10米的深度估计误差。

简介

尽管深度神经网络(DNNs)被广泛应用，但是它们容易受到对抗攻击的影响，这也对基于DNNs的MDE模型构成了安全威胁。对抗攻击可以根据应用场景分为两种类型：数字域对抗攻击和物理域对抗攻击。数字域攻击主要是对图像像素添加小的扰动，由于其对物理变化(如打印、天气条件和视角变化)的敏感性，它们很难直接转化到物理世界中。物理域攻击通过在各种物理约束下优化扰动来解决这些限制，并且它们在误导现实世界的自动驾驶系统的感知模型上取得了一定成功(CAMOU[1], DAS[2], FCA[3], DTA[4], ACTIVE[5])。在物理世界的攻击中，攻击者往往设计一个2D对抗补丁或3D伪装纹理并将其粘贴到目标车辆上，由摄像头捕获，然后将其输入到受害者模型中。2D对抗补丁仅能粘贴在物体表面的局部平面部分，无法在不同的视角和距离上实现对抗效果。相比之下，3D伪装纹理是为了覆盖车辆的整个表面，从而在任何视角下都能获得更好的攻击性能。

图二 (a)现有的2D对抗补丁攻击(APARATE[7], SPOO[9])和(b)其3D对抗纹理的修改版本未能完全从MDE预测深度图中隐藏车辆，而(c)我们的鲁棒3D对抗性纹理使汽车消失

然而，现有的自动驾驶中的物理世界攻击主要集中在目标检测(DTA[4]，ACTIVE[5])，只有少数针对 MDE的攻击。此外，现有的针对MDE 的攻击都是基于 2 D对抗补丁 (APA[6]，APARATE[7]， SAAM[8]，SPOO[9]），这些对抗补丁在不同角度和距离的条件下不可避免地受到限制。本文提出深度欺骗攻击，第一个针对 MDE模型的3D对抗伪装攻击。3 生成鲁棒的伪装纹理，适用于不同种类的目标车辆，并且在多个角度、距离均有效。此外，我们进一步模拟攻击优化过程中的天气情况，以提高恶劣天气下的攻击性能。

方法

问题定义：为了获取一个对抗纹理种子，其能使得MDE模型对带有攻击纹理的汽车误判距离，记估计距离为，目标距离为，公式记为:

纹理转换：将对抗纹理种子转换为可以粘贴到任意目标物体上的纹理，此处目标包括各种汽车类型，甚至包括行人等。公式记为:

沿边缘直接拼接，后者即为翻转、旋转等变换。用的渲染器为可微分渲染，记为，因此公式记为

此处表示渲染时所需的相机位姿。

对抗增强：通过一系列的物理变换，模拟物理世界的对攻击样本的影响，包括阴影、曝光、以及雨雾等恶劣天气，然后使用掩膜对汽车边缘进行裁剪，将其粘贴到自然的背景图片中，以获得最终的对抗图片，因此公式记为:

实验

实验在Carla 渲染器中完成，用于测评的MDE模型包括：Monodepth2[10]，Depthhints[11]， Manydepth[12]，Robustdepth[13]，具体的实验细节欢迎阅读原文。

首先是在不同角度和距离下，测量现有攻击MDE模型方法的平均深度估计误差和影响区域面积占比，攻击效果如下图表所示。

在不同的天气条件下，分别测试各攻击方法对Monodepth2[10]模型的攻击效果，结果如下图表所示。

在不同的目标物体上，如行人、公交、卡车上，分别测试各攻击方法对Monodepth2[10]模型的攻击效果，结果如下图表所示。

在物理世界的实验测试中，我们将纹理粘贴在汽车模型表面，测试对Monodepth2[10]模型的攻击效果，结果如下图表所示。

Reference

[1] Yang Zhang, Hassan Foroosh, Phiip David, and Boqing Gong. Camou: Learning physical vehicle camouflages to adversarially attack detectors in the wild. In International Conference on Learning Representations, 2018.

[2] J. Wang, A. Liu, Z. Yin, S. Liu, S. Tang, and X. Liu. Dual attention suppression attack: Generate adversarial camouflage in physical world. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

[3] Donghua Wang, Tingsong Jiang, Jialiang Sun, Weien Zhou, Zhiqiang Gong, Xiaoya Zhang, Wen Yao, and Xiaoqian Chen. Fca: Learning a 3d full-coverage vehicle camouflage for multi-view physical adversarial attack. In Proceedings of the AAAI conference on artificial intelligence, 2022

[4] Naufal Suryanto, Yongsu Kim, Hyoeun Kang, Harashta Tatimma Larasati, Youngyeo Yun, Thi-Thu-Huong Le, Hunmin Yang, Se-Yoon Oh, and Howon Kim. Dta: Physical camouflage attacks using differentiable transformation network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022

[5] Naufal Suryanto, Yongsu Kim, Harashta Tatimma Larasati, Hyoeun Kang, Thi-Thu-Huong Le, Yoonyoung Hong, Hunmin Yang, Se-Yoon Oh, and Howon Kim. Active: Towards highly transferable 3d physical camouflage for universal and robust vehicle evasion. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023

[6] Koichiro Yamanaka, Ryutaroh Matsumoto, Keita Takahashi, and Toshiaki Fujii. Adversarial patch attacks on monocular depth estimation networks. IEEE Access, 8:179094–179104, 2020.

[7] Amira Guesmi, Muhammad Abdullah Hanif, Ihsen Alouani, and Muhammad Shafique. Aparate: Adaptive adversarial patch for cnn-based monocular depth estimation for autonomous navigation, 2023

[8] Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, and Muhammad Shafique. Saam: Stealthy adversarial attack on monoculor depth estimation. ArXiv, abs/2308.03108, 2023

[9] Zhiyuan Cheng, James Liang, Hongjun Choi, Guanhong Tao, Zhiwen Cao, Dongfang Liu, and Xiangyu Zhang. Physical attack on monocular depth estimation with optimal adversarial patches. In Computer Vision – ECCV 2022, pages 514–532, Cham, 2022.

[10] Clement Godard, Oisin Mac Aodha, Michael Firman, and Gabriel J. Brostow. Digging into self-supervised monocular depth prediction. 2019

[11] Jamie Watson, Michael Firman, Gabriel J. Brostow, and Daniyar Turmukhambetov. Self-supervised monocular depth hints. In The International Conference on Computer Vision (ICCV), 2019

[12] Jamie Watson, Oisin Mac Aodha, Victor Prisacariu, Gabriel Brostow, and Michael Firman. The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth. In Computer Vision and Pattern Recognition (CVPR), 2021

[13] Kieran Saunders, George Vogiatzis, and Luis J. Manso. Self-supervised Monocular Depth Estimation: Let's Talk About The Weather. In The International Conference on Computer Vision (ICCV), 2023