前沿：深度学习计算成像：数据驱动还是物理驱动？| Adv. Photon. Nexus- 大数跨境

首页

前沿：深度学习计算成像：数据驱动还是物理驱动？| Adv. Photon. Nexus

两江科技评论

2025-04-14

导读：香港大学林彦民教授和西北工业大学王凯强副教授（曾任香港大学博士后研究员）在相同的条件背景下对数据驱动和物理驱动两种策略进行了对比，如时耗、精度、泛化能力、病态适应能力和先验容纳能力。

Advanced Photonics Nexus 2024年第5期论文：

Kaiqiang Wang, Edmund Y. Lam, "Deep learning phase recovery: data-driven, physics-driven, or a combination of both?," Adv. Photon. Nexus 3, 056006 (2024)

背景介绍

近年来，深度学习方法为计算成像领域引入了新的活力，其中以数据驱动和物理驱动两种方式为主要代表。作为计算成像中一个经典的逆问题，相位恢复方法能够从强度测量中恢复光波相位，进而定量分析样品的生物物理特性。它活跃于成像和测量的各个领域，例如在生物医学成像中获取组织/细胞的折射率或厚度分布，在自适应光学中表征畸变波前，在相干衍射成像中检测纳米分子的结构信息，以及在精密测量中表征元件的表面轮廓或面型分布。深度学习相位恢复方法存在两种驱动策略，即数据驱动和物理驱动。数据驱动方法使用配对数据集中的隐式先验引导神经网络收敛，而物理驱动方法使用物理模型中的显式先验引导神经网络收敛。两者以不同的方式实现相同的目标，殊途同归。

香港大学林彦民教授和西北工业大学王凯强副教授（曾任香港大学博士后研究员）在相同的条件背景下对数据驱动和物理驱动两种策略进行了对比，如时耗、精度、泛化能力、病态适应能力和先验容纳能力。此外，研究人员提出了一种数据和物理联合的驱动策略以平衡高频和低频信息。研究结果以“Deep learning phase recovery: data-driven, physics-driven, or a combination of both?”为题，发表在Advanced Photonics Nexus 2024年第5期，并获选为Editors' Pick。本文同时收录于Advanced Photonics 姐妹刊的联合专题“ AI and Photonics”中，该专题邀请到加州大学圣地亚哥分校Yeshaiahu (Shaya) Fainman教授和中国科学院上海光机所司徒国海研究员担任专题编委，集中发布和分享人工智能与光子学交叉领域的基础研究和突破性应用进展。

数据驱动和物理驱动的原理

考虑一种端到端的深度学习相位恢复范式：使用神经网络从全息图（衍射图样）中推断光波相位，也就是神经网络的输入和输出分别是全息图和相位。

数据驱动（Data-driven, DD）的深度学习相位恢复方法如图1所示。通过实验或模拟获取的训练数据集通常包含数千到数十万的全息图-相位配对数据，其中就包含了从全息图到相位的隐式先验（Implicit prior）。在监督模式下，训练阶段通常持续数小时甚至数天，但只需进行一次。之后，将待测样品的全息图喂入训练好的神经网络后便可快速推断出光波相位。

图1 数据驱动（DD）的深度学习相位恢复方法

物理驱动(Physics-driven, PD)的深度学习相位恢复方法如图2所示。在自监督模式下，使用数值传播方程作为显式先验（Explicit prior）引导神经网络的收敛。与在相位域计算损失函数的DD不同，PD通过数值传播方程将神经网络输出从相位域转换到全息图域后计算损失函数。PD可以通过三种方式优化神经网络：未训练的PD（untrained PD, uPD）、训练的PD（trained PD, tPD）、带有微调的tPD（tPD with refinement, tPDr）。

在数值传播方程的驱动下，uPD直接对一个初始化/未训练的神经网络进行迭代优化，从待测样品的全息图中推断光波相位，如图2(a)所示。uPD的优势在于推断之前不需要任何数据集对神经网络进行预处理。tPD使用数值传播方程和纯全息图组成的数据集训练神经网络，然后使用训练好的神经网络从待测样品的全息图中快速推断光波相位，如图2(b)所示。tPDr可以看作uPD和tPD的结合，使用待测样品的全息图和数值传播方程对一个预训练的神经网络进行迭代微调，进而推断光波相位，如图2(c)所示。

为清楚起见，研究人员根据物理模型的需求与否、训练数据集的构成、推断周期数、学习模式，将所有方法汇总在表1中。

图2 物理驱动（PD）的深度学习相位恢复方法。(a) uPD；(b) tPD；(c) tPDr

表1 DD、uPD、tPD和tPDr的汇总

数据驱动和物理驱动的对比

在耗时方面，DD、tPD、tPDr都需要在推断前花费数小时甚至更多时间对神经网络进行预训练，而uPD无需预训练，可直接在初始化的神经网络上对待测样品进行推理。在DD和tPD的推断阶段，待测样品的全息图只需经过训练好的神经网络一次即可，而uPD和tPDr的推断过程需要数分钟的迭代时间。

在精度方面，预训练后使用神经网络进行快速推断的DD和tPD的精度指标基本相同，并且明显低于使用了迭代推断的uPD和tPDr。由于在预训练阶段引入了来自纯全息图数据集和数值传播方程的先验知识，tPDr的初始推断更接近目标解，这使得它以更少的推断周期获得与uPD相同的精度。

在泛化能力方面，由于推断时用来优化神经网络的先验知识来自数值传播方程，故uPD和tPDr适用于任何分布的待测样品。为了对比DD和tPD的泛化能力，研究人员分别使用ImageNet、LFW、MNIST数据库作为虚拟相位样品生成了三组训练集和测试集，并进行交叉测试。ImageNet代表密集样品（高信息量），MNIST代表稀疏样本（低信息量），LFW介于两者之间（中信息量）。整体而言，数据集是影响训练神经网络泛化能力的主要因素。ImageNet和LFW训练的神经网络在三个测试数据集上的表现都较好，而MNIST训练的神经网络只能推断ImageNet和LFW的整体分布而缺乏细节信息，但相比之下tPD比DD推断出更多的细节信息。

在病态适应能力方面，研究人员通过使用神经网络同时恢复相位和强度的方式来测试。相比于只恢复相位，强度恢复需求的加入增加了神经网络优化的不适定性，可以想象成方程数量不变的情况下增加了未知数的数量。DD可以同时推断相位和强度，因为从全息图到相位和强度的隐式映射关系完全包含在用于训练神经网络的配对数据集中。而tPD的推断结果中出现明显的伪影。这意味着，尽管tPD的推断结果中有许多不需要的成分，但与之对应的全息图与待测样品的全息图却是一致的。也就是说，从全息图中同时推断相位和强度对tPD来说是严重不适定（病态）的。研究人员通过引入更多物理约束的方式一定程度上缓解了这种不适定性。

在先验容纳能力方面，与tPD不同的是，DD使用配对数据集训练神经网络，这意味着神经网络会学习数据集中包含的所有隐式先验，即使它位于数值传播之外。例如，在成像系统存在系统像差的情况下，全息图中将同时存在来自样品和系统像差的相位信息。结果表明，DD可以在去除系统像差的同时推断出样本相位，而tPD的推断结果中同时包括来自样品和系统像差的相位。

此外，研究人员发现tPD倾向于推断高频/细节信息，DD倾向于推断低频/背景信息，而这一点可以通过在损失函数中加权联合配对数据集和数值传播方程的方式来平衡。

开源资源

为了方便读者快速上手深度学习相位恢复，研究人员随文发布了DD、uPD、tPD、tPDr和CD的示例代码：https://github.com/kqwang/DLPR。

作为补充和拓展，研究人员还发布了一个关于相位恢复的资源库：https://github.com/kqwang/phase-recovery，其中包含了相关的研究人员/团队、公司/制造商、研讨会/课程、研究论文、综述论文、著作书籍、硕/博论文等。随时欢迎读者更新或添加内容，成为贡献者。

作者简介

林彦民(Edmund Y. Lam)，通讯作者，香港大学教授，美国光学学会会士、国际光学工程学会会士、电气电子工程师学会会士、成像科学与技术学会会士、英国物理学会会士、香港工程师学会会士。主要研究兴趣是计算成像的算法、系统和应用。

王凯强，第一作者和通讯作者，西北工业大学副教授（曾任香港大学博士后研究员）。主要研究兴趣是计算成像和深度学习，相关研究工作发表于Light、PhotoniX、AP Nexus、OL等学术期刊，并部分获选为封面、编辑推荐、ESI高被引。

免责声明：本文旨在传递更多科研资讯及分享，所有其他媒、网来源均注明出处，如涉及版权问题，请作者第一时间后台联系，我们将协调进行处理，所有来稿文责自负，两江仅作分享平台。转载请注明出处，如原创内容转载需授权，请联系下方微信号。

【声明】内容源于网络

两江科技评论

聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

内容 6001

粉丝 0

两江科技评论聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

总阅读9.2k

粉丝0

内容6.0k