Advanced Photonics Nexus：用于决策与控制的衍射光学网络- 大数跨境

首页

Advanced Photonics Nexus：用于决策与控制的衍射光学网络

两江科技评论

2024-06-06

导读：近日，南昌大学于天宝教授、刘婷婷研究员和华东师范大学黄陆军教授合作团队提出了一种用于决策与控制的衍射光学网络（Diffractive optical network, DON）。

欢迎课题组投递中文宣传稿，投稿方式见文末

撰稿|课题组供稿

导读

近日，南昌大学于天宝教授、刘婷婷研究员和华东师范大学黄陆军教授合作团队提出了一种用于决策与控制的衍射光学网络（Diffractive optical network, DON）。该网络具备类似于人类的决策和控制能力，通过与环境的交互，该网络能够找到最优的控制策略，并可在不增加额外器件的情况下实现残差架构。网络性能在三种代表不同典型场景的经典游戏上进行了验证：井字棋、超级马里奥兄弟和赛车，该网络成功地完成了这些游戏，并几乎达到与人类玩家相近的水平。相关成果以“Decision-making and control with diffractive optical networks”为题发表在国产光学期刊《Advanced Photonics Nexus》上。

研究背景

衍射光学网络使用光学系统来执行机器学习，为实现高速、低功耗的人工智能提供了广阔的应用前景。衍射光学网络通常包含多层衍射光学元件，这些衍射光学元件可以控制从输入平面到输出平面的衍射光，从而使用光来执行各种可以通过网络学习的功能。衍射光学网络的推理和预测机制是光学的，学习和训练过程是由计算机完成的，是一种高效快速的机器学习方法。

迄今为止，衍射光学网络的研究大多不涉及与环境交互的任务，主要集中在如何利用光学器件来实现人工智能的感知功能，即通过对输入光信号的分析和处理来识别出其中包含的信息。这些感知任务通常是静态的，不需要与外部环境进行交互或反馈，如目标识别和图像分类。然而，这些任务并不能充分展示衍射神经网络的潜力和优势，因为它们忽略了人工智能的一个重要的方面，即决策和控制。决策和控制是指根据感知到的信息来做出合理的选择和行动，并根据结果来调整策略和行为。这些任务通常是动态的，需要与外部环境进行交互或反馈。如何实现基于光计算实现决策和控制，不仅是一个颇有趣味的光学课题，同时在自动驾驶、工业机器人和智能制造的研究及应用上也具有重要应用前景。

研究亮点

研究团队设计了一种基于强化学习（Reinforcement Learning）训练的衍射光学网络，能够模拟人类决策和控制的能力。相比之前的衍射光学网络，该网络能够通过与环境的交互，来找到最优的控制策略。由于策略的训练过程完全基于自监督的深度强化学习，所以无需数据集或人工指导。本工作所提出的用于决策和控制的衍射神经网络的工作原理如图1a-c所示，以任天堂的经典游戏超级马里奥兄弟作为示例。一般来说，人类玩家在游戏每一步都经历了看、思考和操作，这些感知和控制行为不断循环，直到游戏结束。为了以人类的方式玩游戏，网络需要能够捕捉连续、高维状态，并对不同状态的执行对应的动作。衍射光学网络由三层结构组成：具有使用光学调制设备编码的图像的输入层、由衍射器件（超表面或空间光调制器）构成的隐藏层、以及将计算结果成像的输出层。在该网络结构中，输入层产生连续的游戏图像输入到衍射层。多个衍射层基于学习到的控制策略，为所面临的每种情况选择特定的动作。而输出层将强度分布映射到预设的动作区域中，以产生游戏中的控制信号。然后，输入层再生成游戏的下一帧图像，进行新的一轮计算，网络不断地生成控制信号直到游戏结束。

该网络训练架构如图1(d) 所示，架构中心是表示控制策略的卷积神经网络，网络通过优化代理（Agent）自主进行游戏所获得的奖励进行训练。卷积神经网络将对游戏的观测（Observation）作为输入，并将对游戏的动作（Action）作为输出。由于策略地训练是从完全随机的动作开始，强化学习的训练周期会明显多于衍射神经网络的训练周期。因此，提出的训练过程分为两个阶段，从而消除不必要的计算。首先，算法通过代理与模拟游戏环境交互，以找到满足指定目标的最优控制策略。之后，利用误差反向传播（Backpropagation）算法对衍射光学网络进行更新，从而该策略迁移至衍射光学网络中。此外，研究团队还基于空间光调制器的特性，即当入射光的偏振方向与液晶的e轴（Extraordinary axis）存在夹角时，部分光将不被调制，直接反射至摄像机，形成残差连接。该方法可以在无需添加任何设备的情况下，实现神经网络的残差框架。

图1. (a-c) 用于决策与控制的衍射光学网络的流程示意图。(d)策略和网络训练架构。强化学习算法通过代理与模拟环境交互，找到最优的控制策略。之后，该控制策略通过反向传播算法，不断迭代更新衍射光学网络。(e)实验装置。(f)构建衍射光学网络的模块。

接下来，研究团队在三个经典游戏上测试了提出的方法，即井字棋、超级马里奥兄弟和赛车。这些游戏代表了三种不同的典型场景，即离散状态和动作空间，连续状态和离散动作空间，以及连续状态和动作空间。井字棋的结果如图2所示，超级马里奥兄弟和赛车的结果请见视频。可以看到该网络成功地完成了这些游戏，并几乎达到与人类玩家相近的水平。

图2. (a) 用于玩井字棋的网络示意图。(b)在图2a示例的网络第一层中，入射光的偏振方向的改变引起输出图像的变化。(c) 实验装置的照片。(d-e) 井字棋的游戏流程。(f)游戏的结果统计。 (g) 准确率与隐藏层数量的关系。

这项研究初步表明，衍射光学网络在处理复杂的视觉输入方面具有巨大的潜力，可以进行高速决策和控制，为光学计算系统提供一个有希望的途径。此外，这里的方法和结构是通用的，可以扩展到其他的任务或不同的光学计算网络中。

总结与展望

相关成果于2024年5月30日发表在光学期刊《Advanced Photonics Nexus》上。南昌大学物理与材料学院博士生邱驹敏为第一作者，于天宝教授、刘婷婷研究员和华东师范大学黄陆军教授为共同通讯作者。

论文链接：

https://doi.org/10.1117/1.APN.3.4.046003

免责声明：本文旨在传递更多科研资讯及分享，所有其他媒、网来源均注明出处，如涉及版权问题，请作者第一时间后台联系，我们将协调进行处理，所有来稿文责自负，两江仅作分享平台。转载请注明出处，如原创内容转载需授权，请联系下方微信号。

【声明】内容源于网络

两江科技评论

聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

内容 6001

粉丝 0

两江科技评论聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域，打造科研人便捷的交流平台，发布优质新鲜的科研资讯。

总阅读17.7k

粉丝0

内容6.0k