大数跨境

崔铁军院士、马骞副教授团队Nature Communications:具有可编程快速ReLU激活函数的多层非线性衍射神经网络

崔铁军院士、马骞副教授团队Nature Communications:具有可编程快速ReLU激活函数的多层非线性衍射神经网络 两江科技评论
2025-12-03
3
导读:近日,东南大学毫米波全国重点实验室崔铁军院士、马骞副教授团队提出了一种具有可编程快速ReLU激活函数的多层非线性衍射神经网络。该网络的非线性层由可编程超表面集成射频元件构成,可实现类ReLU激活函数。
欢迎课题组投递中文宣传稿,投稿方式见文末

导读  

近日,东南大学毫米波全国重点实验室崔铁军院士、马骞副教授团队提出了一种具有可编程快速ReLU激活函数的多层非线性衍射神经网络。该网络的非线性层由可编程超表面集成射频元件构成,可实现类ReLU激活函数。该架构响应延迟达纳秒级,较传统光电转换方案提速数个量级,并兼具低阈值与可重构特性。相关研究成果以“Multilayer nonlinear diffraction neural networks with programmable and fast ReLU activation function”为题,于20251124日发表于国际知名期刊《Nature Communications》。东南大学崔铁军院士、马骞副教授为论文共同通讯作者,东南大学毫米波国家重点实验室博士生宁玉鸣和马骞副教授为共同第一作者。


研究亮点

近年来,光学衍射神经网络在提升机器学习速度与能效方面潜力显著,但常规衍射的线性特性使其非线性激活的实现面临挑战。现有方案普遍存在响应慢、功耗高与难以级联等问题,制约了其实际性能与应用部署。


针对这一挑战,研究团队成功构建了基于可编程快速ReLU激活函数的多层非线性衍射神经网络。该设计通过将射频探测器、放大器及电压加法器集成于非线性超表面,利用其强度依赖的传输特性,高效实现了ReLU激活功能。测试结果显示,其单层非线性超表面的延迟仅为纳秒级,较传统光电方案的毫秒/微秒级延迟实现了数量级的跨越。在应用中,该网络不仅在MNISTFashion-MNIST数据集上的分类准确率显著超越线性网络,更能实时识别静态与动态的人体肢体动作,展现了卓越的实际性能。


基于非线性衍射神经网络的任务处理示意图。a)非线性衍射神经网络MN-DNN工作原理示意图。该网络能够同时完成基于数据集的图像识别和实时人体姿态分类。携带输入信息的入射电磁波经过包含三个线性层与三个非线性层的MN-DNN处理,每个非线性单元集成了射频探测器、放大器和电压加法器。分类结果由输出平面上能量最强区域的位置决定。b)非线性超表面单元的输入-输出响应特性,呈现类ReLU函数特征,其阈值与斜率可动态调节;弱输入时输出可忽略,超过阈值后呈线性增长。c)单层非线性超表面实验测得的时延结果(17.7 ns)。d-f) MN-DNNMNISTd)、Fashion-MNISTe)和人体姿态(f)任务上的分类实验结果。


非线性超表面单元通过集成射频检波器、放大器及电压加法器(图2c),构建出具备类ReLU激活函数特性的单元。如图2k所示,当入射功率低于阈值时,单元处于截止状态,能量传输近乎为零;而当功率超过阈值,输出能量则随输入线性增长,呈现典型的类ReLU激活函数的非线性响应。该单元的阈值与斜率均可灵活重构(图2l, m),能适应不同任务需求,展现出优异的可重构性。


2  非线性超表面单元的结构与工作特性。a)单元结构与功能等效示意图。b)单元正面与背面视图。c)工作原理示意图。d)射频探测器输出直流电压随入射功率密度增加而升高。e)射频放大器增益由直流电压VCCVCTRL调控。f, g)增益随VCC (f)VCTRL (g)的变化关系:在低电压区处于截止状态,随后逐步上升并最终饱和。h)在高VBIAS条件下(VBIAS > 1.2 V)输出能量随输入呈线性增长,且增益随VCC提高而增大。i, j)传输系数随入射能量由截止状态上升至饱和:VBIAS可降低能量阈值(i)VCC可提高传输饱和值(j)k)VBIAS = 1 VVCC = 5 V时,传输特性在1 mW以下为零,超过该阈值后呈线性增长,表现出类ReLU响应行为。l)激活阈值随VBIAS增大而降低。m)增益随VCC增大而升高。



基于非线性衍射神经网络的手写数字识别。a) MNIST数据集示例图像,共包含10类数字(0-9)。b)二值化图像编码至输入超表面传输系数的过程示意图。c)实验测试装置。d)两种网络架构示意图:非线性网络由线性层与非线性层交替构成,线性网络仅含线性层。e)两种网络测试集输出的t-SNE可视化结果,非线性网络表现出更清晰的类别区分与更紧凑的类内聚集。f)混淆矩阵显示在5000张测试图像上,非线性网络与线性网络的准确率分别为92.6%88.5%g)针对简单图像,两种网络生成的输出场分布示例,显示二者均能聚焦于目标区域。h)针对两幅复杂图像,两种网络的输出场分布示例:非线性网络聚焦于正确区域,而线性网络则误聚焦于错误区域


MNIST手写数字识别任务中,非线性网络的识别准确率显著优于线性网络(图3f)。对于复杂图像,线性网络因聚焦于错误区域而导致分类失败;而非线性网络则能有效聚焦于指定区域,从而实现正确分类(图3h)。


基于非线性衍射神经网络的静态肢体动作识别。a)基于MN-DNN的姿态识别示意图,该系统可对人体产生的散射电磁场进行处理。b)MN-DNN等效结构图。c)姿态识别实验装置。d)输出平面探测示意图,该平面分为八个区域,每个区域均配有天线与探测器,可将电磁能量转换为直流电压(V1-V8)。这些电压经微控制器模数转换器采集后,依据电压最大值所在通道驱动LED颜色变化,并同步上传至计算机进行实时显示。e)八种姿态各重复50次的实验结果,八个区域的电压读数证实了分类的准确性。


基于非线性衍射神经网络的动态肢体动作识别。a)测试者在MN-DNN前方依次执行八种不同姿态,每种姿态保持约4秒。b)对应手势的输出场分布仿真结果,其焦点随姿态变化依次扫过八个预设区域。c)输出平面上八个区域的实时检测电压波形。在每个姿态持续期间,对应区域产生的电压均显著高于其他区域,表明分类结果正确。


研究团队进一步将该非线性衍射神经网络成功应用于人体肢体动作分类。系统能够对八种静态与动态动作进行快速识别与准确分类(图4, 5)。得益于光速并行处理能力,其分类速度相比摄像头+电子神经网络的传统方案提升了三个数量级,展现出显著的速度优势。

总结与展望

本研究提出了一种具备可编程快速ReLU激活功能的多层非线性衍射神经网络。该网络通过集成射频探测器、放大器与电压加法器的非线性超表面构建多层结构,利用其强度依赖的非线性传输特性,有效实现了ReLU激活。该设计兼具纳秒级延迟、低阈值与高可编程性等优势。实验结果表明,该网络在图像识别与人体姿态分类任务中表现优异,其低延迟、高精度的特性在实时感知与智能交互等领域展现出广阔的应用前景。

该工作得到了国家自然科学基金、国家重点研发计划、江苏省多维感知信息技术联合实验室、江苏省基础研究计划专项、江苏省自然科学基金等项目的支持。

论文信息:

Ning, Y.M., Ma, Q., Xiao, Q. et al. Multilayer nonlinear diffraction neural networks with programmable and fast ReLU activation function. Nat Commun 16, 10332 (2025). https://doi.org/10.1038/s41467-025-65275-0


撰稿|课题组

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间后台联系,我们将协调进行处理,所有来稿文责自负,两江仅作分享平台。转载请注明出处,如原创内容转载需授权,请联系下方微信号。

【声明】内容源于网络
0
0
两江科技评论
聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
内容 6001
粉丝 0
两江科技评论 聚焦“光声力热”超构材料、凝聚态物理、生物医学、智能制造等领域,打造科研人便捷的交流平台,发布优质新鲜的科研资讯。
总阅读9.2k
粉丝0
内容6.0k