研究背景
MetaSeeker的核心在于构建物理世界的“数字孪生镜像系统”,使强化学习智能体能够快速洞察混沌物理系统的运行规律。如图2所示,该算法采用双层优化框架,巧妙地融合了深度强化学习与群体优化策略。其中,群体优化策略采用达尔文式进化机制,通过将变异后性能优异的智能体替代低效的个体,从而动态优化强化学习的核心超参数,包括Dirichlet探索噪声、正则化参数和学习率。与此同时,强化学习智能体负责优化集群超表面的相位分布,借鉴MuZero在棋类博弈中的思维过程,将超表面抽象为“电磁棋局”,每个超原子作为“棋盘位点”,通过精准调控超原子“开/关”状态实现空间隐身。
MetaSeeker配备了“感知-决策-执行”一体化的硬件模块,使智能体能够与现实世界进行自主交互,并基于远场反馈信号进行现场学习。相当于为强化学习智能体富有智慧的“机械大脑”配备了灵活的“四肢”,使之随意操纵集群超表面以调控空间电磁波,并敏锐地嗅到每次决策对应的电磁波变化,从而不间断地学习复杂环境蕴含的底层物理,并改变决策以最大化隐身性能。这种自学习机制使MetaSeeker轻松处理分布式超表面的复杂优化问题,灵活适应千变万化的场景。
智能隐身:从单体隐身到空间隐身的跃迁
实验展示了MetaSeeker的认知水平与响应时间随着训练的变化过程,随着训练的推进,MetaSeeker的认知水平逐步从表层认知向深度理解跃迁,从初期的预测单个超原子相位改变对远场强度的影响,深化到预判超表面对电磁波的全局调控能力。隐身效率同步提升的同时,响应延时也从初始阶段的分钟级显著缩短至毫秒量级,最终系统在89 ms的极速响应周期内达成99.5%的隐身性能,其决策延迟对实际应用场景的影响可忽略不计。经过反复的实验验证,当小车驶过隐身空间或实验员在隐身空间内自由行走时,喇叭天线探测到的远场强度始终保持稳定。
视频S2:强化学习的知识表征能力与响应时间的进化过程。
研究团队进一步通过事后可解释性算法SHAP对MetaSeeker的决策行为进行了深度解析,如图3所示,其中红色与蓝色像素分别表征干扰源或超表面增强与抑制远场强度的作用区域。实验证实,干扰源与超表面对远场强度的作用呈现动态抗衡关系——前者引发的异常散射场可被后者产生的反向散射场精确抵消,这种精妙的散射相消机制,正是系统实现电磁隐形的物理本质。

总结与展望
论文信息
Wu, B., Qian, C., Wang, Z. et al. MetaSeeker: sketching an open invisible space with self-play reinforcement learning. Light Sci Appl 14, 211 (2025).
https://doi.org/10.1038/s41377-025-01876-0

