I.摘要
Max-Optics Studio是一款自主研发的全国产光电仿真软件,具备光电芯片全流程建模仿真与行业领先的高性能计算能力。其中,FDTD模块支持基于GPU的并行加速计算,在复杂结构仿真中相较于传统CPU仿真方式,计算速度可提升数十至百倍,大幅降低了仿真时间与资源消耗,为高精度、大规模光子器件建模提供了强有力的支持。
II.概述
FDTD(时域有限差分法)是求解三维麦克斯韦方程组的一种数值方法,该方法特别适用于分析亚波长尺度特征的复杂结构于光的相互作用。在3D FDTD技术中,为达到高精度仿真要求,空间步长通常需小于波长的1/10。并且时间步长需满足稳定性条件,随着空间网格步长的减小而同步减小。因此,在高精度、大规模光器件仿真中,计算时间往往长达数十、数百小时甚至更久,严重制约器件迭代优化效率。
FDTD具备良好的并行特性,可通过多核CPU或多GPU加速计算。尤其在多GPU并行支持下,FDTD仿真不仅可显著提升计算速度,还能通过整合显存资源,有效突破显存对模型的限制,支持更大规模、更高精度的模型仿真。本文对比了在不同网格精度条件下,使用CPU、4卡GPU和10卡GPU进行FDTD仿真的性能表现,系统评估了GPU并行加速在实际光子器件建模中的效率。
步骤1:测试案例与环境配置说明
首先,我们选取典型光子器件结构(光栅耦合器)作为测试案例,设置多个不同空间网格精度的仿真场景,以评估FDTD在不同计算资源下的性能表现。测试在同一软件版本、同一模型参数下进行,分别配置CPU、4卡GPU与10卡GPU三种计算资源,确保对比具有一致性和代表性。
步骤2:计算资源配置与仿真性能对比
通过具体操作示例,演示如何进行GPU加速配置及仿真任务提交。我们对比了在CPU、4卡GPU与10卡GPU环境下的仿真运行时间,并分析了加速比与仿真精度。同时,对比不计算资源下的仿真结果,验证了GPU加速在显著提升仿真效率的同时,仍能保持结果的准确性与一致性。
III.仿真及结果
步骤1:测试案例与环境配置说明
首先,我们选取光栅结构作为测试案例。
1.选择测试模型:选取3D FDTD的光栅模型‘Si_Grating_Coupler_3D.mop’作为仿真模型。
2.设置仿真场景:在主界面右上角Versions中创建多个版本,修改并备注测试条件,分别采用不同的空间网格精度和计算资源,用于进行CPU和多卡GPU速度的对比。
本次仿真中的软件/硬件配置如下表所示:
步骤2:计算资源配置仿真性能对比
3.在菜单栏---Simulation--Run--Solver+Analysis下打开Resources窗口,选择不同的计算资源并运行仿真。
MOS计算资源配置如图所示:
测试时分别选用了CPU、4卡GPU、10卡GPU对不同网格精度下的模型进行仿真。
仿真结果表明,当模型网格精度为20,CPU进行仿真时,由于串行计算的限制,FDTD求解器的运算速度较慢,约为1987.1Mcells/s,而采用4卡GPU并行计算后,由于GPU的并行处理能力,计算速度大幅提升,仿真时长明显缩短,FDTD求解器计算速度能够达到39704.5Mcells/s。进一步升级到10卡GPU时,计算资源更加充裕,并行计算效率进一步提高至86678.3Mcells/s。
同一网格精度下10卡GPU的FDTD仿真时间相比CPU最高减少了约49倍。大幅降低了器件的仿真时间,提升了仿真效率,助力产品高效完成迭代。
如图所示为3组不同网格精度下的仿真结果对比。使用CPU、GPU不同计算资源导致的数据偏差小于8.3e-7,仿真结果准确性完全一致。
IV.Max-Optics Cloud云平台
Cloud云版本支持GPU加速功能:在传统本地计算基础上,Max-Optics Studio推出支持GPU加速的云端仿真平台。该平台可调用NVIDIA GeForce RTX 4090显卡资源(24GB 显存,16384 CUDA 核心),支持多卡并行运行,用户可根据任务规模,灵活选择1~10张GPU组合运行,或自定义调度云端Worker节点,实现资源的高效配置与成本控制。只需轻量登录,即可随时随地调用高性能 GPU 集群资源,显著缩短仿真时间,助力光子器件设计效率提升数十倍。
/END/
点击左下角【阅读原文】申请软件使用

