摩尔定律在 1965 年被提出后,推动全球科技创新,电子芯片更位居主导地位。近年,晶体管发展到纳米级别,5nm 制程量产,很快迈向 3nm 技术,这也意味着往下继续微缩的空间越来越小、功耗问题越来越难克服。
摩尔定律逼近极限的说法不是远虑,而是眼前近忧。曦智科技创始人兼 CEO 沈亦晨指出,“摩尔定律减缓、算力壁垒都是一个全球化的问题”。
当全世界都在为这个共同瓶颈寻找新的解决方法之际,光芯片发展的速度让人看到希望。为了突破算力困境,让人工智能的发展不再被制约,全世界正在欢迎“光”临。

日前,曦智科技(Lightelligence)发布旗下第二代高性能光子计算处理器——PACE(Photonic Arithmetic Computing Engine),不但成功验证了光子计算可行性,PACE 处理器运算速度与英伟达的 GPU3080 相比,跑循环神经网络算法总共需要花的时间是 GPU 的 1% 以内。
沈亦晨表示,曦智的一大竞争优势是起步早,因为光需要很长的研发周期,从器件的设计到封装的方式,到最后软硬一体化都需要经过时间积累的,不像数字电路可以用成熟的设计流程完成,1 ~ 2 年之内就可以超过所有其他的数字芯片。
他也认为,现在任何一家公司即使手握几百亿、几千亿,要从现在开始做出一个像 PACE 这样的产品,至少需要三年时间。因此,先发优势在光赛道上相当重要。
《问芯Voice》在日前与沈亦晨的对谈中,深度解析光领域计算的三大观点:
光进入芯片领域进行运算的优势,以及电芯片面临的瓶颈
PACE 处理器的优势分析
光芯片商业化之路
电芯片遇到什么瓶颈?
沈亦晨分析,当前的电子芯片有三大难以克服的瓶颈:算力、数据传输、存储。
算力瓶颈:摩尔定律在过去近 50 年里,晶体管的密度每 18~20 个月翻一倍,在 28nm、12nm、7nm、5nm 制程后,台积电的 3nm 已经量产在即。从物理角度来看,其实一个原子大小就接近 0.3 个纳米,3 纳米的制程再往后还有多少空间?非常逼近物理极限了。因此,未来“纳米”制程往后的演进,不可能像过去 50 年那样,不断往下翻倍。
功耗问题:2015 年以后,随着晶体管越来越小后,出现“隧穿现象”。即使晶体管做的更小,单个晶体管在进行运算时的功耗也没办法降低,导致片上的热无法有效散发出去。这是当前电子芯片要提高算力时,遇到的一个主要瓶颈。
过去业界最常用来提升算力的方式,是扩大电芯片面积,但能耗比却未能随着面积正比例提升。
沈亦晨分析,主要原因是面积增大的同时,需要更长的铜导线在不同芯片、不同点之间传递数据,但是铜导线的发热量是依据长度正比例增加的,因此功耗也会增加。这也是为什么一块更大的电芯片无法完成算力突破的主要原因。
光,是最适合解决上述这些困境的底层技术方式。
光进入芯片领域的优势
尤其现在 AI、5G、物联网带动了全球数据的爆炸式增长,传统的电子芯片只能通过增大面积与功耗来完成更多计算的方式,已难满足日益增长的数据处理与节能要求。藉由光子芯片凭借高通量、低延时、低功耗等特点,用光代替电解决部分计算成为当前芯片发展最好的途径。
在光通信领域,光在数据搬运上已经充分证明优势。目前所有的长距离通信,包括数据中心里服务器和服务器之间的数据都是通过光纤代替铜导线进行的。
光进入芯片领域有四大优势:
光在传播的时候不会发热
光完成一个矩阵运算所要花的时间少,延时远低于电芯片的延时
光的矩阵乘法并行能力更强,能以更高的通量进行运算
硅光对于工艺制程的要求相当低,比如 65nm 或 45nm 的 CMOS 工艺线就可以满足现在光芯片、光计算所有的要求; 而且,硅光未来在技术迭代上,不会对制程有特别的要求,更多是从其他方面进行技术迭代,比如主频、波长数量还有不同的模式。
光计算领域重要里程碑:PACE处理器
日前,曦智科技基于光执行矩阵向量乘法时延极低的基本原理,发布了旗下第二代高性能光子计算处理器——PACE,成功验证了光子计算可行性。
在 PACE 光子芯片中集成了超过 1 万个光子器件,芯片运行速度 1GHz,特定循环神经网络的运行速度可达目前高端 GPU 的数百倍。
沈亦晨也透露,PACE 充分展示了光子芯片与传统电子芯片无缝协同的运作方式,当中关键是曦智科技光电封装团队的 3D 封装创新。
他特别澄清,曦智的技术不是在做纯光的计算,因为未来趋势是和电子芯片深度结合的光电混合的运算。
所有和客户的交互都是通过电芯片来完成的,指令集编译器和 SDK 都承载在电芯片上。光芯片相比于电芯片,更多是承接主要任务的处理器,线性计算和数据网络这两个部分。由电芯片发出指令的好处是,和目前现有的市场环境、软件环境都是兼容的。
在光芯片技术的发展上,主要在于不断增加光芯片器件的集成度,曦智已从四年前的原型到现在 64×64 的矩阵乘法已经提升了三个数量级,是目前已知集成度最高的光子芯片。
PACE 的结构由光芯片和电芯片这两部分组成。电芯片上主要做数据的存储,还有数模混合的调度,光芯片上主要做数据的计算。最后,光和电芯片会做 3D 封装技术倒装的堆叠。
对于每个光学矩阵乘法,输入向量值首先从片上存储中提取,由数模转换器转换为模拟值,通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,形成输入光矢量。
接着,输入光矢量通过光矩阵传播,产生输出光矢量,并达到一组光电探测器阵列,从而将光强转换为电流信号。最后,电信号通过微凸点返回到电子芯片,通过跨阻放大器和模数转换器返回数字域。
经过测试数据显示,PACE 的运算速度与目前市场上单个算力最高的英伟达的 GPU3080 相比,跑循环神经网络算法总共需要花的时间是 GPU 的 1% 以内。
曦智科技工程副总裁 Maurice Steinman 也表示,另一重要模块是光互连技术,可用于多种传输介质,包括光缆,以及芯片、中介层和晶圆层面集成的波导,并提供高通量、低时延和高能效的数据传输和互联。
相较于 2019 年推出的原型板卡,PACE 在光子器件的集成度上,大概比之前提高了两个数量级,从 100 个光子器件提高到 10000 个光子器件; 从运行系统时钟上,提高了四个数量级。总体来说,此次单个芯片计算能力超过 2019 年芯片的 100 万倍。
PACE 会先切入大数据的应用场景,包括云计算、智能驾驶、金融上的量化交易、生物药物研发等。目前已和一些全球顶级云服务供应商、主要金融机构等有深度合作。
回顾沈亦晨的“追光之旅”,2017 年,他以第一作者身份在《自然–光子》期刊发表封面论文,首次将集成光子计算的新起点展示在世人面前。同年,他将科研成果带向市场,成立曦智科技,致力于将光子学的前沿技术转化为可落地的计算芯片解决方案。 2019 年,曦智科技发布了全球首款光子芯片原型板卡,成功将当时占据半个实验室的整个光子计算系统集成到了常规大小的板卡上,验证了以光子替代电子进行高性能计算的开创性想法。
目前曦智科技在全球拥有近 200 名全职员工,研发人员比例超过 80%,累计融资超过 10 亿人民币。

《问芯Voice》等媒体在与沈亦晨的深度对谈中,藉由以下六大问题面向的探讨,带大家更深度了解光子计算的技术、生态和商业逻辑。
问:光子计算走向商业化有哪些挑战?
沈亦晨(以下简称沈):商业化本身是一个持续且漫长的过程。试想从第一个智能手机问世到普及就花了十年时间,还有现在的电动车也是处于正在商用普及化的路上。
我们认为光电混合的计算芯片的第一个商用化产品可能在未来一年以内会看见。先从对算力、功耗、延时需求特别强烈的客户开始,然慢慢扩大受众范围。整个普及化的过程可能会持续相当长的一段时间,甚至到最终也有可能光电混合计算芯片和电的计算芯片会在相当长时间内共存。
问:PACE 芯片的开发和传统的 CMOS 工艺开发(包括IP、生产和封测等全流程)的方法学上有什么区别?
沈:首先硅光芯片也是 CMOS 工艺,这一点能解决 90% 最核心的问题。因为两块都是基于硅的 CMOS 工艺,在电学、热学,包括仿真上都有相当成熟的软件直接使用。从设计层面看,其实现有的生态、固件、软件就可以满足我们基本的设计需求。
在封装层面,光电混合的封装本质上还是两块硅的 CMOS 芯片的垂直封装。把两块电芯片或者多块电芯片叠起来,比如说现在的HBM都是用类似垂直 2.5D、3D 的封装方案,本质上和我们光电是比较接近的。可能唯一的不同就是对于光来说,在封装方案里需要有一个接口,把光源导到光芯片上去,或者把激光器封装到整个板卡里面,这部分可能是创新的地方。
最后,从工艺的角度讲,主要是基于传统的 CMOS 工艺,可能会多 1 ~ 2 个工艺步骤。比如说在光的探测器方向可能需要引入一台新的设备,在工艺上稍有修改。
问:曦智科技的短期、长期目标和后续的产品规划?
沈:曦智科技研发的技术是颠覆性的,本身要经历一个漫长的商业化的过程,我们定下的三阶段是:
第一阶段,2022 年开始的 1~3 年内,主要会从能体现出光优势,且对于算力、延时等痛点特别强的应用场景开始落地,像是金融、大模型云服务厂商等。
第二个阶段,主要方向会是训练。随着前几款产品落地,在不同应用场景里应证光计算优势后,曦智会有更大规模的团队去做训练的市场。因为在训练上面,会需要更多芯片的协同,更大体量的矩阵乘法,也需要更成熟的软件体系。
第三个阶段,会延伸到 GPU,包括车载芯片等对于算力需求非常大的市场,需要一个更成熟的硬件、软件体系和进一步切入的市场。
问:研发光子处理器过程中,遇到最大困难或者挑战是什么?曦智科技如何应对?
沈:曦智成立前,全世界集成度最高的硅光产品可能就只有几个或者十几个光器件。为了做光计算,我们需要把集成度提高 3 ~ 4 个数量级,达到几万个光器件,这个我觉得是在工程层面最大的挑战。
如果去设计简单的几个光器件的芯片,所有都可以手动完成芯片设计,但当你需要放几万个器件在一个芯片上时,所有的东西都要做成自动化,我们相当于是从头开发了一个高集成度光芯片的整个设计流程。
另一个关键是封装方式的变化。传统光芯片的每一个器件的控制都是通过铜导线外接到板卡上面,通过一个外部的器件去控制光芯片上的东西。但当有上万个光器件在芯片上时,那些外接的封装方式就没有办法适用,因此我们必须开发出一种用一块电芯片去控制光芯片的一套 3D 的封装方式。
更进一步,比如当有几万个光器件和电芯片一起深度协同时,发号施令的是电芯片,如何同时给上万个光的器件发号施令,并能够在纳秒的级别上统一有序地进行运算?这就涉及到了软硬集成和架构层面,都是相当复杂的工程问题,也是我们过去不断在解决的问题。
问:如何培育光计算芯片的生态圈?
沈:曦智成立时,整个行业只有 1 ~ 2 家企业,现在则出现了十几家初创公司,还有国内的大公司也开始布局光计算,代表这个行业的参与者越来越多,也代表技术方向受到认可,而生态的培育是需要时间。
首先,往现有生态上去靠,在软件方面兼容现有的生态。之后再去做一些合作,联合把供应链慢慢做到成熟,与一线晶圆厂、封装厂建立战略合作,一起把整个生态培育起来。
其实,硅光生态本身也非常需要像光计算这样,能有大的晶圆级出货量的应用场景出现。因为传统的光通信晶圆级别都很小,形成对供应链的吸引力不足,也只有光计算这样的场景才能够加速这个生态的发展。
同时,不只光计算,我们还看到很多方向包括步态的激光雷达、光的传感等,整个硅光生态正在全方位兴起,不同的应用场景或许也会一起推动这个生态。
问:与竞争对手相较,曦智的最大优势为何?
沈:曦智目前在这个技术上是处于领先地位,乐意看到更多友商参与到此赛道,一起把生态做大。
不管是从供应链还是从市场的角度,中国都是对高算力的需求量最大的市场,因此为曦智提供了早期产品落地上的先发优势,可以更快和客户去深度适配,形成商业化的落地。
另外,我们的起步也是所有公司里最早的。光的计算不像数字电路,用一个相当成熟的设计流程完成设计,一年、两年之内就可以超过所有其他的数字芯片。
光需要非常长的研发周期,从器件的设计到封装的方式,到最后软硬一体化总体的优化,都是需要经过时间积累的。因此,先发优势在光赛道上相当重要。
我也相信,任何一家公司,哪怕是有几百亿、几千亿的公司,要从现在开始做出像 PACE 这样一个产品,也会需要至少三年时间。
再者,曦智的团队也是核心竞争力。我们现在有最强、最完整的做光电混合计算的团队,集聚从硅光到数字,到模拟,到软件的各路人才,而且是一个已经磨合了四年的团队,这点是我们最大的财富。

