本文由无问芯穹技术团队原创,分享在通信优化工作中的最新技术突破和心得,转载自无问芯穹技术副总裁李秀红个人知乎账号。
Hamilton Attention是由无问芯穹最新推出的序列并行通信优化工作。我们提出了基于哈密顿分解(Hamiltonian Decomposition)这一数学原理的Ring Attention通信优化新思路。理论分析表明,在目前常见的推理集群配置下,Hamilton Attention的通信效率可达Ring Attention的6倍或8倍。实际测试则进一步验证了其显著优势,当Ring Attention表现出通信瓶颈时,Hamilton Attention能够取得相比于Ring Attention显著更好的计算通信overlap效果,从而得到最高3.58倍的总体性能提升。欢迎大家关注。
开源仓库地址:infinigence/HamiltonAttention
技术报告:[2509.26541] TASP: Topology-aware Sequence Parallelism
01
背景
在大模型的集群推理实践中,我们发现Ring Attention这种常用的序列并行机制存在着明显的通信瓶颈问题,在许多情况下计算时长不能完美overlap通信时长,从而严重限制了其在实际场景中的应用。
如下表所示,在单机八卡AMD-MI300X上,保持batch size等参数不变,只调整序列长度,我们发现Ring Attention的计算时长只有在序列长度超过50K之后才有机会完美overlap通信时长(计算通信比>1)。而Hamilton Attention相比于Ring Attention的加速比(分布式Attention计算的总时长的比值),随着Ring Attention的计算通信overlap效果的变差而逐渐提高。
究其原因,集群推理场景下所使用的现代加速器通信拓扑中存在大量的、单一环形通信所无法完全利用的物理信道,而Ring Attention采用的正是由单一环形通信所构成的Ring-AllGather通信原语(如图1所示)。
图1. Ring-AllGather通信原语 vs 现代加速器通信拓扑
此外,通信算子除了需要占用GPU之间的通信带宽以外,也需要占用一定量的计算资源(GPU上的SM)。因此,Ring Attention的较低的通信带宽利用率也会导致这一部分计算资源被更长时间占用,从而导致整体计算时长的延长。
需要补充说明的是,我们称Ring Attention采用了Ring-AllGather这一通信原语的原因如下:
Ring Attention作为一个分布式注意力机制,它需要为每个划分到不同GPU上的query键值对“获取”划分到所有其它GPU上的全部KV键值对,从而完成Attention的计算。因此,若仅仅从通信目标的角度考虑,Ring Attention中的通信实质上应该是AllGather通信原语。
然而若使用NCCL/RCCL中的AllGather通信原语,就会造成每个KV键值对被额外复制 N−1 ( N 是GPU个数)份,与Ring Attention节省单个GPU的显存占用的核心目标相悖。
因此,Ring Attention并未选择使用NCCL/RCCL中已有的AllGather通信原语,而是使用了多轮环形通信所构成的Ring-AllGather通信原语(实际上就是MPI中AllGather的最古老实现方式,参见[1])。而由于分块的Attention计算中,每个KV键值块“用完即弃”,使得环形通信能够保证每个KV键值对不需要被额外复制。
02
该如何提高通信带宽的利用率呢?
事实上,Ring Attention的通信效率低这个问题在很多工作中都有提及,并给出了一些解决方案。
比如清华大学的BurstEngine[2]和北京大学的LoongTrain[3]中使用多层次的Ring-AllGather取代单层次的Ring-AllGather以充分利用节点内的高带宽。BurstEngine中称之为Topology-aware Ring Communication,LoongTrain中称之为Double Ring Attention。
如图2(从BurstEngine论文中截取)所示,Ring-AllGather中的单层次的环形通信被拆解成了节点内部的环形通信和跨节点的环形通信这两个层次。
这种两层次的通信方式的好处是:每当节点内部进行了 M−1 轮环形通信时( M 是节点内部GPU的个数),只需要同时进行1次跨节点环形通信。因此,当全部节点内部的通信带宽是全部跨节点的通信带宽的 M−1 倍时,恰好能够使得节点内的环形通信时长完美overlap跨节点的通信时长。
图2. BurstEngine中的拓扑感知环形通信
然而,上述方法却存在以下两个问题:
节点内部仍然是单一环形通信,不能完美利用全部的通信信道。
需要更多的(1.5倍)显存以overlap节点内部的环形通信和节点间的环形通信。
第一点是显然的(参见图1),不予赘述。至于第二点则可以由BurstEngine的论文原文看出:
To achieve this, BurstAttention uses three dedicated buffers based on the topology: one for intra-node communication, one for inter-node communication, and one for computation.
为了计算通信重叠,Ring Attention的Ring-AllGather只需要两个buffer,也就是每个GPU上的KV键值对需要复制一份(共两份),一份用于当前GPU上的计算,另一份用于传输给“下一个”GPU。而BurstEngine和LoongTrain中使用的分层次的Ring-AllGather则需要三个buffer,也就是每个GPU上的KV键值对需要复制两份(共三份),一份用于当前GPU上的计算,一份用于传输给节点内部的“下一个”GPU,还有一份用于传输给节点外部的“下一个”GPU。
我们指出一个好的Ring Attention通信优化算法应该能够满足以下两个条件:
高信道利用率:充分利用不同通信拓扑下的全部可用信道,从而最大化通信带宽利用率
无额外存储开销:其存储开销和原本的Ring Attention相比几乎完全一致
03
基于哈密顿分解的通信优化方法
如何找到一种既能提高Ring Attention的通信效率,又不引入额外开销的方法呢?我们的核心idea是,既然分层的串行的Ring-AllGather会引入额外开销(额外的一个buffer),那么使用不分层的多个并行的Ring-AllGather不就没这个问题了吗。更关键的是,多个不同的Ring-AllGather并行执行不就可以完美利用通信拓扑中的全部信道了吗。
而我们的核心insight则源自于有向图的哈密顿分解[4](Hamiltonian Decomposition of Directed Graph) 这一数学原理,该原理表明推理集群的通信拓扑存在着被分解成多个边不重合哈密顿环路的可能。假如可以分解,则分解所得的每个环路正好可以由一个环形通信所完美利用。
基于上述思想,我们提出了两步走的通信优化策略,该策略可以应用到不同的通信拓扑之上(如图3所示):1.拓扑分解:首先基于有向图的哈密顿分解这一数学原理,将推理集群的通信拓扑分解为多个哈密顿环路。2.原语分解: 然后再基于拓扑分解的结果,将Ring-AllGather通信原语中的单一环形通信分解为多个并行的环形通信。且使得这些环形通信的数据传递方式与拓扑分解所得的哈密顿环路一一对应。
通过通信原语分解所得到的多个并行的环形通信所构成的通信方式,我们称之为Multi-Ring AllGather(与普通的Ring-AllGather相区分)。而我们提出的这种基于哈密顿分解的分布式Attention范式,我们称之为Hamilton Attention(与Ring Attention相区分)。
通信拓扑分解
虽然有向图的哈密顿分解这一数学原理告诉我们通信拓扑存在被分解成多个边不相交的哈密顿环路的可能。然而,针对目前常见的推理集群的通信拓扑,如何得到其哈密顿分解方案,甚至是否存在这一分解方案,需要我们的进一步分析和阐述。
一) K_{M×U}分解方案
根据论文[5],任何顶点数大于等于8且可以被4整除的有向完全图,都存在着一种哈密顿分解方案,且该方案可以由该论文给出的、一个计算复杂度为 O(n) ( n 是顶点个数)的算法计算得出。
因此,我们可以直接利用上述论文中的相关结论和算法,对任意一个 U 个节点所构成的,每个节点中都有 M 个GPU的,具有有向完全图 K_{M×U} 通信拓扑的推理集群,生成哈密顿分解方案。我们称这一分解方案为 K_{M×U} 分解方案。
比如,集群推理中最基础的单节点八卡的全连接的配置,就可以采用以上分解方案:无论是H100单节点还是MI300X单节点,都可以视为一个8个顶点构成的有向完全图 K_{M×U} ,而 K_{M×U} 存在哈密顿分解方案(如图4所示)。
图4. 单节点八卡的通信拓扑的哈密顿分解方案
此外,某些多节点的推理集群,比如华为的CloudMatrix384和NVIDIA的NVL72,也具有 K_{M×U} 通信拓扑,从而也可以采用 K_{M×U} 分解方案。然而因为我们尚未实际接触过此类集群,所以并未进行过相关实验。
分析一下通信效率的理论提升:在 K_{M×U} 全连接拓扑的集群中,Hamilton Attention的通信效率提升是相当巨大的。Ring Attetnion只能利用全部 (M×U)×(M×U−1) 条信道中的 M×U 条,而Hamilton Attention则可以利用全部信道,从而取得M×U−1倍的通信效率提升。当节点数 U=1 ,节点内的卡数 M=8 时,这一通信效率提升为7倍。需要注意的是,此处的理论计算是建立在“假设每个信道上的通信量大小都完全一致”这一前提下的。
二) K_{M×U} 分解方案的不足
虽然某些超节点推理集群的通信拓扑可以被视为有向完全图 K_{M×U} ,但是目前更常见的推理集群还是基于更低带宽的IB/RoCE交换机网络来实现节点之间通信的。
举例来说,一个最为常见的双节点H100推理集群(如图5所示),其每个节点内部都是由超高聚合带宽的NV Switch网络所全连接的,其总带宽为7.2TB/s(全双工)。而节点间的带宽由IB网卡(图中的IB NIC)所限制,每个网卡具有100GB/s(全双工)的带宽,从而节点之间的总带宽为800GB/s(全双工)。
图5. IB连接的双节点H100推理集群
因此,如果对于图5中这样的IB连接的多节点拓扑使用 K_{M×U} 分解方案,就会使得所得到的每个哈密顿环路中,节点内的信道的带宽显著高于节点间的信道的带宽。如图6所示,每个节点内部有56×2=112条单向信道,而每个IB网卡的总带宽为8×2=16条单向信道所共享,因此使用 K_{8×2} 分解方案后可以得到每个节点内信道带宽为 7200/112≈64 GB/s,而每个节点间信道带宽为 100/16=6.25 GB/s。
因为每个环形通信的实际带宽利用率取决于其所使用的全部信道的带宽的最小值,从而使得 K_{M×U} 分解方案在节点间带宽远小于节点内带宽的情况下,通信效率更低。如此一来,我们需要为IB连接的多节点拓扑设计一种带宽分布更均衡的哈密顿分解方案。
图6. 使用全连接拓扑的分解方案分解IB/RoCE连接拓扑(只绘制了2号GPU的节点间信道,且图中所有信道为双向信道,也就是两个反向的单向信道合并后的结果)
三)(M−K_M−M)^U分解方案
同样是根据论文[5]中所述,一个 n 个顶点的有向完全图不仅能够被分解成 n−1 条哈密顿回路,还可以被分解成 n 条哈密顿路。一个哈密顿路就是由哈密顿回路减去一条边所得。
更关键的是,若将顶点编号视为矩阵中的元素,这些哈密顿路就构成了一个拉丁方[6](当顶点数为偶数时)。而拉丁方具有一个良好的性质:每行每列不具有相同元素(如图7红色虚线内所示为顶点编号为0~7的有向完全图的哈密顿路分解所构成的拉丁方)。
因此,我们可以先将IB连接的多节点拓扑中的每个节点的节点内通信拓扑分解成 M 条哈密顿路( M 是每个节点内的GPU个数),再将分解得到的拉丁方首尾相连,从而构造出 M 条哈密顿回路,这些哈密顿回路具有如下性质(如图7所示):
每个GPU都参与两条跨节点的有向信道,且一条由该GPU作为通信起点,另一条由该GPU作为通信终点。
每个GPU都参与 2×(M−1) 条节点内的有向信道,且一半由该GPU作为通信起点,另一半由该GPU作为通信终点。
图7. 有向完全图分解成哈密顿路,且这些哈密顿路构成一个拉丁方(红色虚线内所示)。多个拉丁方首尾相连构成M条哈密顿回路
如此一来,我们就可以获得一个带宽分布更加均匀,且每个IB/RoCE网卡都可以被使用到的哈密顿分解方案。在该方案中,每个节点内部仍旧有56×2=112条单向信道,而每个IB网卡的总带宽由两条单向信道所共享(一条双向信道独占),从而使得每个节点内信道带宽为 7200/112≈64 GB/s,而每个节点间信道带宽为 100/2=50 GB/s。
我们称图7中所示的这种通信拓扑分解方案为(8−K_8−8)^2 分解方案,而更一般地,该方案还可以应用到任意个由IB/RoCE连接的多节点拓扑上,记为(M−K_M−M)^U 分解方案。例如,IB/RoCE连接的4节点通信拓扑的哈密顿分解方案如图8所示。
图8. IB/RoCE连接的4节点通信拓扑的哈密顿分解方案
分析一下通信效率的理论提升:在IB/RoCE连接的多机拓扑中,Ring Attention只能利用全部M^2U条信道中的 MU 条信道,且这些信道中有2条是低带宽的跨界点信道,其余的 MU−2条为高带宽的节点内信道。 与此相比,Hamilton Attention则可以利用全部M^2U条信道,且这些信道中有 2M 条是低带宽的跨界点信道,其余的 M×(MU−2)条为高带宽的节点内信道。由此可知,相比于Ring Attention,Hamilton Attention的通信效率有了 M 倍的提升。当节点内的卡数 M=8 时,这一通信效率提升为8倍。需要注意的是,此处的理论计算依然是建立在“假设每个信道上的通信量大小都完全一致”这一前提下的。
通信原语分解
一)Ring-AllGather原语的分解原理
在 N 个GPU上的、一个由单个环形通信所构成的Ring-AllGather通信原语可以分解成由Y个环形通信所构成的Multi-Ring AllGather通信原语,只要其所传递的数据可以被分成 Y×N 份(不要求等分)。
如图9所示,当4个GPU之间的Ring-AllGather所要传递的数据可以被分成8份,一组数据(A0~A3)可以经由环形信道序列0-1-2-3-0进行数据传输,另一组数据(B0~B3)可以经由环形信道序列0-3-1-2-0进行数据传输。经过3轮通信,每组数据实际上都在4个GPU上进行完了Ring-AllGather。因为将全部数据分成多个组,每组独立地在所有GPU上进行AllGather,其最终效果等价于全部数据在所有GPU上一起进行AllGather,这一性质我们称其为AllGather的“可分解性”(decomposability)。因此,图9中所示的2-Ring AllGather是符合AllGather的定义的,且在此图中全部数据确实也“抵达了”全部GPU。当然了,这里有一个隐藏的前提,那就是数据抵达的次序是“无关紧要”的,而分块Attention计算确实满足这一前提,因为不需要考虑块之间计算的先后次序。
更一般地,如果N 个GPU上的Ring-AllGather通信原语所要传递的数据可以被分成Y×N 份,就可以将其分解为由Y个环形通信所构成的 Y -Ring AllGather通信原语。此外,这Y 个环形通信所利用的环形信道序列可以随意选择,而不影响最终的AllGather效果。
图9. 将4个GPU之间的Ring-AllGather分解成2-Ring AllGather
二)实际场景下的通信效率提升
在分布式Attention这一语境下,传递的数据就是KV键值对,其拆分的维度是序列长度这一维度。因此,假设我们在某个推理集群上已经采用了某种通信拓扑分解方案,将该推理集群的通信拓扑分解成了 Y 组边不相交的哈密顿回路。接着我们只需要将KV键值对的Ring-AllGather通信原语也分解成 Y 个环形通信,且使得每个环形通信恰好不重复地利用每个哈密顿回路所对应的环形信道序列。如此一来,我们就得到了该推理集群的通信拓扑下,Hamilton Attention的完整序列并行方案,其通信效率是Ring Attention的 Y−1 到 Y 倍。
之所以说通信效率的提升是在Y−1 到 Y 倍之间是因为:假如KV键值对的序列长度可以被等分成Y×N 份,则全部信道的利用是均衡的,Hamilton Attention的通信效率是Ring Attention的 Y 倍。如果不能等分,则全部 Y 组环形信道序列中会存在一组信道序列的利用率低于其他组,最极端情况下会使得Hamilton Attention的通信效率是Ring Attention的接近Y−1 倍。
结合之前我们在“通信拓扑分解”这一节已经证明了两种不同通信拓扑下Y=M×U−1(全连接拓扑)或下Y=M(IB/RoCE连接的多节点拓扑)。我们可以得到Hamilton Attention在实际分布式Attention场景下的通信效率提升,其原理已经阐明,具体值便不多赘述。
Causal Mask下的负载均衡
之前的两个小节“通信拓扑分解”和“通信原语分解”已经阐明了Hamilton Attention相对于Ring Attention的通信效率优化能力,却没有覆盖“Causal Mask下的负载均衡”这一关键问题。
虽然有许多大模型本身甚至不存在causal mask(比如视觉大模型),且LLM在预训练时也不需要使用causal mask,但是对于目前常见的LLM推理场景,causal mask还是很常见的。
Ring Attention本身就有causal mask下负载不均衡的问题。好在现有的Zig-zag Ring Attention[7]方法(或者说Megatron CP[8])已经通过“以轴对称的形式初始化QKV分布”这一技巧,完美解决了这一问题。
朱小霖先生的知乎文章不仅对此问题的来源和解决方案有很形象的阐述,还给出了开源代码仓库[9]。Megatron CP的官方文档中对此则只有简单的描述。
CP is similar to Ring Attention but provides better performance by (1) leveraging the latest OSS and cuDNN flash attention kernels; (2) removing unnecessary computation resulted from low-triangle causal masking and achieving optimal load balance among GPUs.
Hamilton Attention在causal mask下的负载均衡问题则要比Ring Attention更复杂一些。如图10所示,如果使用最简单的QKV初始分布方式,Hamilton Attention在causal mask下的负载不均衡是十分显著的,这里我们默认Q张量是固定不动的,且其分布与对应的KV张量的初始分布完全一致。
图10. 使用2-Ring AllGather的Hamilton Attention采用最简单的QKV初始分布方式下计算负载的严重不均衡表现
那么在使用Hamilton Attention后,是否还存在一种完美的负载均衡方式呢?我们发现,使用类似于Zig-zag Ring Attention的方法,可以在使用causal mask的情况下,将Hamilton Attention的计算负载完全均衡(如图11所示)。
图11. 使用类似于Zig-zag Ring Attention形式的、轴对称的QKV初始分布方式,能够确保在causal mask下Hamilton Attention的完美负载均衡
Hamilton Attention可以在causal mask下完美负载均衡的原理:我们首先注意到图11中每轮环形通信后、每个GPU上的Attention计算矩阵分为两个部分。其中一个部分是深灰色的、表示每个环形通信自身的Q张量和KV张量的Attention计算,这一部分我们称为“Intra-Ring Attention”。另一部分是浅灰色的、表示两个环形通信之间的Q张量和KV张量的Attention计算,这一部分我们称为“Inter-Ring Attention”。
我们发现,只要QKV张量的初始分布满足以下两个条件,就可以使得Hamilton Attention在causal mask下完美均衡:
同一个GPU上,属于不同环形通信 R1 和R2 的 QKV_{R1} 和 QKV_{R2} 张量,恰好满足: QKV_{R1} 中一半张量的TokenID均大于 QKV_{R2} 中的全部张量; QKV_{R1} 中另一半张量的TokenID均小于 QKV_{R2} 中的全部张量。
不同GPU上,属于相同环形通信的 QKV_{GPU1} 和 QKV_{GPU2} 张量,也恰好满足: QKV_{GPU1} 中一半张量的TokenID均大于 QKV_{GPU2} 中的全部张量; QKV_{GPU1} 中另一半张量的TokenID均小于 QKV_{GPU2} 中的全部张量。
条件1使得“Inter-Ring Attention”总是负载均衡的(参见图11右半区域的浅灰色方块)。条件2使得“Intra-Ring Attention”总是负载均衡的(参见图11右半区域的深灰色方块)。
04
实验结果
以上数节内容已经基本上阐明了Hamilton Attention这一技术的原理和理论性能提升效果。因此,在本节中我们给出开源版本Hamilton Attention代码实现在AMD MI400X和NVIDIA H100推理集群上的实际实验结果。
我们在多种平台配置下进行实验,且每个平台配置下我们都测试了约400种不同的应用场景。每种应用场景具有不同的batch size、seqlen、head num等参数,其中batch size最大达到128,seqlen最大达到1M。当然了,因为显存的限制,诸如batch size=128、seqlen=1M这样的应用场景被提前过滤掉了。事实上,我们通过限制batch size和seqlen的乘积不能超过10M token来避免GPU出现OOM。
一)单机八卡平台配置下的实验结果
如图12所示,我们绘制了单机八卡场景下,Hamilton Attention相比于baseline方法(使用causal mask则选择Zig-zag Ring Attention,否则选择Ring Attention)在总体运行时间 t_{all} 层面的加速比随着baseline方法的计算通信比 CCR^B 的变化情况。
需要注意的是,图中数据点的颜色是由“baseline方法的通信时长是否超过最低阈值”所决定的。具有过小通信量的数据点(比如batch size=1、seqlen=1K),不会享受到Hamilton Attention的通信优化带来的性能提升,因为它们甚至不能完全利用Ring Attention的单一环形信道的带宽,而且它们会受到更严重的GPU通信性能波动的影响。
图12表明,Hamilton Attention在具有全连接拓扑的推理集群上有着很好的总体加速效果,特别是在baseline方法已经因为通信效率低而受限于通信时长时,Hamilton Attention能够取得最大3.58倍的总体性能提升,基本上维持计算通信的完美重合。图中参数说明:
t_{comm}^{B}代表通信时间,从400个数据中,我们经验性发现当1台H100设备下,t_{comm}^{B}>=6.0ms时,Hamilton Attention可以获得性能优势;这个数值在AMD-MI300X上是15ms;
为了准确获得加速比,我们基于CCR^B做了一个加速比的线性拟合
此外,图12还说明了其它一些有趣的结论:
causal mask场景下,baseline方法的计算时长更短,从而导致更低的计算通信比,进而使得Hamilton Attention的总体加速效果更高。
MI300X上Hamilton Attention的加速效果明显好于H100,我们认为这是两个原因导致的:(1)MI300X的计算性能和H100的差距没有通信性能的差距那么大,从而导致MI300X上通信优化能够取得的总体加速效果更好;(2)H100单机八卡之间使用NVSWITCH进行全连接互联,可以通过调整每个NVSWITCH芯片的路由,大幅提高Ring Attention的单一环形通信的信道资源利用率。 而MI300X则使用full mesh全连接互联,很难提高单一环形通信的信道资源利用率。
图12. Hamilton Attention在单机八卡MI300X和H100上的总体性能提升。横坐标是作为baseline方法的Ring Attention或Zig-zag Ring Attention的计算通信比,纵坐标是Hamilton Attention相对于baseline方法的加速比。
二)多机平台配置下的实验结果
如图13所示,我们绘制了IB连接的多机(2机、4机)配置下,分别使用 K_{M×U} 分解方案和 (M−K_M−M)^U 分解方案的Hamilton Attention相比于Ring Attention的总体性能提升。
图13. Hamilton Attention在IB连接的、2机或4机H100推理集群上相对于Ring Attention的总体性能提升效果随着Ring Attention的计算通信比的变化。
图13的实验结果表明,在使用IB/RoCE连接的多节点通信拓扑下, (M−K_M−M)^U 分解方案能够随着节点数的增多保持稳定不变。而 K_{M×U} 分解方案则会随着节点数的增多而不断性能劣化。
有趣的是,在只有两个节点的情况下, K_{M×U} 分解方案甚至要更优于 (M−K_M−M)^U 分解方案。我们认为这是这两种分解方案实现上的不同所导致的。
因为 K_{M×U} 分解方案调用的是NCCL/RCCL的All2All算子,而 (M−K_M−M)^U 分解方案则调用了NCCL/RCCL的batched SendRecv算子。前者可能已经在集合通信库的实现中针对不同情况进行了大量优化,而后者可能并不能享受这些优化。
三)国产加速器实验结果
如下表所示,我们在国产Ascend 910B加速器上(单机八卡)也进行了HamiltonAttention的性能实验,取得了如下的具体结果:
我们选取60组数据呈现在该文档中,并按照其总体加速比(total speedup)由高至低的顺序排列。
相比于作为基线的RingAttention,HamiltonAttention取得了最高2.75倍的总体加速比,最高3.37倍的通信加速比(communication speedup),以及最高1.92倍的计算加速比。
由此,我们可以得出结论,对于Ascend 910B加速器来说,HamiltonAttention不仅可以提高序列并行的通信效率,还可以提高其通信效率。
进一步剖析其原因,我们发现:序列并行的“通信部分”在Ascend 910B这样的国产平台上不仅会占用诸如NPU信道这样的“通信资源”,也会占用一部分“计算资源”,从而提高了“计算部分”的总时长。而HamiltonAttention通过提高序列并行对“通信资源”的利用率,大大降低了其对“计算资源”的占用时间,从而能够在提高通信效率的同时,一并提高计算效率。
引用
[1]Ring-AllGather:Optimization of Collective Communication Operations in MPICH | MPICH
[2]BurstEngine:[2509.19836] BurstEngine: an Efficient Distributed Framework for Training Transformers on Extremely Long Sequences of over 1M Tokens
[3]LoongTrain:[2406.18485] LoongTrain: Efficient Training of Long-Sequence LLMs with Head-Context Parallelism
[4]Hamiltonian Decomposition:Hamilton Decomposition -- from Wolfram MathWorld
[5]Hamiltonian Decomposition of K2m,m≥8 :A Hamiltonian decomposition of K2m∗, 2m ≥ 8 - ScienceDirect
[6]Latin Square:Latin Square -- from Wolfram MathWorld
[7]Zig-zag Ring Attention:ring attention + flash attention:超长上下文之路 - 知乎
[8]Megatron CP:context_parallel package — Megatron Core
[9]ring-flash-attention:zhuzilin/ring-flash-attention: Ring attention implementation with flash attention
无问芯穹(Infinigence AI)作为国际领先的AI基础设施企业,致力于成为大模型时代首选的算力运营商。依托“多元异构、软硬协同”的核心技术优势,打造了连接“M种模型”和“N种芯片”的“MxN”AI基础设施新范式,实现多种大模型算法在多元芯片上的高效协同部署。无问芯穹Infini-AI异构云平台基于多元芯片算力底座,向大模型开发者提供极致性价比的高性能算力和原生工具链,为大模型从开发到部署的全生命流程降本增效。
无问芯穹以“释放无穹算力,让AGI触手可及”为使命,通过不断的技术创新实现普惠AI,让算力成本实现万倍下降,如同水电煤一般为千行百业注入新质生产力。

