·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
图片来源 | 网络
十年基石:残差连接如何成为AI的“定海神针”
要理解mHC的突破意义,需回溯深度学习的关键历史。2015年前,神经网络面临梯度消失或爆炸问题,模型层数超过几十层便难以收敛。
微软亚洲研究院何恺明团队提出的残差连接(Residual Connection),以公式 y = x + F(x) 打破僵局。该设计让信息可通过“直达通道”跳过复杂变换,保障深层网络训练稳定。
这一机制本质是嵌入“恒等映射”,即便中间层学习失败,原始信号仍可完整传递,避免“越算越偏”。自此,残差连接成为Transformer、GPT、Llama、DeepSeek等主流大模型的基础架构。
十年来,模型参数从百万级跃升至万亿级,层数达上千层,但残差连接的核心逻辑始终未变——深度不依赖每层智能,而在于保留一条稳定的直通路径。
单车道不够用了:HC的革新与失控
随着模型规模扩大,研究者对残差连接的“单车道”结构提出挑战。2024年9月,字节跳动提出Hyper-Connections(HC),将单通道扩展为n×C并行车道,并引入可学习混合矩阵,实现跨层信息融合。
实验显示,HC在MoE模型上实现1.8倍收敛加速,显著提升表达能力,如同用多股线编织更结实、花纹更复杂的毛衣。
然而,HC存在致命缺陷:其混合矩阵无约束,导致跨层传播中出现指数级信号放大。DeepSeek数据显示,信号最大增幅接近3000倍,极易引发梯度爆炸或消失,造成训练崩盘。
此外,多通道大幅增加GPU内存占用和通信开销,工程成本高昂。HC暴露了大模型发展的核心矛盾:提升表达力需更多连接,但自由度越高,稳定性越难保障。
mHC破局:给自由的连接套上“数学护栏”
面对HC困境,DeepSeek提出mHC(流形约束超连接),核心思想是:允许构建复杂拓扑,但必须施加数学约束确保稳定性。
mHC引入“双随机矩阵”(Doubly Stochastic Matrix)作为关键约束:所有元素非负,且每行每列之和均为1。该设计确保输出为输入的加权混合,总能量守恒,杜绝信号异常放大。
类比而言,mHC为多车道高速设定交通规则:车辆可换道,但总量不变、速度可控,避免拥堵与事故。同时,mHC通过非负约束(如Sigmoid函数)防止正负系数抵消,进一步保障信号完整性。
① 双随机矩阵:重塑恒等映射的守恒性
双随机矩阵使信息传递具备“水量守恒”特性——无论怎样分配与混合,总量不变。这为深层网络提供了理论稳定性保障。
② Sinkhorn-Knopp算法:把“野矩阵”驯化成“乖矩阵”
mHC采用Sinkhorn-Knopp算法实现双随机约束:通过交替进行行归一化与列归一化,迭代数次即可收敛至合规矩阵。该过程完全可微分,支持端到端训练,无需额外超参数。
“流形约束”意味着参数被限制在特定几何结构的空间内,避免偏离守恒轨道。这种设计在不牺牲表达能力的前提下,实现了性能与稳定的统一。
硬核工程:6.7%开销的背后,是重写底层的勇气
mHC涉及大量分散矩阵运算,若按常规执行将严重拖慢训练。DeepSeek团队基于TileLang框架手写CUDA内核,融合多个操作为单一内核,减少内存访问,提升数据局部性,带宽效率提高22%。
针对Sinkhorn-Knopp算法,团队定制前向与反向计算内核,复用中间结果,避免额外存储开销。
为应对多车道带来的激活值膨胀,采用选择性重计算策略:反向传播时不保存全部中间状态,而是按需重新计算。此举增加少量计算,却使内存消耗降低40%。
在多卡训练中,扩展DualPipe调度策略,将MLP内核置于高优先级流,实现计算与通信并行,消除设备“空等”现象。
综合优化下,mHC在n=4(四条并行流)时,额外训练时间开销仅6.7%,展现出极高的工程可行性。
mHC的潜在影响包括:
- 提升大规模语言模型训练的稳定性与扩展上限;
- 降低训练失败率与资源浪费,形成低成本训练新范式;
- 若开源并被主流框架采纳,有望推动社区对新型连接机制的探索。
DeepSeek此前通过开源策略融入全球技术生态,此次mHC架构创新进一步强化其技术品牌。这不仅是具体模型改进,更是对AI基础架构的深度思考,或将重塑行业对训练稳定性与可扩展性的认知。
未来几个月,mHC能否在R2模型或更大规模产品中兑现性能优势,将是真正的考验。但在AI竞争日益激烈的当下,任何可能改变游戏规则的底层创新,都值得持续关注。
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

