论文下载:关注回复【C798】获取领取 AAAI 2026 论文合集
引言:残差连接的局限性
在深度学习的十年演进中,ResNet 提出的残差连接(Residual Connection)是极深网络得以训练的基石。其标准形式为:
虽然 Pre-Norm 和 Post-Norm 等变体在一定程度上缓解了梯度消失,但始终面临梯度稳定性与特征表征坍塌(Representation Collapse)之间的权衡。
一、 字节跳动:Hyper-Connections (HC) —— 开启高维残差时代
论文标题: HYPER-CONNECTIONS
论文链接: https://arxiv.org/abs/2409.19606
字节跳动 Seed 团队在论文 Hyper-Connections 中提出,不应将残差流局限于单一通道。HC 的核心是将残差流的宽度扩展 倍,并引入三个可学习的线性映射矩阵: (读取)、 (写入)和 (残差混合)。
核心演进公式:其中, 是扩展后的残差流。通过这种方式,网络可以自主学习层与层之间的连接强度,解耦了计算量(FLOPs)与残差流宽度。
二、 轻量化演进:Frac-Connections (FC) —— 破解显存瓶颈
论文标题: Frac-Connections: Fractional Extension of Hyper-Connections
论文链接: https://arxiv.org/abs/2503.14125
尽管 HC 性能优异,但其通过复制副本扩展通道的方式带来了巨大的显存访问(I/O)开销。为此,字节跳动在后续工作 Frac-Connections 中提出了“分片(Split)”逻辑。
技术逻辑转变:FC 不再通过 Repeat 操作增加宽度,而是将原始隐藏状态 直接分割为 个分片:
这相当于将扩展率 推向了分数域( )。FC 在保留了多路径连接(Width-connections)优势的同时,通过降低单路径的维度,实现了在不增加内存带宽负担的前提下增强模型表征能力
三、 DeepSeek 的解法:mHC —— 引入数学流形约束
DeepSeek 团队在将 HC 推向超大规模训练(如 27B 参数量)时发现,无约束的 矩阵会导致严重的信号发散(Signal Explosion)。实验显示,HC 的 Amax Gain Magnitude(最大增益幅值)在深层网络中可达 3000 倍,导致训练崩溃。
在论文 mHC: Manifold-Constrained Hyper-Connections 中,DeepSeek 提出了流形约束方案。
1. 双随机矩阵约束(Doubly Stochastic Matrix)
为了恢复残差连接本质的“恒等映射”属性,mHC 要求残差映射矩阵
必须落在 Birkhoff 多胞体(Birkhoff polytope)上:
这意味着矩阵的每一行和每一列之和都必须为 1。
2. Sinkhorn-Knopp 迭代
为了在训练中动态满足上述约束,DeepSeek 引入了 Sinkhorn-Knopp 算法进行迭代归一化:这一约束确保了信号在通过多层传递时,其均值能够保持能量守恒,范数受到严格限制,从而消除了梯度爆炸风险。
四、 系统级优化:破解 I/O 墙
DeepSeek 的 mHC 方案不仅是数学上的改进,更是一套工程优化方案:
-
1. Kernel Fusion:将 RMSNorm、线性映射与 Sinkhorn 迭代合并为一个 CUDA Kernel,减少显存读写。 -
2. Selective Recomputing:针对 步残差流设计了分块重计算策略,通过公式 计算最优重计算块大小。 -
3. DualPipe Overlap:在管道并行中,利用高优先级流(High Priority Stream)实现计算与通信的深度重叠。
五、 总结与观点
从 Hyper-Connections 开启的高维连接,到 Frac-Connections 的效率优化,再到 DeepSeek 通过 mHC 引入的数学流形约束,神经网络的宏观架构设计正在经历从“暴力堆叠”向“精密路由”的进化。
严谨结论:
-
• 拓扑复杂性:单纯增加参数量已不再是 Scaling 的唯一路径,优化层间的信息路由宽度(Residual Stream Width)提供了新的增长点。 -
• 约束的价值:DeepSeek 的工作证明,在大规模训练中,自由度的增加必须伴随严格的数学约束(如双随机流形),否则“灵活性”将转化为“不稳定性”。 -
• 软硬结合:未来的模型创新将高度依赖于如 TileLang 这样的底层算子开发工具,只有解决 I/O 瓶颈,先进的拓扑设计才能落地。
一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!
视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!
无论你是研究哪个方向的,都可以找到志同道合的伙伴
添加好友后将拉你进相应微信群。
📌 添加方式:
扫描下方二维码,或搜索微信号:aiqysd
📩 添加好友时请务必备注信息,格式如下:
研究方向 + 学校/公司 + 学历 + 姓名
❗非常重要:
发送好友验证时,必须填写备注信息,示例如下:
👉 目标检测 + 中科大 + 研一 + 陈奕迅
凡格式不对者,一律不予理睬
我们期待你的加入,一起交流、学习、进步!
部分资料展示👇
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理

