大数跨境
0
0

开源盛世!DeepSeek 2026 首篇论文,从 HC 到 FC 再到 mHC,破解残差连接瓶颈

开源盛世!DeepSeek 2026 首篇论文,从 HC 到 FC 再到 mHC,破解残差连接瓶颈 AI前沿速递
2026-01-04
13
导读:开源盛世!DeepSeek 2026 首篇论文,从 HC 到 FC 再到 mHC,破解残差连接瓶颈

 

论文下载:关注回复【C798获取领取 AAAI 2026 论文合集

引言:残差连接的局限性

在深度学习的十年演进中,ResNet 提出的残差连接(Residual Connection)是极深网络得以训练的基石。其标准形式为:

虽然 Pre-Norm 和 Post-Norm 等变体在一定程度上缓解了梯度消失,但始终面临梯度稳定性与特征表征坍塌(Representation Collapse)之间的权衡。


一、 字节跳动:Hyper-Connections (HC) —— 开启高维残差时代

论文标题: HYPER-CONNECTIONS
论文链接: https://arxiv.org/abs/2409.19606

字节跳动 Seed 团队在论文 Hyper-Connections  中提出,不应将残差流局限于单一通道。HC 的核心是将残差流的宽度扩展   倍,并引入三个可学习的线性映射矩阵: (读取)、 (写入)和  (残差混合)。

核心演进公式:

其中,  是扩展后的残差流。通过这种方式,网络可以自主学习层与层之间的连接强度,解耦了计算量(FLOPs)与残差流宽度。
图 1:残差连接(a)与 Hyper-Connections(b)的结构对比

扫码添加小助手回复“C798
免费获取 AAAI 2026 论文合集
图片


二、 轻量化演进:Frac-Connections (FC) —— 破解显存瓶颈

论文标题: Frac-Connections: Fractional Extension of Hyper-Connections
论文链接: https://arxiv.org/abs/2503.14125

尽管 HC 性能优异,但其通过复制副本扩展通道的方式带来了巨大的显存访问(I/O)开销。为此,字节跳动在后续工作 Frac-Connections 中提出了“分片(Split)”逻辑。

技术逻辑转变:
FC 不再通过 Repeat 操作增加宽度,而是将原始隐藏状态   直接分割为   个分片:

这相当于将扩展率   推向了分数域( )。FC 在保留了多路径连接(Width-connections)优势的同时,通过降低单路径的维度,实现了在不增加内存带宽负担的前提下增强模型表征能力
图 2:HC(扩展率 n≥1)与 FC(扩展率 n≤1)的关系定义

三、 DeepSeek 的解法:mHC —— 引入数学流形约束

DeepSeek 团队在将 HC 推向超大规模训练(如 27B 参数量)时发现,无约束的   矩阵会导致严重的信号发散(Signal Explosion)。实验显示,HC 的 Amax Gain Magnitude(最大增益幅值)在深层网络中可达 3000 倍,导致训练崩溃。

在论文 mHC: Manifold-Constrained Hyper-Connections  中,DeepSeek 提出了流形约束方案。

1. 双随机矩阵约束(Doubly Stochastic Matrix)

为了恢复残差连接本质的“恒等映射”属性,mHC 要求残差映射矩阵   必须落在 Birkhoff 多胞体(Birkhoff polytope)上:

这意味着矩阵的每一行和每一列之和都必须为 1。

2. Sinkhorn-Knopp 迭代

为了在训练中动态满足上述约束,DeepSeek 引入了 Sinkhorn-Knopp 算法进行迭代归一化:

这一约束确保了信号在通过多层传递时,其均值能够保持能量守恒,范数受到严格限制,从而消除了梯度爆炸风险。
图 3:HC 与 mHC 在 27B 模型下的 Amax Gain Magnitude 稳定性对比

四、 系统级优化:破解 I/O 墙

DeepSeek 的 mHC 方案不仅是数学上的改进,更是一套工程优化方案:

  1. 1. Kernel Fusion:将 RMSNorm、线性映射与 Sinkhorn 迭代合并为一个 CUDA Kernel,减少显存读写。
  2. 2. Selective Recomputing:针对   步残差流设计了分块重计算策略,通过公式   计算最优重计算块大小。
  3. 3. DualPipe Overlap:在管道并行中,利用高优先级流(High Priority Stream)实现计算与通信的深度重叠。

五、 总结与观点

从 Hyper-Connections 开启的高维连接,到 Frac-Connections 的效率优化,再到 DeepSeek 通过 mHC 引入的数学流形约束,神经网络的宏观架构设计正在经历从“暴力堆叠”向“精密路由”的进化。

严谨结论:

  • • 拓扑复杂性:单纯增加参数量已不再是 Scaling 的唯一路径,优化层间的信息路由宽度(Residual Stream Width)提供了新的增长点。
  • • 约束的价值:DeepSeek 的工作证明,在大规模训练中,自由度的增加必须伴随严格的数学约束(如双随机流形),否则“灵活性”将转化为“不稳定性”。
  • • 软硬结合:未来的模型创新将高度依赖于如 TileLang 这样的底层算子开发工具,只有解决 I/O 瓶颈,先进的拓扑设计才能落地。

 



扫码添加小助手回复“C798
免费获取 AAAI 2026 论文合集
图片



往期推荐
一夜醒来,Transformer和Mamba都被超越了!大模型最强架构TTT问世!

一区Top期刊 Information Sciences 惨遭除名,2025中科院最新分区揭晓!

视觉Transformer(Vision Transformer, ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

我愿称之无敌!特征融合最新暴力涨点方案!

超越传统:GNN和Transformer结合的创新突破!
CVPR 2024 | CRNet:一种可保留细节的图像增强与统一恢复网络
复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!
深度学习可解释杀疯了!登上《Nature》正刊!屠榜双领域SOTA!
Transformer 过时了!MIT 液体神经网络 LNN 才是新趋势!
小波变换+注意力机制的结合创新,竟能实现100%分类准确率!
CVPR 2024 | 黑暗中的多目标追踪
研究因果推断最前沿,这些个创新思路不能错过



📢欢迎加入我们的学术交流群!

无论你是研究哪个方向的,都可以找到志同道合的伙伴

添加好友后将拉你进相应微信群。

📌 添加方式:

扫描下方二维码,或搜索微信号:aiqysd

📩 添加好友时请务必备注信息,格式如下:

研究方向  + 学校/公司 + 学历 + 姓名

非常重要:

发送好友验证时,必须填写备注信息,示例如下:

👉 目标检测 + 中科大 + 研一 + 陈奕迅

凡格式不对者,一律不予理睬

我们期待你的加入,一起交流、学习、进步!

部分资料展示👇




欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理




【声明】内容源于网络
0
0
AI前沿速递
AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
内容 1836
粉丝 0
AI前沿速递 AI前沿速递 聚焦人工智能最新科研成果与技术动态,专注前沿论文解读、行业资讯分享与高校招生信息推送,助力AI爱好者和从业者把握学界风向标。每日更新技术干货与深度内容,让全球优秀研究被更多人看见。关注我们,探索AI无限可能!
总阅读525
粉丝0
内容1.8k