DeepSeek又在放假搞事！58年前的算法解决一个大问题- 大数跨境

全球风口

2026-01-05

导读：训练一个大模型要多久？小模型几天，大模型几周，顶级模型可能要几个月。

训练一个大模型要多久？小模型几天，大模型几周，顶级模型可能需要数月。

设想一下：团队耗时两周、投入数百万美元算力，模型即将训练完成，却突然出现loss曲线飙升，所有数据作废——这正是许多AI工程师曾遭遇的噩梦。

2025年末，DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》，提出解决方案，引发行业震动。

一个让工程师崩溃的bug

论文一经发布，迅速登上Hugging Face“Paper of the day”榜首，获73个专业点赞。X平台AI研究者Alexander Doria评价称：“这实际上是一篇工程论文……核心是高效训练设计，通过混合精度策略提升数值精度，利用算子融合降低内存带宽瓶颈，整体实现非常优雅。”

Hugging Face Paper of the day

该问题源于字节跳动此前提出的Hyper-Connections（HC）技术。传统AI模型信息传输如同单行道，而HC将其扩展为四条并行车道，显著提升训练效率——最高提速1.8倍，在ARC-Challenge基准测试中提升6分。

然而，全球团队在应用HC时发现致命缺陷：训练至约12000步时，loss曲线会无征兆地剧烈上升，导致前功尽弃。该问题随机发生，难以预测，极大影响训练稳定性。

DeepSeek团队发现，问题根源在于四条通道间的信息交换缺乏约束，类似高速公路车辆随意变道且数量不均，最终造成系统失衡。在极端情况下，信号放大倍数高达3000倍，直接导致训练崩溃。

解决方案采用1967年的经典算法Sinkhorn-Knopp，对通道间信息流动施加数学约束，确保总量守恒。实施后，信号放大倍数由3000倍降至1.6倍，训练过程趋于稳定。

额外计算开销仅为6.7%，同时推理性能还提升了2%以上。

这一成果展现了工程智慧：用成熟方法解决前沿难题，无需理论突破，重在精准定位问题本质。

DeepSeek论文大量聚焦实操优化：

详细阐述“Kernel Fusion”（算子融合），减少内存读写开销

介绍“Recomputing”（重计算策略），以时间换空间，缓解显存压力

分析“DualPipe Schedule”（流水线调度），实现通信与计算并行化

这些细节凸显当前AI研发重心已转向工程落地。

如今，大模型的核心架构、训练方式和推理框架已趋成熟。未来竞争不再仅看谁拥有更大参数量，更在于谁能更高效地使用现有资源。

关键问题包括：

这些问题并不依赖高深数学或全新理论，而是考验发现和解决实际问题的能力。

吴恩达多次强调：未来最具价值的能力不是理解AI原理，而是“指挥AI干活”。

吴恩达（Andrew Ng）

现实中已有诸多案例印证这一趋势：

Gabriel Petersson高中辍学，借助ChatGPT自学，现任职OpenAI研究科学家

一名20岁中国大学生运用AI编程工具开发项目，登顶GitHub热榜并获得理想实习机会

他们的共同点并非出身名校或精通代码，而是能够借助AI解决真实问题。

我们正努力适应AI时代，而下一代应从小培养“与AI协作”的能力。正如DeepSeek工程师整合已有工具解决问题，这种实践导向的思维模式亟需早期培育。

【声明】内容源于网络

全球风口

全球科技创新产业专家、海银资本创始合伙人、前哨科技特训营主理人王煜全的自媒体平台。

内容 2681

粉丝 0

全球风口全球科技创新产业专家、海银资本创始合伙人、前哨科技特训营主理人王煜全的自媒体平台。

总阅读18.8k

粉丝0

内容2.7k