
训练一个大模型要多久?小模型几天,大模型几周,顶级模型可能需要数月。
设想一下:团队耗时两周、投入数百万美元算力,模型即将训练完成,却突然出现loss曲线飙升,所有数据作废——这正是许多AI工程师曾遭遇的噩梦。
2025年末,DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出解决方案,引发行业震动。
一个让工程师崩溃的bug
论文一经发布,迅速登上Hugging Face“Paper of the day”榜首,获73个专业点赞。X平台AI研究者Alexander Doria评价称:“这实际上是一篇工程论文……核心是高效训练设计,通过混合精度策略提升数值精度,利用算子融合降低内存带宽瓶颈,整体实现非常优雅。”
该问题源于字节跳动此前提出的Hyper-Connections(HC)技术。传统AI模型信息传输如同单行道,而HC将其扩展为四条并行车道,显著提升训练效率——最高提速1.8倍,在ARC-Challenge基准测试中提升6分。
然而,全球团队在应用HC时发现致命缺陷:训练至约12000步时,loss曲线会无征兆地剧烈上升,导致前功尽弃。该问题随机发生,难以预测,极大影响训练稳定性。
从3000倍到1.6倍:信号放大的控制
DeepSeek团队发现,问题根源在于四条通道间的信息交换缺乏约束,类似高速公路车辆随意变道且数量不均,最终造成系统失衡。在极端情况下,信号放大倍数高达3000倍,直接导致训练崩溃。
解决方案采用1967年的经典算法Sinkhorn-Knopp,对通道间信息流动施加数学约束,确保总量守恒。实施后,信号放大倍数由3000倍降至1.6倍,训练过程趋于稳定。
这一成果展现了工程智慧:用成熟方法解决前沿难题,无需理论突破,重在精准定位问题本质。
AI研究已深入工程实践
DeepSeek论文大量聚焦实操优化:
这些细节凸显当前AI研发重心已转向工程落地。
如今,大模型的核心架构、训练方式和推理框架已趋成熟。未来竞争不再仅看谁拥有更大参数量,更在于谁能更高效地使用现有资源。
关键问题包括:
-
如何更有效地使用大模型 -
哪些场景最能释放AI潜力 -
如何用更少资源完成更多任务
这些问题并不依赖高深数学或全新理论,而是考验发现和解决实际问题的能力。
会“用”比会“造”更重要
吴恩达多次强调:未来最具价值的能力不是理解AI原理,而是“指挥AI干活”。
现实中已有诸多案例印证这一趋势:
他们的共同点并非出身名校或精通代码,而是能够借助AI解决真实问题。
给下一代的机会
我们正努力适应AI时代,而下一代应从小培养“与AI协作”的能力。正如DeepSeek工程师整合已有工具解决问题,这种实践导向的思维模式亟需早期培育。

