大数跨境
0
0

DeepSeek:推出全新训练方法,大力提升人工智能效率

DeepSeek:推出全新训练方法,大力提升人工智能效率 子禾智视界
2026-01-04
6
导读:DeepSeek 发表了一篇论文 ,概述一种更高效的 AI 开发方法,阐述中国人工智能产业在无法免费获得英伟达芯片的情况下,如何努力与 OpenAI 等公司竞争

引言:DeepSeek 即将推出的 R2 模型有可能再次颠覆全球人工智能行业,中国的低成本模型在 LiveBench 全球大型语言模型性能排名前 15 名中占据了两个席位

DeepSeek 发表了一篇论文 ,概述一种更高效的 AI 开发方法,阐述中国人工智能产业在无法免费获得英伟达芯片的情况下,如何努力与 OpenAI 等公司竞争

mHC: 流形约束超连接——mHC: Manifold-Constrained Hyper-Connections

摘要:近年来,以超连接(Hyper-Connections,HC) 为代表的研究通过扩展残差流宽度和多样化连接模式 ,扩展过去十年广泛应用的残差连接范式。虽然这种多样化带来显著的性能提升,但它从根本上损害残差连接固有的恒等映射特性 ,导致严重的训练不稳定和可扩展性受限 ,并增加显著的内存访问开销 。为了应对这些挑战,提出流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)

mHC 是一个通用框架,将 HC 的残差连接空间投影到特定的流形上,从而恢复恒等映射特性 ,结合严格的基础设施优化来确保效率。实验表明,mHC 能够有效地进行大规模训练,提供显著的性能提升和卓越的可扩展性 。预期作为 HC 的灵活实用扩展,mHC 将有助于加深对拓扑架构设计的理解,为基础模型的演进指明有前景的方向

这份由创始人梁文峰参与撰写的文件介绍一种名为“流形约束超连接”(Manifold-Constrained Hyper-Connections)的框架。据称该框架旨在提高可扩展性,降低训练高级人工智能系统的计算和能源需求

DeepSeek 过去发布的此类产品往往预示着重要模型的发布。这家总部位于杭州的初创公司一年前推出的 R1 推理模型震惊业界,其开发成本仅为硅谷竞争对手的一小部分。此后,DeepSeek 发布几个规模较小的平台,但人们对其下一代旗舰系统——被广泛称为 R2——的期待与日俱增,该系统预计将于 2 月份春节前后发布

中国初创企业持续面临诸多限制,美国阻止其获取开发和运行人工智能所必需的最先进半导体。这些限制迫使研究人员寻求非常规的方法和架构

尽管谷歌近期取得一些进展,但 DeepSeek 即将推出的 R2 模型(有望在未来几个月内发布)仍有可能再次颠覆全球人工智能行业格局。谷歌的 Gemini 3 模型在 11 月超越 OpenAI,在 LiveBench 全球大型语言模型(LLM)性能排名中位列前三。而中国开发的低成本模型,其开发成本远低于竞争对手,也跻身前 15 名,占据两个席位

DeepSeek 的新论文已发布在预印本服务器网站 arXiv 上,arXiv 是一个流行的在线资源,研究人员可以在这里分享尚未经过同行评审的研究结果。DeepSeek 的这篇新论文旨在弥合阻碍人工智能模型可扩展性的复杂而重要的技术差距

DeepSeek 的创始人一直引领着公司的研究方向,并推动团队重新思考大规模人工智能系统的构思和构建方式

最新研究解决训练不稳定和可扩展性有限等挑战,指出新方法融入“严格的基础设施优化以确保效率”。测试在参数量从 30 亿到 270 亿不等的模型上进行,该研究建立在字节跳动有限公司 2024 年关于超连接架构的研究之上,表示这项技术“有望推动基础模型的演进”。

该方法是对所谓超连接技术的进一步发展,超连接技术最初由字节跳动于 2024 年开发。而超连接技术本身又建立在微软亚洲研究院的经典 ResNet 架构之上

层级模型(LLM)基于神经网络构建,而神经网络的设计初衷是为在多层网络中保持信号完整性。问题在于,随着层数的增加,信号衰减或劣化的可能性也随之增加,最终变成噪声的风险也更大。这有点像玩传话游戏:参与的人越多,原始信息被混淆和篡改的可能性就越高

随着语言模型的发展,研究人员通常试图通过允许模型的不同部分在内部共享更多信息来提高性能。然而,论文指出,这会增加信息不稳定的风险。DeepSeek最新研究使模型能够以受限的方式共享更丰富的内部通信,即使模型规模扩大,也能保持训练稳定性和计算效

【声明】内容源于网络
0
0
子禾智视界
阅读英语外刊资讯,知晓前沿消息指导个人操作,争取做到百分之七年化收益率
内容 71
粉丝 0
子禾智视界 阅读英语外刊资讯,知晓前沿消息指导个人操作,争取做到百分之七年化收益率
总阅读1.9k
粉丝0
内容71