

初创公司 DeepSeek 推出了高性能 DeepSeek-R1 推理模型,闯入了人工智能领域。据称,尽管成本仅为 OpenAI 模型的一小部分,但该模型的功能已匹敌甚至超越了 OpenAI 模型。
R1 的开发吸引了众多开发者,也震撼了投资者,他们向美国 AI 公司投入了数十亿美元的资金,因为他们认为金钱和计算资源就等于更强大的模型。DeepSeek 向我们表明事实并非如此。
内容
-
智能优化 -
强化学习 -
经过验证的开源数据 -
计算效率 -
DeepSeek 的“顿悟时刻” -
更高效的人工智能蓝图 -
结论:
DeepSeek-R1于 1 月 20 日发布,现已成为 Hugging Face AI 平台上最受欢迎的模型,仅 9 天后下载量就超过 189,000 次。开发人员竞相测试该模型,并了解其对未来 AI 创新的影响,此前有一系列头条新闻表明,该模型的性能优于 OpenAI 的 GPT-4o 和谷歌的 Gemini LLM 等价格高得多的竞争对手。截至 1 月 27 日,DeepSeek 的消费者应用程序飙升至 Apple App Store 的第一位,取代了 ChatGPT,并引发了美国 AI 股票的大规模抛售。
DeepSeek 的模型可能对企业 AI 战略产生深远影响。通过免费提供 DeepSeek-R1 且价格便宜得多,它为 OpenAI 和 Google 等公司构建的昂贵专有模型提供了一种可行的替代方案,这些模型之前被视为同类最佳。DeepSeek-R1 有望实现最强大、最前沿的 AI 功能的民主化使用,让小公司在迅速演变的 AI 军备竞赛中占据优势。
真正令人兴奋的不仅是 DeepSeek-R1 能够以如此高的水准执行推理、数学和编码等复杂任务,而且它执行这些任务的方式也非常出色。该公司率先使用了新颖的技术,包括巧妙的硬件优化、强化学习和模型提炼。通过这种方式,它创建了一个非常强大的模型,它不仅可以提供准确而富有洞察力的结果,而且随着时间的推移,它会变得更加智能,不断调整并提高其输出的质量。
智能优化
当老外对向出口先进图形处理器施加限|制时,人们认为这将给国内人工智能公司的发展带来巨大障碍。然而,DeepSeek 已经证明,通过高度定制管理硬件使用方式的软件,可以弥补先进硬件的不足。
该公司几乎完全在 Nvidia 的 H800 GPU 上训练 DeepSeek-R1,而不是其美国竞争对手使用的 H100 芯片。H800 是专门为国内市场开发的,以遵守美国的制裁规定,它显著限制了芯片的吞吐量并降低了它们可以处理的带宽量。
为了解决这个问题,DeepSeek 的工程师想出了一些巧妙的低级代码优化方法,大大提高了 H800 GPU 的内存效率,确保其模型不会受到任何带宽限制的阻碍。这项创新表明,只需从低功耗芯片中榨取更多性能,就可以避免对价值数百万美元的先进硬件的需求。
强化学习
去年 11 月,DeepSeek 首次公布了 DeepSeek-R1 的性能,并发布了基准测试结果,表明其性能超越了 OpenAI 的 o1 推理模型。当时它尚未公开发布。
随着完整版本和随附的学术论文的发布,该公司宣布其并未依赖传统的监督微调 (SFT) 技术,而是采用了一种称为强化学习 (RL) 的新方法,引起了人们的关注。
SFT 是一种在精选数据集上训练 AI 模型的过程,以训练模型执行逐步推理,也称为思维链。它被视为提高 LLM 推理能力的一项重要技术,但 DeepSeek 表明强化学习可以使其过时。
强化学习使 DeepSeek-R1 能够通过试错过程自主提高其性能,并通过奖励激励,从而减少对预先标记的训练数据的需求。尽管该论文并未透露有关 DeepSeek 强化学习过程的全部内容,但它指出使用了一种称为组相对策略优化 (GRPO) 的创新技术,这有助于稳定训练过程并随着时间的推移提高其准确性。
DeepSeek 严密保护用于开发 DeepSeek-R1 的训练数据,但据信它使用了合成数据源和开源数据源的组合来增强其推理能力。
经过验证的开源数据
DeepSeek 严密保护用于开发 DeepSeek-R1 的训练数据,但据信它使用了合成数据源和开源数据源的组合来增强其推理能力。
GRPO 算法最早出现在 DeepSeek 于 2024 年 4 月发表的 DeepSeekMath 论文中,该论文表明该算法是在Common Crawl数据集上进行训练的,Common Crawl 数据集是一个开放的网络爬虫数据存储库,其中包括原始网页、元数据、文本摘录和图像文件。Common Crawl 基金会此前曾声称,其数据已用于培训全球 80% 以上的 LLM。

这些数据对于 LLM 特别有用,因为它通过与美国初创公司Constellation Network 的合作提高了透明度和可追溯性,Constellation Network 创建了一个定制的区块链,用于验证和安全访问 Common Crawl 数据。
Constellation 通过 Metagraph(一种创新的应用程序专用区块链网络)帮助验证和保护了近 9PB 的 17 年互联网爬取数据。这使 Common Crawl 能够提供过去 17 年互联网历史的完全不可改变的副本,解决了对数据来源、隐私和道德采购的担忧——这些都是 DeepSeek 模型的标志,表明它依赖于这个数据集。
通过使用区块链,Constellation 提供了加密安全性,确保了整个 AI 生命周期中 Common Crawl 数据的完整性,同时围绕数据收集和引用提供了更符合道德的 AI 框架。
计算效率
DeepSeek 的另一项创新是使用模型蒸馏,这是一个将具有数十亿参数的海量模型的知识转移到更轻量、更高效的模型的过程。
结果是精简后的模型几乎能够与大型模型的性能相媲美,同时大大减少了生成这些结果所需的计算资源。例如,精简后的模型可以应用于数学问题解决和编码等特定任务,利用大型模型的知识,但不会占用任何计算资源。这本质上是一种平衡行为,涉及在效率和功率之间取得平衡。
DeepSeek 的论文还描述了它如何在训练过程中强调稳定性和迭代改进。通过将 GRPO 与自我评估机制相结合,该模型可以通过评估自己的反应、识别任何错误或不准确之处并根据所学内容改进其输出,从而持续产生准确可靠的输出。
这种迭代改进过程对于精度至关重要的复杂任务特别有用,例如工程、高级分析和科学研究。
DeepSeek 的“顿悟时刻”
DeepSeek 在论文中解释了如何使用强化学习来激励其模型独立思考,通过奖励它产生正确的答案并展示它得出这些答案的逻辑过程。
更高效的人工智能蓝图
DeepSeek-R1 的最大优势或许在于,除了超越 o1 和 Llama 3 等领先模型之外,它还能够展示其整个思路。换句话说,它提供了如何得出答案或结论的透明度。这是一项关键功能,考虑到其他模型不这样做或仅在某些情况下这样做,这项功能尤其有用。
例如,OpenAI 会隐藏其模型的思路链以保护其开发秘密,而 Llama 3 只会通过一些积极的提示来揭示其思维过程。这种透明度使开发人员能够快速识别和修复模型输出中的任何错误,从而使其准确性随着时间的推移而提高。
结论:
DeepSeek-R1 的惊人性能及其开发过程中采用的关键创新表明了一条通往更高效 AI 模型的道路,这些模型可以在不影响性能的情况下降低总体资源需求。通过这种方式,DeepSeek 为我们提供了为只能访问有限计算资源的开发人员和研究人员开发强大 AI 工具的蓝图,为更快的创新铺平了道路。
免责声明:
关注我们,一起探索AWM!
近期热点
2025-02-01
2025-02-06
2024-12-14




