

地表最强开源模型！Llama 3.1开源！最大参数量为4050亿！

软积木

2024-07-25

导读：在开源的3个版本中，405B 被称为第一个前沿级开源 AI 模型，也是本次开源的旗舰基础模型。

7月23日，Meta推出其最新的开源AI模型Llama 3.1，该系列包括 8B、70B 和 405B 3个版本。

Llama 3.1 各型号

在开源的3个版本中，405B 被称为第一个前沿级开源 AI 模型，也是本次开源的旗舰基础模型。

70B 被定义为高性能、经济高效的模型，支持多种用例。

8B 被定义为轻量、超快的型号，也就是我们常说的小模型，用户可以在任何地方运行。

https://llama.meta.com/

关于 Llama 405B 版本

Llama 3.1 405B 是第一个公开可用的模型，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级人工智能模型相媲美。

Llama 3.1 405B 模型架构

作为Meta迄今为止最大的模型，Llama 3.1 405B使用超过 15 万亿个Tokens训练。

为了实现这种规模的训练运行并在合理的时间内获得结果，Meta优化了整个训练堆栈。

并且，Meta将模型训练推向了超过 16,000 个 H100 GPU，使 405B 成为第一个在此规模上训练的 Llama 模型。

Llama 3.1 8B 和 70B

8B 和 70B 型号具有128k上下文长度，拥有最先进的工具使用以及整体更强的推理能力。

这使得模型能够支持高级用例，例如长文本摘要、多语言会话代理和编码助手。

Meta还对许可证进行了更改，允许开发人员使用 Llama 模型（包括 405B）的输出来改进其他模型。

Llama 3.1 功能特色

上下文长度：Llama3.1支持高达128K的上下文长度，能够处理和理解更长的文本信息，对于长文本摘要和多语言对话等高级应用非常有利。

多语言能力：模型支持八种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，在多语言翻译和跨文化交流中表现出色。

数学和推理能力：在GSM8K和ARC Challenge等数学和推理测试中，Llama 3.1的得分非常高，在解决复杂数学问题和逻辑推理方面有非常强大的能力。

工具使用：Llama3.1在BFCL测试中得分较高，在使用工具和执行编程任务方面能力很强。

特殊测试：在NH/Multi-needle测试中，Llama3.1的得分接近满分，在特定领域的高度专业化能力非常突出。

量化优化：为了支持大规模推理，Llama3.1的模型从BF16量化到FP8，有效减少了计算资源需求，使得模型能够在更广泛的硬件上运行。

Llama 3.1 与其他模型比较

Meta将Llama 3.1与其他竞争对手的模型进行了比较。

评估表明，旗舰模型（405B）在一系列任务评估上超过了目前市面上的模型，包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。

此外，如8B和70B这类较小规模的模型，在与具有相似参数数量的其他封闭式和开放式模型相比较时，也展现出了出色的性能。

‍END

ChatU可免费申请试用，支持企业私有部署，多引擎AIGC操作系统安全稳定，点击下方公众号一键试用！

【声明】内容源于网络

软积木

🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

内容 157

粉丝 0

软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网：https://www.CubixAI.com 📮商务合作：BD@cubixai.com

总阅读92

粉丝0

内容157