大数跨境

Llama 4 开源登场:革新架构带来的 AI 性能飞跃

Llama 4 开源登场:革新架构带来的 AI 性能飞跃 元龙数字智能科技
2025-04-07
2

Llama 4

开源登场

革新架构带来的 AI 性能飞跃


在人工智能领域不断飞速发展的进程中,Meta 在 2025 年 4 月 6 日这个看似普通的周六深夜,扔下了一颗重磅炸弹 —— 开源其最新 AI 模型系列 Llama 4。这一举措瞬间在全球科技界引发了广泛关注和热烈讨论,为整个 AI 领域注入了全新的活力与无限可能。


Llama 4三款模型包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth,它们均历经海量未标注的文本、图像以及视频数据的精心雕琢,从而具备了卓越而广泛的视觉理解能力。


Meta GenAI 负责人 Ahmad Al-Dahle 强调,Llama 4 充分彰显了 Meta 对开源 AI 矢志不渝的长期承诺,以及对开放系统能够孕育出顶尖大模型这一理念的坚定信念。就连谷歌 CEO 劈查伊也不禁对 Llama 4 团队表示祝贺,感叹人工智能世界的精彩与无限可能。


在大模型竞技场(Arena)中,Llama 4 Maverick 大放异彩,总排名跃居第二,成功跻身突破 1400 分的大模型之列,成为其中的第四位成员。在开放模型的排名中,它更是独占鳌头,一举超越 DeepSeek。不仅如此,在困难提示词、编程、数学、创意写作等诸多复杂任务的考验中,Llama 4 Maverick 均勇夺第一,成绩斐然,将自家前辈 Llama 3 405B 远远甩在身后,得分从 1268 大幅飙升至 1417,在风格控制方面也取得了第五名的佳绩。


Llama 4 Scout 作为一款拥有 170 亿激活参数和 16 个专家的模型,堪称同类中的佼佼者,其强大程度远超历代 Llama 模型。令人惊叹的是,它仅需单个 NVIDIA H100 GPU 便能完美适配运行,并且突破性地提供了业界领先的 1000 万 token 上下文窗口。在众多广为人知的基准测试中,Llama 4 Scout 凭借出色表现,成功战胜 Gemma 3、Gemini 2.0 Flash - Lite 和 Mistral 3.1 等一众对手。


Llama 4 Maverick 同样毫不逊色,拥有 128 位专家和 170 亿个激活参数,在多模态领域独占鳌头。在各类基准测试中,它成功击败 GPT - 4o 和 Gemini 2.0 Flash,在推理和编程方面,与新 DeepSeek v3 相比也毫不逊色,甚至在激活参数不到其一半的情况下,仍能取得相当的成绩。值得一提的是,Llama 4 Maverick 还具备一流的性价比,其实验性聊天版本在 LMArena 上的 ELO 得分高达 1417。这两款优秀模型的诞生,离不开从拥有 2880 亿激活参数和 16 个专家的 Llama 4 Behemoth 模型进行的知识蒸馏。


Llama 4 Behemoth 无疑是 Meta 目前最为强大的模型之一,在世界范围内的大型语言模型中也位居前列。在多项科学、技术、工程和数学(STEM)基准测试中,其表现令人瞩目,超越了 GPT - 4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Pro 等知名模型。尽管目前 Llama 4 Behemoth 仍处于紧张的训练阶段,但 Meta 后续将会陆续公布更多相关信息,值得我们持续关注。


对于广大用户而言,一个振奋人心的好消息是,现在就可以在llama.com和 Hugging 上便捷地下载 Llama 4 Scout 和 Llama 4 Maverick 最新模型。所有 Llama 4 模型均采用原生多模态设计,用户只需上传一张图像,即可就图像相关的任何问题向模型提问。


Llama 4 之所以能够取得如此卓越的成绩,得益于其在预训练和后训练阶段的诸多创新之举。在预训练阶段,Meta 首次采用混合专家(Mixture of Experts, MoE)架构。在这种架构下,单个 token 仅激活总参数的一部分,使得模型在训练和推理时计算效率大幅提高。以 Llama 4 Maverick 为例,该模型拥有 170 亿激活参数和 4000 亿总参数,通过交替的密集层和混合专家(MoE)层,有效提升了推理效率。在 MoE 层中,128 个路由专家和一个共享专家协同工作,每个 token 都会被发送到共享专家以及 128 个路由专家中的一个。如此一来,虽然所有参数都存储在内存中,但在模型服务时,仅激活部分参数,大大降低了模型服务成本和延迟,使得 Llama 4 Maverick 既可以在单个 NVIDIA H100 DGX 主机上轻松运行,便于部署,也能通过分布式推理实现最高效率。


此外,Llama 4 系列模型采用原生多模态设计,通过早期融合将文本和视觉 token 无缝整合到统一的模型骨干中。这一创新不仅能够利用大量未标记的文本、图像和视频数据对模型进行联合预训练,还显著改进了基于 MetaCLIP 的视觉编码器,使其与 LLM 更好地适配。同时,Meta 开发的新训练技术 MetaP,能够可靠地设置模型超参数,且选定的超参数在不同批量大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。Llama 4 通过在 200 种语言上进行预训练,支持开源微调工作,多语言 token 数量相比 Llama 3 增加了 10 倍之多。训练过程中采用的 FP8 精度,在保证模型质量的同时,实现了高 FLOPs 利用率。Meta 还通过中期训练不断提升模型核心能力,为 Llama 4 Scout 解锁了业界领先的 1000 万输入上下文长度


在后训练阶段,针对 Llama 4 Maverick 模型,Meta 通过精心设计的课程策略,成功平衡了多种输入模态、推理能力和对话能力。在混合模态时,Meta 采用轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)的方法,解决了 SFT 和 DPO 可能过度约束模型的问题。通过移除超过 50% 标记为简单的数据,并在剩余较难数据集上进行轻量级 SFT,以及在多模态在线 RL 阶段精心选择较难提示,同时实施持续在线 RL 策略,交替训练并过滤保留中等至高难度提示,最后进行轻量级 DPO 处理模型响应质量的边缘情况,成功打造出一个业界领先的通用聊天模型,具备先进的智能和图像理解能力。


在性能表现上,Llama 4 Maverick 以 170 亿激活参数、128 个专家和 4000 亿总参数的配置,相比 Llama 3.3 70B,以更低的成本提供了更高的质量。在编码、推理、多语言、长上下文和图像基准测试中,其性能全面超越类似模型如 GPT - 4o 和 Gemini 2.0,在编码和推理方面与规模更大的 DeepSeek v3.1 相比也毫不逊色。较小模型 Llama 4 Scout 拥有 170 亿激活参数、16 个专家和 1090 亿总参数,作为通用型模型,将支持的上下文长度从 Llama 3 的 128K 大幅提升至业界领先的 1000 万 token,为多文档摘要、个性化任务解析广泛用户活动以及推理庞大代码库等应用开辟了广阔前景。在预训练和后训练中均使用 256K 上下文长度,使基础模型具备强大的长上下文泛化能力,在大海捞针检索等任务中表现出色。Llama 4 架构的创新之一 —— 无位置嵌入的交错注意力层(interleaved attention layers),并通过推理时的温度缩放增强长上下文泛化能力,即 iRoPE 架构,为模型支持无限上下文长度奠定了基础。


Meta 对两款模型进行了广泛的图像和视频帧静止图像训练,赋予它们广泛的视觉理解能力,使其能够轻松应对多图像输入和文本提示下的视觉推理和理解任务。Llama 4 Scout 在图像定位方面表现卓越,能够精准将用户提示与相关视觉概念对齐,并将模型响应锚定到图像中的特定区域,大大提升了大型语言模型视觉问答的准确性和对用户意图的理解能力。在编码、推理、长上下文和图像基准测试中,Llama 4 Scout 同样超越了类似模型,比之前所有的 Llama 模型表现更为强劲。


Llama 4 Behemoth 预览版作为教师模型,是一个拥有 2880 亿激活参数、16 个专家和近 2 万亿总参数的多模态混合专家模型。在数学、多语言和图像基准测试中,展现出非推理模型的最先进性能,是教授较小 Llama 4 模型的理想选择。然而,对这样一个拥有两万亿参数的模型进行后训练面临着巨大挑战,Meta 为此从数据规模入手,彻底重新设计和改进训练方案。通过对监督微调(SFT)数据进行 95% 的剪枝,先进行轻量级 SFT,再进行大规模 RL,显著提升了模型的推理和编码能力。在强化学习(RL)方案中,通过策略模型进行 pass@k 分析,采样难度较高的提示,构建难度递增的训练课程,动态过滤零优势提示,构建混合提示训练批次,以及从多种系统指令中采样确保模型指令遵循能力等措施,在数学、推理和编码方面为模型带来了显著的性能提升。同时,Meta 对混合专家(MoE)并行化设计进行优化,开发完全异步的在线强化学习训练框架,大幅提升了训练效率,相比上一代提升了约 10 倍。


综上所述,Llama 4 系列模型的推出,无疑是人工智能领域的一次重大飞跃。它们在技术创新、性能表现等方面取得的显著成就,为未来 AI 的发展指明了新的方向,也为开发者和用户带来了更多的想象空间和应用可能。相信随着 Llama 4 模型的广泛应用和不断优化,必将在各个领域发挥巨大作用,推动人工智能技术迈向新的高度。

-END-

【声明】内容源于网络
0
0
元龙数字智能科技
永做第一 使命第一 向善第一
内容 901
粉丝 0
元龙数字智能科技 永做第一 使命第一 向善第一
总阅读1.3k
粉丝0
内容901