一盈据全 | 硅谷大科技公司 CEO 发声支持特朗普谴责枪击事件；Meta Llama 3 被曝 7 月 23 日发布- 大数跨境

首页

一盈据全 | 硅谷大科技公司 CEO 发声支持特朗普谴责枪击事件；Meta Llama 3 被曝 7 月 23 日发布

盈数智能

2024-07-15

导读：一盈据全 | 硅谷大科技公司 CEO 发声支持特朗普谴责枪击事件；Meta Llama 3 被曝 7 月 23 日发布

“最强开源 AI 模型”，4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布

科技媒体 The Information 本周五发布博文，援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B，在现有 80 亿和 700 亿参数两个版本之外，推出 4050 亿参数版本，号称是最强大的开源大语言模型。

Meta 公司今年 4 月发布 Llama 3 AI 模型时，扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型，但当时没有透露太多的信息。

报道称 Llama 3-405B 是一个多模态 AI 开源模型，能够理解图像、文本等多种媒体内容。（来源：The Information）

通过一个按钮创建100万个AI角色。

大型语言模型（LLMs）在多项任务中展现出了令人印象深刻的能力，但其性能往往受限于训练数据的多样性和质量。如何大规模生成高质量的、多样化的合成数据，尤其是捕捉不同视角和知识领域，一直是个挑战。最近，一种名为"Persona Hub"的新方法被提出，它自动从网络数据中整理出10亿个多样化的人物形象。这些人物形象作为世界知识的分布式载体，使LLM能够接触多种视角，并据此生成相应的合成数据。

更多详细访问：https://www.llmwatch.com/p/are-you-doing-rag-right（来源：linkedin）

通过PEER释放一百万专家的潜力。

PEER技术解锁了百万专家的潜力。随着变换器模型规模的快速增长，其计算成本也在显著上升，主要由于与模型宽度线性扩展的前馈层。混合专家（MoE）架构提供了一种解决方案，允许模型为每个输入选择性地激活参数子集。PEER，即参数高效专家检索，是一种新型层设计，通过使用创新的“产品密钥”技术实现对超过百万个微小专家的高效检索。在语言建模任务的实验中，PEER层在性能-计算权衡方面超越了密集前馈层和粗粒度MoEs

更多详细访问：https://arxiv.org/abs/2407.04153（来源：linkedin）

模型训练成本“平民化”，前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2

GPT-2 是 OpenAI 于 2019 年推出的模型，其训练费用一度为每小时 256 美元，那么 5 年过后的 GPT-4 时代，软硬件和数据的进步，是否意味着训练同一模型所需的时间和成本会随之减少呢？答案是肯定的。

据 Tom's Hardware 7月13日报道，前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2，其成本降到了每小时仅 28 美元，在短短 5 年内降低了近 90%。

成本降低的主要因素，则是其使用了单个 8XH100 节点进行训练。此外，Andrej Karpathy 表示，llm.c 直接实现了 GPT 训练。“由于 llm.c 是用 C / CUDA 直接实现的 GPT 训练，因此其要求非常之低 —— 不需要 conda 环境、Python 解释器、pip 安装等。你只需启动一个云 GPU 节点，选择性地安装 NVIDIA cuDNN、NCCL / MPI，下载.bin 数据分片，编译并运行，几分钟内就能开始。”

他补充说：“然后等待 24 小时（28*24=672），就能生成关于‘安第斯山脉中会说英语的独角兽’的样本。”

随着AI技术的发展，普通人开发AI的门槛正在降低，为他们提供了更多的机会和可能性。（来源:IT之家）