“最强开源 AI 模型”,4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布
科技媒体 The Information 本周五发布博文,援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B,在现有 80 亿和 700 亿参数两个版本之外,推出 4050 亿参数版本,号称是最强大的开源大语言模型。
Meta 公司今年 4 月发布 Llama 3 AI 模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多的信息。

通过一个按钮创建100万个AI角色。
大型语言模型(LLMs)在多项任务中展现出了令人印象深刻的能力,但其性能往往受限于训练数据的多样性和质量。如何大规模生成高质量的、多样化的合成数据,尤其是捕捉不同视角和知识领域,一直是个挑战。最近,一种名为"Persona Hub"的新方法被提出,它自动从网络数据中整理出10亿个多样化的人物形象。这些人物形象作为世界知识的分布式载体,使LLM能够接触多种视角,并据此生成相应的合成数据。
通过PEER释放一百万专家的潜力。
PEER技术解锁了百万专家的潜力。随着变换器模型规模的快速增长,其计算成本也在显著上升,主要由于与模型宽度线性扩展的前馈层。混合专家(MoE)架构提供了一种解决方案,允许模型为每个输入选择性地激活参数子集。PEER,即参数高效专家检索,是一种新型层设计,通过使用创新的“产品密钥”技术实现对超过百万个微小专家的高效检索。在语言建模任务的实验中,PEER层在性能-计算权衡方面超越了密集前馈层和粗粒度MoEs
模型训练成本“平民化”,前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2
GPT-2 是 OpenAI 于 2019 年推出的模型,其训练费用一度为每小时 256 美元,那么 5 年过后的 GPT-4 时代,软硬件和数据的进步,是否意味着训练同一模型所需的时间和成本会随之减少呢?答案是肯定的。
据 Tom's Hardware 7月13日报道,前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2,其成本降到了每小时仅 28 美元,在短短 5 年内降低了近 90%。
成本降低的主要因素,则是其使用了单个 8XH100 节点进行训练。此外,Andrej Karpathy 表示,llm.c 直接实现了 GPT 训练。“由于 llm.c 是用 C / CUDA 直接实现的 GPT 训练,因此其要求非常之低 —— 不需要 conda 环境、Python 解释器、pip 安装等。你只需启动一个云 GPU 节点,选择性地安装 NVIDIA cuDNN、NCCL / MPI,下载.bin 数据分片,编译并运行,几分钟内就能开始。”
他补充说:“然后等待 24 小时(28*24=672),就能生成关于‘安第斯山脉中会说英语的独角兽’的样本。”
硅谷大科技公司 CEO 发声支持特朗普 谴责枪击事件
当地时间 7 月 13 日,美国前总统特朗普在宾夕法尼亚州参加一场集会时,遭遇枪击。从现场报道画面看特朗普并未受到严重伤害,事后特朗普在社交平台发布声明称自己的「右耳上部被一颗子弹击穿」,「流了很多血」。
事发之后,Sam Altman、Tim Cook 等多位硅谷大佬都对特朗普发出声援。Elon Musk 等硅谷大佬则直接对特朗普参选表示支持。




