前言
马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。
钛媒体App获悉,北京时间3月18日早上,“硅谷钢铁侠”、亿万富翁马斯克旗下AI初创公司xAI宣布,xAI将其研发的大模型Grok-1开源,用户可通过磁链下载模型权重和架构信息。
Grok-1的巨大参数规模——3140亿,标志着AI技术迈入了一个新的里程碑。作为目前最大的开源语言模型,它预示着AI技术正迎来一个全新的发展时代,这个时代的AI将拥有更强大的语言理解和生成能力,为人工智能在各领域的应用带来更广阔的前景。
揭晓Gork-1的神秘面纱
Grok的设计受到《银河系漫游指南》的启发,它可以回答几乎所有问题,帮助人类在追求理解和知识的道路上不受背景或政治立场的限制。有网友发现了一个有趣的细节:xAI团队似乎为了彰显其“理解宇宙”的壮丽愿景,特意将模型的参数量设定为与圆周率相关的“314B”。
xAI团队对Grok-1进行了广泛的数学和推理能力评估,包括GSM8K(中学数学单词问题)、MMLU(多学科多项选择题)、HumanEval(Python代码完成任务)以及MATH(利用LaTeX编写的初中和高中数学问题)。
令人瞩目的是,Grok-1在这些测试中表现出色,超越了ChatGPT-3.5、Inflection-1和LLaMa2 70B等模型,在排名上仅次于Claude 2和GPT-4。
Gork-1的惊人参数
Grok-1拥有惊人的314B参数量,这个数字令人印象深刻。相比之下,Meta的LLaMa 2 70B只有其4.4倍的参数量。这样庞大规模的模型意味着它能够处理更为复杂的任务,理解更长的上下文信息,甚至在某些基准测试中超越了LLaMa 2 70B和GPT-3.5。这种规模让Grok-1成为AI领域的一颗耀眼新星。
根据Apache 2.0许可协议,xAI向公众开放了包含Grok-1在2023年10月完成预训练阶段时基础模型数据。以下是钛媒体App整理的关键信息:
●该基础模型通过大量文本数据训练而成,未专门针对任何具体任务进行优化。
●3140亿参数构成的混合专家模型,其中25%的参数能够针对特定的数据单元(Token)激活。而xAI团队利用定制的训练技术栈,在JAX和Rust的基础上,从零开始构建了此模型,完成时间为2023年10月。
●模型参数数量高达3140亿,具备混合专家模型(Mixture of Experts, MoE)8架构,每一个数据单元(Token)由2位专家处理,共64个处理层,用于处理查询的有48个注意力机制单元(attention heads),用于处理键(key)/值(value)的有8个注意力机制单元,嵌入向量(embeddings)的维度为6,144,采用旋转式嵌入表示( RoPE) ,使用SentencePiece分词系统处理,包含131,072种数据单元,支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)
●最大序列长度为8,192个数据单元,以处理更长的上下文信息
如何立即在线体验Grok?
目前,Grok的在线版本仅对推特订阅用户进行了小范围测试,而具备本地部署能力的资源有限。但随着AI领域专家的优化以及官方的努力,预计在线API服务将在不久的将来推出。Anakin.ai将会是第一批接入该服务的平台,并将通过Discord社群和邮件通知用户。Anakin.ai是一款全方位的大型AI模型平台,已经集成了Stable Diffusion XL和DALL·E等模型作为预设的图像应用。
文章结尾
如有疑问或有需求可以进群交流。

