3月27日,Databricks在官方博客上宣布推出 DBRX,DBRX分为基本模型 ( DBRX Base) 和微调模型 ( DBRX Instruct) 。
根据Databricks测试,DBRX超越了 GPT-3.5,并且与 Gemini 1.0 Pro 实力相当。
DBRX 在语言理解、编程和数学方面优于 GPT3.5
在语言理解、编程、数学和逻辑方面DBRX击败了开源模型,例如 LLaMA2-70B、Mixtral 和 Grok-1。
DBRX 在语言理解、编程和数学方面与其他模型比较
DBRX 是一个基于 Transformer 的大型语言模型 (LLM),采用MoE架构,总参数为 132B,其中 36B 参数在任何输入上都处于活动状态。
DBRX 凭借MoE架构,推理速度比 LLaMA2-70B 快 2 倍,DBRX 在总参数和活动参数计数方面约为 Grok-1 的 40%。
DBRX 生成速度明显快于 LLaMA2-70B
当托管在 Mosaic AI Model Serving 上时,DBRX 可以以高达 150 tok/s/user 的速度生成文本。
在相同的最终模型质量下,训练 MoE 的 FLOP 效率也比训练密集模型高出约 2 倍。
在端到端方面,DBRX 总体配方(包括预训练数据、模型架构和优化策略)可以与上一代 MPT 模型的质量相匹配,计算量减少了近 4 倍。
DBRX Instruct 使用 32K 的令牌上下文窗口进行训练。 将其性能与 Mixtral Instruct 以及最新版本的 GPT-3.5 Turbo 和 GPT-4 Turbo API 在一套长上下文基准测试上进行比较。
除了一个例外,DBRX Instruct 在所有上下文长度和序列的所有部分都比 GPT-3.5 Turbo 表现更好。

Databricks测试发现,Databricks Gauntlet 的预训练数据比用于训练 MPT-7B 的数据至少好 2 倍。
换句话说,估计要达到相同的模型质量,DBRX只需要一半的Token,客户使用DBRX在自己的数据上训练基础模型效率也大大提升。

在推理效率方面,使用 MoE 架构可以在模型质量和推理效率之间实现更好的权衡。
对各种模型配置进行吞吐量推理
Databricks 是一家数据和 AI 公司,总部位于旧金山,在全球设有办事处,全球有 10,000 多家组织依靠 Databricks 数据智能平台来统一和民主化数据、分析和 AI。
Ali Ghodsi 是 Databricks 的首席执行官兼联合创始人,负责公司的发展和国际扩张。
Ali 也是开源项目 Apache Spark 的创建者之一,他在资源管理、调度和数据缓存领域的学术研究理念已应用于 Apache Mesos 和 Apache Hadoop。
lon Stocia 是 Databricks 的执行主席兼联合创始人。
lon 还担任AMPLab 的联合主任。在 AMPLab,lon 一直领导着软件系统的工作,其中包括 Apache Spark 的开发,以及另外两个备受瞩目的开源项目:Apache Mesos 和 Tachyon。
Matei 是 Databricks 的首席技术官兼联合创始人,也是加州大学伯克利分校计算机科学副教授。
他于 2009 年在加州大学伯克利分校攻读博士学位期间启动了 Apache Spark 项目,并参与了其他广泛使用的数据和 AL软件,包括 Mflow.Delta Lake 和 Doly。
END
ChatU.AI可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众一键试用!