大数跨境
0
0

『开放』却不『开源』,谷歌最先进的大模型 Gemma,为何?

『开放』却不『开源』,谷歌最先进的大模型 Gemma,为何? 数翼
2024-02-24
0
导读:2月21日,谷歌宣布可免费商用的 Gemma 大模型在全球开放使用,并强调其为开放模型,而非开源模型。

2月21日,谷歌宣布可免费商用的 Gemma 大模型在全球开放使用,并强调其为开放模型,而非开源模型。今天先聊一下开放模型这个概念的意义,在看看 Gemma 模型为何物。

何为开放

谷歌强调 Gemma 是开放模型,首先说明模型免费以及可商用(允许所有组织负责任地进行商用和分发), 同时强调其开放不开源,意味着模型虽然先进,但是谷歌并不会分享关于模型的过多技术细节。包括 Gemma的源码、训练数据等等。这无疑和 OpenAI 的做法如出一辙。

和 OpenAI 的核心产品 ChatGPT 以及前段 时间爆火的 Sora 类似, 谷歌开放模型的发布想必未来也不会公布特别详细的技术细节。这也是其保证 技术领先性的必要手段。

重新划分大模型阵营

在此之前,我们再谈及大模型(包括其他软件的时候),都是两个评判标准:

  • • 是否开源

  • • 是否可免费商用

自此之后,开放模型这个概念可能会慢慢被大众接受,相信更多的厂商也会推出自己的开放模型。

Gemma开放模型

如何让开放模型有竞争力

这个问题谷歌给出了很好的答案和范例,看 Gemma 发布文章就能看出,那就是:给出优秀的模型以及开发者需要的一切东西

包括:

  • • 各个主流框架的集成以及实例

  • • 微调工具

  • • 宽松的使用条款(免费商用)

这点我们后面详细介绍。

对谷歌的意义

众所周知,Meta 公司因其在AI领域的开源策略备受业界好评,而谷歌和OpenAI却 因坚持技术封闭而常遭受到外界的批评,两者都在各自最新和最先进的模型上选择了闭源的策略, 被很多人认为是不利于人工智能的技术进步。

开放模型必然会吸引更多开发者进入谷歌云生态

而此次Gemma开放模型也标志着谷歌大模型策略的转变。兼顾开源和闭源的的策略, 不仅能够同时和Meta、OpenAI的开源和闭源公司同时竞争。其Gemma开放模型也必然会 吸引更多的开发者进入谷歌云生态,推动相关业务的发展。

关于 Gemma

Gemma 得名于拉丁语『宝石』,发音是ˈdʒemə (杰玛)。

它由 Google DeepMind 和 Google 的其他团队开发,其灵感来自 Gemini, 采用与创建 Gemini 模型相同的研究和技术而构建。我们可以认为 Gemma 是 Gemini 的青春版

大家可以访问 https://ai.google.dev/gemma[1] 使用 Gemma。

轻量级模型

谷歌在介绍 Gemma 时候,强调了它是最先进的轻量级开放模型。有 2B 和 7B 两种尺寸的模型权重。

此前最流行的开源模型 Llama-2 包含了 7B、13B 以及 70B 三个型号的模型。

在此之前所有排的上号的模型都至少会发布 10B 以上尺寸的模型,甚至有更大的 100B 以上模型。我觉得这次谷歌这次似乎看对了方向,不去卷大模型的,开始卷大模型的小了。当然让模型小且好用,没有牛逼的技术实力是办不到的。

根据我的经验 6B(7B)的模型是一般开发人员笔记本电脑运行的极限,当然也只是仅仅运行, 其推理速度并不快,只能做一个技术验证,并不能作为日常开发很流畅的使用。而 1B(2B)的 模型就可以在开发人员的电脑上很流畅的运行起来,丢在后台作为一个定制本地AI助手一直运行着也不会 对你日常工作有什么影响。

轻量级的开放模型

而 10B 以上的模型,无一例外都是那些有卡玩家的专属, 这也无疑是给很多想尝鲜或者做技术调研用户树起了一个逞强, 让哪些潜在用户变成看客。

个人觉得,谷歌反其道而行的小模型策略,反而能让其受到开发者的拥护,更受市场的欢迎。

Gemma 性能

首先谷歌宣称 Gemma 是同尺寸拥有最先进新能,甚至在关键测试上超越了更大的模型, 这里谷歌拿当前开源模型的王者 Lamma-2 做了对比:

Gemma 和 Llama-2 性能对比

数据集、性能和建模方法等更详细的信息可以参考它的技术报告[2]

https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf[3]

Gemma 开放了什么?

我们前面提到了谷歌定义Gemma为开放模型,那么它到底开放了什么?

  • • 发布了两种尺寸的模型配重:Gemma 2B 和 Gemma 7B。每个尺寸都发布了经过预训练和指令调整的变体。

  • • 新的Responsible Generative AI 工具包为使用 Gemma 创建更安全的 AI 应用程序提供了指导和基本工具。

  • • 通过原生Keras 3.0提供跨所有主要框架的推理和监督微调 (SFT) 工具链JAXPyTorch 和 TensorFlow 。

  • • 即用型ColabKaggle 笔记本,以及与Hugging FaceMaxTextNVIDIA NeMo和 TensorRT-LLM等流行工具的集成。

  • • 预训练和指令调整的 Gemma 模型可以在您的笔记本电脑、工作站或 Google Cloud 上运行,并可轻松部署在Vertex AI和Google Kubernetes Engine (GKE) 上。

  • • 使用条款[4]允许所有组织(无论规模大小)负责任地进行商业使用和分发。

Gemma多个框架的集成

更详细的内容可以参考谷歌发布 Gemma 的文章[5]

安全性

安全性一直是AI大厂重视并投入大量人力物力,而小厂不太关心的领域。我们上篇文章也提到了 Gemini 1.5 未对公众开发的主要原因就是安全问题。

负责任的AI开发

Gemma 的安全性主要体现在以下方面:

  • • 以谷歌人工智能原则[6]为核心进行设计。

  • • 使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据

  • • 利用人类反馈 (RLHF) 进行广泛的微调和强化学习,使指令调整模型与负责任的行为保持一致。

  • • 为了了解和降低 Gemma 模型的风险状况,我们进行了稳健的评估,包括手动红队自动对抗测试以及危险活动模型能力评估

  • • 与 Gemma 一起发布了新的 负责任的生成式AI工具包,以帮助开发人员和研究人员优先构建安全且负责任的 AI 应用程序。

下载使用

最后,大家可以通过 HuggingFace,Kaggle,Vertex AI 等多个平台下载使用过 Gemma 模型。

多个平台都可以下载使用 Gemma 模型

引用链接

[1]https://ai.google.dev/gemma
[2] 技术报告: https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
[3]https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
[4] 使用条款: https://www.kaggle.com/models/google/gemma/license/consent
[5] 发布 Gemma 的文章: https://blog.google/technology/developers/gemma-open-models/
[6] 谷歌人工智能原则https://ai.google.dev/responsible?utm_source=agd&utm_medium=referral&utm_campaign=explore-responsible&utm_content&hl=zh-cn



--- END ---



【声明】内容源于网络
0
0
数翼
专注 AIGC 人工智能知识传播和实践
内容 228
粉丝 0
数翼 专注 AIGC 人工智能知识传播和实践
总阅读29
粉丝0
内容228