昨天凌晨 Google Gemini 发布,具备多种多模态的性能。在之前openai的开发者大会的那篇文章里我也提到了GPTS的发布会可能是openai最后的高光了,在经历了狗血的内部权斗之后,来自最强对手的google又给openai盖上了棺材盖,真是水深火热。
基本上内容就是秀了全部多模态的功能,更高,更快,更强更全面,然后还不忘重点戳一下openai的痛点 “安全” ,不仅性能更好,更快,还更安全,就问openai怕不怕。
官方介绍:https://blog.google/technology/ai/google-gemini-ai/#sundar-note
技术文档:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
官网页面:https://deepmind.google/technologies/gemini/#capabilities
谷歌和Alphabet CEO桑达尔·皮查伊的说明:
每一次科技变革都是一个推进科学发现、加速人类进步和改善生活的机会。我相信,我们现在看到的人工智能转型,将是我们有生之年见证的最深远的变革,其影响远远大于移动技术或网络技术的转型。人工智能具有为全球各地的人们创造机会的潜力,从日常生活到非凡成就。它将带来新的创新和经济进步浪潮,并在我们未曾见过的规模上推动知识、学习、创造力和生产力。
这就是让我感到兴奋的:将人工智能的帮助带给世界上每个人。
作为一家以人工智能为先的公司,我们踏上这段旅程已经近8年,进步的步伐只会越来越快:成百上千万的人们现在可以使用我们产品中的生成式人工智能做一年前做不到的事情,从找到更复杂问题的答案到使用新的工具进行协作和创作。与此同时,开发者也在使用我们的模型和基础设施构建新的生成式人工智能应用程序,世界各地的创业公司和企业也在我们的人工智能工具的帮助下蓬勃发展。
我们正在见证难以置信的发展势头,但这只是可能性的冰山一角。
在这项工作中,我们采取了大胆而负责任的方法。这意味着在研究中保持雄心勃勃,追求能给人民和社会带来巨大利益的功能,同时建立防范机制,并与政府和专家合作应对风险,因为人工智能变得越来越强大。我们继续投资于最好的工具、基础模型和基础设施,并根据我们的人工智能原则,将它们引入我们的产品和带给其他人。
现在,随着Gemini的推出,我们的人工智能之旅迈入了新的阶段,这是我们目前最强大、最通用的模型,在许多领先基准测试中都有顶尖性能。我们的首个版本Gemini 1.0针对不同规模进行了优化:超级、专业和微型。这些是Gemini时代的第一批模型,也是我们今年初组建Google DeepMind时的愿景的首次实现。这批新模型代表着我们公司有史以来最大的科学和工程项目之一。我真的对未来充满期待,也为Gemini为全世界各地的人们带来的机会感到兴奋。
Gemini介绍
作者:Google DeepMind的首席执行官兼联合创始人Demis Hassabis,代表Gemini团队
人工智能一直是我毕生的研究工作,也是许多我的研究同事的工作重心。从我十几岁时为电脑游戏编程人工智能,到我作为神经科学研究员试图理解大脑的工作原理的多年时间里,我一直坚信,如果我们能建造更智能的机器,我们就能利用它们以难以置信的方式造福人类。
这种对一个由人工智能负责任地赋能的世界的承诺,继续推动着我们在Google DeepMind的工作。长期以来,我们一直想要构建新一代人工智能模型,这些模型的灵感来自于人们理解和互动的方式。这种人工智能感觉起来不像一款智能软件,而更像一些实用和直观的东西——一位专家助手或助理。
今天,随着我们推出Gemini,我们离这个愿景更近了一步,这是我们迄今为止构建的最强大、最通用的模型。
Gemini是Google包括Google Research在内的多个团队大规模协作的结果。它从零开始构建,是多模式的,这意味着它可以泛化,并可以无缝理解、操纵和组合不同类型的信息,包括文本、代码、音频、图像和视频。
Gemini简介:我们最大和最强大的AI模型
Gemini也是我们迄今最灵活的模型——能够高效运行在从数据中心到移动设备的各种环境中。它的顶尖功能将显著提高开发者和企业客户构建和扩展人工智能的方式。
我们优化了首个版本Gemini 1.0的三种不同规模:
-
Gemini超级 - 我们最大和最强大的模型,用于高度复杂的任务。
-
Gemini专业 - 我们最佳的跨范围任务可扩展模型。
-
Gemini微型 - 我们最高效的用于设备上的任务模型。
顶尖性能
我们已经对Gemini模型进行了严格的测试,并评估了它们在各种任务上的性能。从自然图像、音频和视频理解到数学推理,Gemini超级在大型语言模型研发中广泛使用的32个学术基准测试中的30个上的性能超过了当前最先进的结果。
Gemini超级的得分达到90.0%,是第一个在MMLU(大规模多任务语言理解)测试中战胜人类专家的模型,该测试结合了数学、物理、历史、法律、医学和伦理学等57个学科,用于测试世界知识和解决问题的能力。
我们对MMLU的新的基准测试方法使Gemini能够利用其推理能力在回答困难问题之前进行更仔细的思考,这导致相比仅使用第一印象而言有了显著的改进。

Gemini在一系列基准测试中的表现超过了当前最先进水平,包括文本和编码。
Gemini超级在新的MMMU基准测试中也取得了59.4%的最先进成绩,该基准测试由跨域的多模态任务组成,需要慎重的推理。
在我们测试的图像基准中,Gemini超级的表现优于此前最先进的模型,没有获得文字识别(OCR)系统的帮助,后者会从图像中提取文本进行进一步处理。这些基准测试突出了Gemininative的多模态性,并表明了Gemini更复杂推理能力的早期迹象。
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini在一系列多模态基准测试中表现超过当前最先进水平。
下一代功能
迄今为止,创建多模态模型的标准方法是为不同的模态训练独立的组件,然后将它们拼接在一起,以粗略地模拟部分此类功能。这些模型有时在执行某些任务(如描述图像)方面表现不错,但在更概念化和复杂的推理方面则较难应付。
我们设计Gemini以原生多模态性,一开始就在不同模态上进行预训练。然后,我们用额外的多模态数据对其进行微调,以进一步提高其效果。这有助于Gemini从零开始无缝理解和推理各种输入,远胜过现有的多模态模型,其功能在几乎所有领域都是最先进的。
了解更多关于Gemini功能的信息,并了解它的工作原理。
https://deepmind.google/technologies/gemini/#build-with-gemini
复杂的推理
Gemini 1.0复杂的多模态推理功能可以帮助理解复杂的文字和视觉信息。这使其在大量数据中发现难以分辨的知识方面具有独特的技能。
它从数十万份文件中读取、过滤和理解信息以提取见解的非凡能力,将有助于在科学、金融等许多领域以数字速度实现新的突破。
理解文本、图像、音频等
Gemini 1.0经过训练,可以同时识别和理解文本、图像、音频等,所以它可以更好地理解细微的信息,并回答与复杂主题相关的问题。这使得它特别擅长解释数学、物理等复杂学科的推理。
高级编码
我们的首个Gemini版本可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)中的高质量代码。其跨语言工作和复杂信息推理的能力,使其成为世界上领先的编码基础模型之一。
Gemini超级在几个编码基准测试中表现出色,包括HumanEval(评价编码任务性能的重要行业标准)和Natural2Code(我们的内部留出数据集,使用作者生成的源代码而不是网络信息)。
Gemini也可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到有竞争力水平的AI代码生成系统。
使用Gemini的定制版本,我们创建了一个更高级的代码生成系统AlphaCode 2,它擅长解决超越编码的复杂数学和理论计算机科学的竞争性编程问题。
在与原始AlphaCode相同的平台上进行评估时,AlphaCode 2显示出巨大的改进,解决的问题几乎加倍,我们估计它的表现优于85%的竞赛参与者——相比之下,AlphaCode接近50%。当程序员通过定义代码样本应遵循的某些属性来与AlphaCode 2合作时,它的表现会更好。
我们很高兴看到程序员越来越多地将高能力的AI模型用作协作工具,这些工具可以帮助他们推理问题,提出代码设计并协助实现——因此他们可以更快地发布应用程序和设计更好的服务。
更多详细信息请参见我们的AlphaCode 2技术报告。
https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
更高的可靠性、可扩展性和效率
我们使用谷歌自主设计的Tensor Processing Unit(TPU)v4和v5e在针对AI优化的基础设施上大规模训练了Gemini 1.0。我们将其设计为训练起来最可靠、可扩展的模型,也是效率最高的服务模型。
在TPU上,Gemini的运行速度明显快于较早、较小和功能较弱的模型。这些定制设计的AI加速器一直在Google为数十亿用户提供服务的AI驱动产品的核心,如搜索、YouTube、Gmail、Google地图、Google Play和Android。它们还使世界各地的公司能够高效、低成本地训练大规模的AI模型。
今天,我们宣布迄今为止最强大、最高效和可扩展的TPU系统Cloud TPU v5p,这是为训练尖端AI模型而设计的。这一下一代TPU将加速Gemini的开发,并帮助开发者和企业客户更快地训练大规模生成式AI模型,使新产品和功能更快到达客户。
一排云TPU v5p人工智能加速器超级计算机在谷歌数据中心中。
与责任和安全性融为一体
在谷歌,我们致力于在所做的一切中推进大胆和负责任的人工智能。在谷歌人工智能原则和我们产品中的可靠安全策略的基础上,我们正在增加新的保护措施,以适应Gemini的多模态功能。在开发的每个阶段,我们都会考虑潜在的风险,并努力测试和减轻这些风险。
Gemini进行了谷歌迄今为止任何AI模型中最全面的安全性评估,包括偏见和毒性评估。我们对网络攻击、劝说和自治等潜在风险领域进行了新颖的研究,并应用了谷歌研究的一流对抗测试技术,以帮助识别Gemini部署前的关键安全问题。
为了识别我们内部评估方法中的盲区,我们正在与各界外部专家和合作伙伴合作,在一系列问题上对我们的模型进行压力测试。
为了在Gemini的训练阶段诊断内容安全问题,并确保其输出遵循我们的政策,我们使用了诸如艾伦人工智能研究所专家开发的“真实毒性提示”等基准测试,其中包含10万个从网络上提取的具有不同程度毒性的提示。这项工作的更多细节即将推出。
为了限制伤害,我们构建了专用的安全分类器来识别、标记和筛选出涉及暴力或负面定型观念的内容。与可靠的过滤器相结合,这种分层方法旨在使Gemini对每个人来说都更安全、更包容。此外,我们正在继续解决模型(如事实性、依据性、归属性和证实性)的已知挑战。
责任和安全将始终是我们模型开发和部署的中心。这需要协作建设的长期承诺,因此我们正在通过MLCommons、前沿模型论坛及其人工智能安全基金等组织,与行业和更广泛的生态系统合作,制定最佳实践并设置安全和安保基准。我们设计的安全AI框架(SAIF)旨在帮助公共和私营部门减轻AI系统特有的安全风险。随着Gemini的开发,我们将继续与全球的研究人员、政府和民间社会团体合作。
将Gemini推向全世界
Gemini 1.0现在正在一系列产品和平台上推出:
Gemini Pro入驻谷歌产品
我们正在通过谷歌产品向数十亿人们带来Gemini。
从今天开始,Bard将使用Gemini Pro的微调版本进行更高级的推理、规划、理解等。这是Bard推出以来最大的升级。它将在170多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模态,并支持新的语言和地点。
我们也将Gemini引入Pixel。Pixel 8 Pro是第一款搭载Gemini Nano(我们最高效的用于设备上任务的模型)的智能手机,它正在为录音机应用中的“摘要”等新功能提供支持,并从WhatsApp开始,逐步推出到Gboard中的“智能回复”,更多消息应用将在明年推出。
在未来几个月里,Gemini将在我们的更多产品和服务中提供,如搜索、广告、Chrome和Duet AI。
我们已经开始在搜索中实验Gemini,其中它使我们的搜索生成体验(SGE)对用户更快,在美国英语中潜伏期减少了40%,与此同时质量也有所提高。
使用Gemini构建
从12月13日开始,开发者和企业客户可以通过Google AI Studio中的Gemini API或Google Cloud Vertex AI访问Gemini Pro。
Google AI Studio是一个免费的基于Web的开发者工具,可使用API密钥快速原型和启动应用程序。当您需要一个完全托管的AI平台时,Vertex AI允许您使用Gemini进行自定义,具有完全的数据控制权,并从Google云的其他功能中获得企业安全性、安全性、隐私和数据治理与合规性的好处。
Android开发人员也将能够通过AICore构建Gemini Nano,我们最高效的用于设备上任务的模型,AICore是Android 14中一项新的系统功能,从Pixel 8 Pro设备开始提供。注册AICore的早期预览版。
Gemini超级即将推出
对于Gemini超级,我们目前正在完成广泛的信任和安全检查,包括值得信赖的外部方进行的红队测试,并在将其广泛提供之前,使用微调和来自人类反馈的强化学习(RLHF)进一步完善该模型。
作为此流程的一部分,我们会将Gemini超级提供给选定的客户、开发者、合作伙伴以及安全和责任专家,以便他们在明年年初向开发者和企业客户正式推出之前,进行早期实验和反馈。
明年年初,我们还将推出Bard Advanced,一个全新的尖端AI体验,可访问我们最好的模型和功能,从Gemini超级开始。
Gemini时代:启用创新未来
这是人工智能发展中的一个重要里程碑,也是我们在Google继续快速创新和负责任地提升模型功能方面的新时代的开始。
到目前为止,我们在Gemini上取得了巨大进步,我们正努力为未来版本进一步扩展其功能,包括规划和记忆的进步,以及增加上下文窗口来处理更多信息,以提供更好的响应。
我们对一个由AI负责任赋能的世界所带来的惊人可能性充满期待——这是一个创新未来,它将增强创造力、拓展知识、推进科学,并改变世界上数十亿人的生活和工作方式。