

谷歌I/O大会重点点评：留给谷歌的时间不多了

红衣大叔周鸿祎

2024-05-16

导读：谷歌应该结合已有的浏览器、搜索和手机桌面 OS 入口场景，把大模型能力和应用场景相结合。

谷歌发布会刚结束，我简单点评一些我认为值得关注的重点，一共有9个。我的整体感觉是，现在留给谷歌的时间不多了，我建议谷歌把所有的产品都开源算了，然后通过开源重新变成开源世界的领军企业，领导着大家在多模态在这些上面一起合力来对付GPT、对付OpenAI。我觉得才有可能有胜算。

第一，谷歌的 Gemini 1.5 的上下文窗口从行业里最高的 100 万 token 扩展到 200 万token，那就是说明以后这个上下文窗口不再是问题，这会成为所有大模型的标配。

第二，谷歌出了一个跟 GPT-4o 类似的版本，叫 Gemini Flash。我觉得 Gemini Flash 可能更加诚实一点，因为他承认是从大模型中通过蒸馏做了一个小模型，Gemini Flash 应该是一个比较小规模的模型，这样才能获得在多模态，即语音识别和说话方面的这种低延迟。

第三，谷歌定义了一个产品叫 Project Astra，这名字真难记，实际上就是谷歌也开始研发自己的Agent架构。那我讲过Agent 架构非常重要，没有Agent架构的大模型基本就是个废物。Agent 架构可以弥补大模型的很多能力的不足，比如说可以使得帮助大模型做记忆增强，能力增强，工具增强，还有知识增强，包括交互增强，那么很多复杂的工作，那么实际上是由这个 Agent构来指挥大模型来进行调度，所以谷歌这一次下很大的决心推出自己的 Agent 框架，应该也是认识到Agent框架的重要性。

第四，谷歌继续坚持开源的原则，它还是羞答答的。主要的 Gemini 不开源。它的开源模型应该叫Gemma，不叫Gemini。Gemma 2.0 版本是 270 亿，而且开了一个 Pali Gemma的多模态版本。我觉得这个多模态版本应可能是目前最强的开源多模态大模型。那基于这个开源多模态大模型，开源生态能不能快速的在上面能开发出接近 GPT-4o 版本的开源模型？可能这里就是最大的希望了。

第五，谷歌还做了文生图的视频，和 Midjourney 能达到同一级别，比DALLE3 可能更胜一筹。文生图现在还有stable diffusion 的开源，也在不断的进步，这一块可能已经没有新的话题。

第六，我不太理解为什么谷歌还要做music，其实 AI 做 music 的东西已经很多了，就算谷歌做得比别人好一点，我还是觉得它做得太庞杂了。因为即使他 AI 音乐做得最好，毕竟每天做音乐的人还是极少数，所以这个产品是不能扭转乾坤的。

第七，这次谷歌介绍了Sora的对应的竞争对手叫 Veo，它融合了之前谷歌做了多款文生视频的模型，谷歌把这个吹得很牛，但现场演示的效果很一般，号称能做1080P，能够超过一分钟，能够生成一致性的画面，但现场给的这个演示非常少，而且画面非常小，让人感觉好像也是类似Sora，是个期货产品，或者是一个有点儿夸大和摆拍的一个产品。到现在关于Sora， open AI也没有提供出来，大家也怀疑各种可能性，一种解释是说实践没有做的那么好，所以是骡子是马不敢拿出来遛遛。还有一种是说对算力的消耗太大，所以现在只能给少数人用，那就看谷歌和 OpenAI 谁能率先压缩多模态的成本。我觉得在这一块有可能 Google 会有后发的优势，因为 Google 毕竟有这么多服务器，有这么多云计算的资源，每年有几百亿美金的利润，可以支持它更大的投入。而且还重要的是谷歌自己这次还发布了自己新的TPU，就是它的人工智能芯片，它的人工智能芯片在训练和推理方面，应该说据说它的性价比是要高于英伟达的 GPU 的，那如果这个能成为优势，那可能将来在成本上，可能它看谁能拼下去。

不过最近也有人怀疑这次 GPT-4o 对 token 的反应速度那么快，除了算法上改变模型的参数大小有改变，会不会是采用了特质的硬件？就把 Transformer 算法给固化了，这样的话使得用特制的硬件。但是我想如果 OpenAI 做了自己的硬件，不可能不对外说以这种消息不可能不传出来，所以我觉得可能谷歌的 TPU 可能更为真实一些。

第八，另外谷歌也针锋相对，出了一个叫 Gemini live，这是类似GPT-4o的一个版本，就是它可以在上线的时候使用摄像头，可以看见这个世界，可以正常的跟人对话，但是这个能力因为 GPT 的 4O 版本已经给大家演示过了，所以这个版本没有引起大家的关注。

我的感觉 Google 现在应该就像就我们经常看足球比赛一样，留给中国队的时间不多了。那我觉得现在留给谷歌的时间不多了，我建议谷歌把所有的产品都开源算了，然后通过开源重新变成开源世界的领军企业，领导着包括我们中国在内的所有的 AI 公司，大家在多模态在这些上面一起合力来对付GPT、对付OpenAI。我觉得才有可能有胜算。实际上 Meta 已经走上这条路，而且已经尝到了甜头，那么现在就看谷歌Pichai可能没有这个魄力。那就看谷歌两位创始人会怎么想了。

第九，谷歌这一次做了类似 GPTs 的这个自定义人工智能的智能代理，但是我个人觉得 GPTs是不太成功的。因为定义复杂了，你普通人干不了，让普通人只是设定一个 promote 调用 API 来进行简单的流程化工作流设计，出来的功能又太碎片太简单，至少我觉得目前期望用户不用编代码就能做出一个很牛的 APP ，这个想法还是很难的。APP store 里边虽然有百万个APP，真正实际上被用户使用的 APP 也没有那么多。

我觉得最让人匪夷所思的是，谷歌似乎并没有发挥发动自己的优势，因为谷歌有三大优势，一个是搜索，一个是 Chrome 浏览器，还有一个是安卓，那么安卓实际上是手机桌面，所以谷歌这一次我认为犯的错误还是盲目的在模型的能力上，在跟 OpenAI 掰手腕，而忽视了说应该结合谷歌已有的浏览器、搜索和手机桌面 OS 的这种入口的场景，应该把这些大模型的能力和很多应用场景相结合。把它和手机的 OS 揉在一起，如果能找到几个杀手级的场景，做几个杀手级的功能，那么在安卓里一推广，那么就可以获得几十亿的用户，一旦有这么多用户每天都在使用，就会形成这种用户数据的反馈，会把这个产品改进的飞轮就能真正的推动起来。

不知道谷歌为什么没有这么做？现在感觉 OpenAI 已经完全引领了整个作战的节奏，那谷歌很被动地被它牵着鼻子转，其实谷歌应该不理他，应该来宣布全世界有那么多 10 亿以上的用户在用AI，在用搜索，那搜索 AI 化之后会怎么样？全世界也有超过 10 亿以上的用户在用Gmail， Gmail 这个场景下用 AI 如何赋能？Chrome 是全世界最大的浏览器，但是在中国它不如 360浏览器大。那在全世界也至少有 10 亿人在用Chrome，那作为一个浏览器怎么样用场景？还有全世界有几十亿台手机用的都是安卓，所以这四大入口我觉得谷歌不去思考怎么站住，而是一味的天天在模型上比拼。其实国内去年卷了一年，大家今天再推个新模型，大家都没有感觉了。

“模型即产品”这个思路我是反对的，模型不是产品，模型只是能力，需要跟产品结合，在产品给用户描绘的明星场景中，让用户得到了这种体验，这样才能形成一个闭环。所以我觉得谷歌的战略现在实际上是有严重的问题。

模型的能力由于力量太分散，又跟不上 OpenAI 这种做到极致追求爆品的功力，然后又没有发挥自己的产品入口的这种场景化的优势。在场景中真正的把自己的模型和场景的需求、用户的刚需和痛点紧密的结合在一起，所以产品不行，能力不行。那而且战线又特别长，力量又特别分散，所以这也是为什么我替谷歌比较担忧吧。

那现在 OpenAI虽然有了1亿用户，但这1亿用户都基本是网页版，或者手机上可能是 APP，但是用户的留存，用户的使用频度并不是很高，所以将来能够打败 OpenAI 的一定是利用自己对硬件或对软件入口的这种拥有占有率来胜过OpenAI。可惜谷歌没有用，这没有打好这张牌。就给那再给 OpenAI 一段成长的时间， OpenAI 也推出了自己的桌面端应用，比如说PC、 Windows 端、 Mac 端、 iOS 和安卓，等到这个端成长起来，谷歌就更难对付 OpenAI 了。

【声明】内容源于网络

红衣大叔周鸿祎

国家网络安全守卫者 AI技术趋势科普推广数字科技产品体验分享中小企业商业赚钱教练

内容 173

粉丝 0

红衣大叔周鸿祎国家网络安全守卫者 AI技术趋势科普推广数字科技产品体验分享中小企业商业赚钱教练

总阅读222

粉丝0

内容173