大数跨境
0
0

谷歌I/O大会重点点评:留给谷歌的时间不多了

谷歌I/O大会重点点评:留给谷歌的时间不多了 红衣大叔周鸿祎
2024-05-16
2
导读:谷歌应该结合已有的浏览器、搜索和手机桌面 OS 入口场景,把大模型能力和应用场景相结合。

谷歌发布会刚结束,我简单点评一些我认为值得关注的重点,一共有9个。我的整体感觉是,现在留给谷歌的时间不多了,我建议谷歌把所有的产品都开源算了,然后通过开源重新变成开源世界的领军企业,领导着大家在多模态在这些上面一起合力来对付GPT、对付OpenAI。我觉得才有可能有胜算。

第一,谷歌的 Gemini 1.5 的上下文窗口从行业里最高的 100 万 token 扩展到 200 万token,那就是说明以后这个上下文窗口不再是问题,这会成为所有大模型的标配。

第二,谷歌出了一个跟 GPT-4o 类似的版本,叫 Gemini Flash。我觉得 Gemini Flash 可能更加诚实一点,因为他承认是从大模型中通过蒸馏做了一个小模型,Gemini Flash 应该是一个比较小规模的模型,这样才能获得在多模态,即语音识别和说话方面的这种低延迟。

第三,谷歌定义了一个产品叫 Project Astra,这名字真难记,实际上就是谷歌也开始研发自己的Agent架构。那我讲过Agent 架构非常重要,没有Agent架构的大模型基本就是个废物。Agent 架构可以弥补大模型的很多能力的不足,比如说可以使得帮助大模型做记忆增强,能力增强,工具增强,还有知识增强,包括交互增强,那么很多复杂的工作,那么实际上是由这个 Agent构来指挥大模型来进行调度,所以谷歌这一次下很大的决心推出自己的 Agent 框架,应该也是认识到Agent框架的重要性。

第四,谷歌继续坚持开源的原则,它还是羞答答的。主要的 Gemini 不开源。它的开源模型应该叫Gemma,不叫Gemini。Gemma 2.0 版本是 270 亿,而且开了一个 Pali Gemma的多模态版本。我觉得这个多模态版本应可能是目前最强的开源多模态大模型。那基于这个开源多模态大模型,开源生态能不能快速的在上面能开发出接近 GPT-4o 版本的开源模型?可能这里就是最大的希望了。

第五,谷歌还做了文生图的视频,和 Midjourney 能达到同一级别,比DALLE3 可能更胜一筹。文生图现在还有stable diffusion 的开源,也在不断的进步,这一块可能已经没有新的话题。

第六,我不太理解为什么谷歌还要做music,其实 AI 做 music 的东西已经很多了,就算谷歌做得比别人好一点,我还是觉得它做得太庞杂了。因为即使他 AI 音乐做得最好,毕竟每天做音乐的人还是极少数,所以这个产品是不能扭转乾坤的。

第七,这次谷歌介绍了Sora的对应的竞争对手叫 Veo,它融合了之前谷歌做了多款文生视频的模型,谷歌把这个吹得很牛,但现场演示的效果很一般,号称能做1080P,能够超过一分钟,能够生成一致性的画面,但现场给的这个演示非常少,而且画面非常小,让人感觉好像也是类似Sora,是个期货产品,或者是一个有点儿夸大和摆拍的一个产品。到现在关于Sora, open AI也没有提供出来,大家也怀疑各种可能性,一种解释是说实践没有做的那么好,所以是骡子是马不敢拿出来遛遛。还有一种是说对算力的消耗太大,所以现在只能给少数人用,那就看谷歌和 OpenAI 谁能率先压缩多模态的成本。我觉得在这一块有可能 Google 会有后发的优势,因为 Google 毕竟有这么多服务器,有这么多云计算的资源,每年有几百亿美金的利润,可以支持它更大的投入。而且还重要的是谷歌自己这次还发布了自己新的TPU,就是它的人工智能芯片,它的人工智能芯片在训练和推理方面,应该说据说它的性价比是要高于英伟达的 GPU 的,那如果这个能成为优势,那可能将来在成本上,可能它看谁能拼下去。


不过最近也有人怀疑这次 GPT-4o 对 token 的反应速度那么快,除了算法上改变模型的参数大小有改变,会不会是采用了特质的硬件?就把 Transformer 算法给固化了,这样的话使得用特制的硬件。但是我想如果 OpenAI 做了自己的硬件,不可能不对外说以这种消息不可能不传出来,所以我觉得可能谷歌的 TPU 可能更为真实一些。

第八,另外谷歌也针锋相对, 出了一个叫 Gemini live,这是类似GPT-4o的一个版本,就是它可以在上线的时候使用摄像头,可以看见这个世界,可以正常的跟人对话,但是这个能力因为 GPT 的 4O 版本已经给大家演示过了,所以这个版本没有引起大家的关注。


我的感觉 Google 现在应该就像就我们经常看足球比赛一样,留给中国队的时间不多了。那我觉得现在留给谷歌的时间不多了,我建议谷歌把所有的产品都开源算了,然后通过开源重新变成开源世界的领军企业,领导着包括我们中国在内的所有的 AI 公司,大家在多模态在这些上面一起合力来对付GPT、对付OpenAI。我觉得才有可能有胜算。实际上 Meta 已经走上这条路,而且已经尝到了甜头,那么现在就看谷歌Pichai可能没有这个魄力。那就看谷歌两位创始人会怎么想了。

第九,谷歌这一次做了类似 GPTs 的这个自定义人工智能的智能代理,但是我个人觉得 GPTs是不太成功的。因为定义复杂了,你普通人干不了,让普通人只是设定一个 promote 调用 API 来进行简单的流程化工作流设计,出来的功能又太碎片太简单,至少我觉得目前期望用户不用编代码就能做出一个很牛的 APP ,这个想法还是很难的。APP store 里边虽然有百万个APP,真正实际上被用户使用的 APP 也没有那么多。

我觉得最让人匪夷所思的是,谷歌似乎并没有发挥发动自己的优势,因为谷歌有三大优势,一个是搜索,一个是 Chrome 浏览器,还有一个是安卓,那么安卓实际上是手机桌面,所以谷歌这一次我认为犯的错误还是盲目的在模型的能力上,在跟 OpenAI 掰手腕,而忽视了说应该结合谷歌已有的浏览器、搜索和手机桌面 OS 的这种入口的场景,应该把这些大模型的能力和很多应用场景相结合。把它和手机的 OS 揉在一起,如果能找到几个杀手级的场景,做几个杀手级的功能,那么在安卓里一推广,那么就可以获得几十亿的用户,一旦有这么多用户每天都在使用,就会形成这种用户数据的反馈,会把这个产品改进的飞轮就能真正的推动起来。


不知道谷歌为什么没有这么做?现在感觉 OpenAI 已经完全引领了整个作战的节奏,那谷歌很被动地被它牵着鼻子转,其实谷歌应该不理他,应该来宣布全世界有那么多 10 亿以上的用户在用AI,在用搜索,那搜索 AI 化之后会怎么样?全世界也有超过 10 亿以上的用户在用Gmail, Gmail 这个场景下用 AI 如何赋能?Chrome 是全世界最大的浏览器,但是在中国它不如 360浏览器大。那在全世界也至少有 10 亿人在用Chrome,那作为一个浏览器怎么样用场景?还有全世界有几十亿台手机用的都是安卓,所以这四大入口我觉得谷歌不去思考怎么站住,而是一味的天天在模型上比拼。其实国内去年卷了一年,大家今天再推个新模型,大家都没有感觉了。


“模型即产品”这个思路我是反对的,模型不是产品,模型只是能力,需要跟产品结合,在产品给用户描绘的明星场景中,让用户得到了这种体验,这样才能形成一个闭环。所以我觉得谷歌的战略现在实际上是有严重的问题。


模型的能力由于力量太分散,又跟不上 OpenAI 这种做到极致追求爆品的功力,然后又没有发挥自己的产品入口的这种场景化的优势。在场景中真正的把自己的模型和场景的需求、用户的刚需和痛点紧密的结合在一起,所以产品不行,能力不行。那而且战线又特别长,力量又特别分散,所以这也是为什么我替谷歌比较担忧吧。


那现在 OpenAI虽然有了1亿用户,但这1亿用户都基本是网页版,或者手机上可能是 APP,但是用户的留存,用户的使用频度并不是很高,所以将来能够打败 OpenAI 的一定是利用自己对硬件或对软件入口的这种拥有占有率来胜过OpenAI。可惜谷歌没有用,这没有打好这张牌。就给那再给 OpenAI 一段成长的时间, OpenAI 也推出了自己的桌面端应用,比如说PC、 Windows 端、 Mac 端、 iOS 和安卓,等到这个端成长起来,谷歌就更难对付 OpenAI 了。

【声明】内容源于网络
0
0
红衣大叔周鸿祎
国家网络安全守卫者 AI技术趋势科普推广 数字科技产品体验分享 中小企业商业赚钱教练
内容 173
粉丝 0
红衣大叔周鸿祎 国家网络安全守卫者 AI技术趋势科普推广 数字科技产品体验分享 中小企业商业赚钱教练
总阅读222
粉丝0
内容173