在不断发展的科技世界中,埃隆·马斯克的努力很少会引起轰动。在他大声呼吁停止培训比 GPT-4 能力更强的法学硕士几周后,马斯克采取了他的标志性举措:做与他宣扬的恰恰相反的事情。xAI(马斯克的最新创意)和周六宣布的全新法学硕士 Grok 登场。
该合资企业成为头条新闻,不仅因为马斯克的参与,还因为该公司设法从领先的初创公司和科技巨头中招募了顶尖人工智能研究人员。凭借旨在“理解世界”的人工智能的诱人魅力,xAI 对其运作的“方式”和“内容”神秘地含糊其辞……至少直到上周。
这是马斯克挑战现状的又一经典举措,还是只是一个被过度炒作的聊天机器人,乘着其前身的巨大人气和炒作浪潮?
好处
源源不断的实时知识
能够访问 Twitter 的全部内容,使 Grok 成为潜在的游戏规则改变者。正如 xAI所强调的那样,Grok 将拥有“对世界的实时了解”,呈现人工智能研究人员所谓的人类反馈强化学习 (RLHF),处理新闻和有关时事的各种评论。
通过从不同的角度了解事件,并吸收 Twitter 社区笔记(本质上是注释),Grok 将从多方面的世界观中受益。
根据最近的研究,人们已经改变了他们的行为,首先在社交媒体上寻找新闻,然后再转向主流媒体。Grok 与 Twitter 的集成可以进一步加快这一过程,为用户提供即时评论、上下文,如果执行得当,还可以进行现场事实核查。正如 xAI 所强调的那样,实时知识功能可确保 Grok 随时了解世界的脉搏,从而能够提供及时且相关的响应。
趣味模式:埃隆的梦想成真
埃隆·马斯克 (Elon Musk) 的有趣人工智能愿景似乎已经通过 Grok 所谓的“有趣模式”变成了现实。此功能允许法学硕士制作笑话,提供幽默但事实上准确的答复,并为用户提供异想天开和随意的对话体验。
现有法学硕士(例如 ChatGPT)面临的挑战之一是,一些用户认为他们为了确保政治正确性而被过度净化,这可能会使互动变得不那么有机和自发。此外,一些本地化的法学硕士不擅长长时间的互动。Grok 以其有趣的模式有望填补这一空白,对于那些想要放松的人来说,这可能会成为一种有趣的消磨时间的方式。
这个概念并不是全新的,因为Quora 的 Poe通过其经过微调的聊天机器人提供了类似的服务,每个机器人都拥有独特的个性。然而,将其嵌入具有 Grok 功能的法学硕士中会将体验提升到一个新的水平。
本机互联网访问
Grok 的其他优势之一是无需插件或其他模块即可访问互联网的能力。
虽然其浏览功能的确切范围仍有待澄清,但这个想法很诱人。想象一下,一个法学硕士可以提高事实准确性,因为它可以实时交叉引用数据。再加上对 Twitter 内容的访问,Grok 可以彻底改变用户与人工智能的交互方式,因为它知道他们收到的信息不仅基于预先存在的训练数据,而且会不断更新和验证。
多任务处理
据报道,Grok 能够进行多任务处理,允许用户同时进行多个对话。用户可以探索各种主题,等待一个线程的响应,然后继续另一个线程。
聊天机器人还提供对话分支,让用户在不中断主要讨论的情况下更深入地挖掘特定领域,为所有对话分支提供视觉指南,使用户可以轻松地在主题之间导航。
Grok 还提供了一个内置的 Markdown 编辑器,允许用户下载、编辑 Grok 的响应并格式化其格式以供以后使用。该工具与分支相结合,确保用户可以使用特定的对话分支并无缝地重新参与。
最小化审查:自由发言的人工智能
埃隆·马斯克 (Elon Musk) 对 Grok 的愿景很明确:一种毫不回避表达其数字思维的人工智能。
虽然所有主要的人工智能聊天机器人都设有护栏以避免潜在的伤害或错误信息,但有时会让人感到受到限制。用户注意到 ChatGPT、Llama 和 Claude 等模型可能会拒绝回复,为避免潜在的冒犯而谨慎行事。然而,这可能会过滤掉良性或真正寻求的答案。
Grok 的反应被允许更自由,因此可能会提供更真实、更不受限制的对话体验。正如 xAI 所强调的那样,Grok 的设计使其能够解决其他人工智能系统可能回避的棘手问题。
很明显,这种人工智能提供了实时信息、幽默、准确性和自由的独特融合。然而,与任何创新一样,也存在需要考虑的挑战和潜在陷阱。
坏处
仓促的开发和有限的培训
从一开始,Grok 的快速发展就引起了一些人的注意。正如 xAI 所说,“Grok 仍然是一个非常早期的测试版产品——这是我们通过两个月的训练所能做到的最好的结果。” 在法学硕士的世界里,两个月的时间和 330 亿个参数听起来像是杯水车薪。
从长远来看,OpenAI 对其开发过程一直保持透明,并提到,“我们花了六个月的时间迭代调整 GPT-4。” 开发时间的差异表明,Grok 的开发可能是为了赶上人工智能的炒作浪潮。
此外,x.AI 对 Grok 训练期间使用的硬件范围仍然守口如瓶,留下了猜测的空间。
关于参数的一切
对于外行来说,法学硕士中的参数代表模型可以容纳的信息或知识量。它们表明人工智能的有效大脑容量,决定其处理和生成信息的能力。Grok 拥有 330 亿个参数,乍一看可能听起来令人印象深刻。
然而,在竞争激烈的法学硕士领域,它只是另一个参与者。事实上,它的参数数量可能无法满足复杂的企业需求和 ChatGPT、Claude 和 Bard 等巨头设定的黄金标准的高质量输出。
参数数量低的部分原因是 Grok 在 HumanEval 或 MMLU 等关键基准测试中未能击败其他主流模型:
除了参数数量之外,还存在上下文处理的问题——基本上是人工智能聊天机器人在一次输入中可以理解多少信息。Grok 在这方面并不是特别令人印象深刻。根据 xAI 的说法,Grok 可以理解8,192 个上下文标记,但 GPT-4 可以处理高达 32,000 个标记,而 Claude 甚至可以理解多达100,000 个标记。OpenAI 的新 GPT-4 Turbo 达到了128,000 个令牌上下文窗口。
创新的代价
在评估任何产品的价值时,成本是一个至关重要的因素,Grok 也不例外。愿意每月支付 16 美元以获得与其交互的特权的用户将可以使用该聊天机器人。
凭借配备 GPT-3.5 Turbo 的 Claude 2 和 ChatGPT 等免费产品,Grok 可能很难推销——特别是考虑到这些免费模型因其准确性而受到吹捧,在某些基准测试中已经超过了 Grok。
此外,即使是业界最有效的法学硕士 GPT-4,也有望比 Grok 更好,并具有可广泛使用、多模式和功能强大的额外优势。
Grok 的推出是否在很大程度上是一项战略举措,旨在增加 Twitter Blue 的订阅量,从而扩大 Twitter 的收入来源?
这些担忧凸显了 Grok 在成为法学硕士领域主要参与者方面所面临的挑战。它的缺点不仅仅在于价格。
模仿小说
毫无疑问,以流行小说中的虚构人物为基础攻读法学硕士学位是一个创造性的选择。虽然虚构人物的魅力可能很诱人,但在一个越来越依赖准确信息的世界中,它带来了固有的风险。向人工智能寻求严肃问题或建议的用户最终可能会与旨在模仿喜剧角色的系统产生分歧。
此外,随着虚构与现实之间的界限变得模糊,人们担心用户会将有趣或讽刺的反应误解为事实信息。在数字时代,每条信息都被剖析和共享,这种误解的影响可能会很广泛。尤其是当涉及到不止一种语言时。
虽然幽默和机智各有千秋,但保持平衡也很重要,尤其是当用户寻求批判性见解时。优先考虑幽默而不是准确性可能会很有趣,但它也破坏了法学硕士应该提供的本质:可靠的信息。
承诺过多和兑现不足
埃隆·马斯克 (Elon Musk) 对 Grok 的宏伟承诺为人们带来了极高的期望。深入挖掘揭示了炒作与现实之间潜在的不匹配。传统的法学硕士培训方法受到培训数据的限制,这一事实凸显了一个关键的局限性:它们无法真正涉足“超级人工智能”领域。
Grok 的训练拥有 330 亿个参数和几个月的开发时间,与其他 LLM 巨头相比显得相形见绌。虽然有趣、虚构的人物的想法听起来很诱人,但指望它使用标准训练方法取得突破性的结果可能有点夸张。
人工智能社区对夸大其词并不陌生,但随着该领域的快速发展,用户筛选炒作至关重要。实现“超级人工智能”地位是一项巨大的挑战,以 Grok 目前的配置和训练来看,不太可能获得资格。
事实上,为了证明 Grok 的强大功能,埃隆·马斯克将其对话式聊天机器人与受过编码训练的小型法学硕士进行了比较。可以说,这不是一场公平的战斗。
错误信息的威胁
法学硕士很强大,但它们也并非万无一失。在缺乏严格标准的情况下,辨别事实与虚构就成为一项艰巨的任务。最近的历史提供了警示性的故事,例如根据 4chan 数据训练的聊天机器人,甚至是 Microsoft 早期允许在 Twitter 上交互的聊天机器人 Tay。这些机器人不仅散布仇恨言论,还伪装成真人,愚弄广大在线受众。
这种与错误信息的调情并不是孤立的。自 Elon 接管以来, Twitter 的形象大受欢迎,人们可能会担心 Grok 能否持续提供准确的信息。法学硕士有时会陷入幻觉,如果这些扭曲被当作事实,连锁反应可能会令人震惊。
错误信息的潜在可能性是一颗定时炸弹。随着用户越来越依赖人工智能来获取见解,错误信息可能会导致错误的决策。要让 Grok 成为值得信赖的盟友,它必须谨慎行事,确保其顽皮的举止不会掩盖真相。
缺少多式联运功能?
在蓬勃发展的人工智能世界中,Grok 的纯文本方法感觉就像是过去的遗迹。虽然用户需要为 Grok 的服务付费,但他们可能会正确地质疑为什么,尤其是当其他法学硕士提供更丰富的多模式体验时。
例如,GPT-4-v 已经在多模态领域取得了长足的进步,拥有听、看、说的能力。谷歌即将推出的 Gemini承诺提供类似的功能套件。在此背景下,Grok 的产品显得乏善可陈,引发了更多关于其价值主张的质疑。
这是一个竞争激烈的市场,用户变得越来越挑剔。如果 Grok 希望为自己开辟一个利基市场,它需要提供一些真正与众不同的东西。就目前情况而言,随着竞争对手提供增强的功能和更高的准确性(通常是免费的),Grok 的工作任务艰巨。
结论
Grok 的推出引起了人们的兴奋,但也引起了相当多的怀疑。其准系统 MVP(最小可行产品)方法允许根据用户反馈进行快速迭代和改进。但来自拥有更多资源的人工智能巨头的竞争是一场艰苦的战斗。
Grok 要取得成功,需要新颖且有用的功能。在拥挤的市场中,仅仅具有娱乐价值是不够的。人工智能人员不会被可爱的狗模因分散注意力。
最终,Grok 的命运取决于创新与实用性的平衡。尽管健康的怀疑是合理的,但完全否定它可能还为时过早。Grok 可能会开拓新的领域,或者最终成为人工智能进化的一个脚注。不管怎样,它的非传统起源保证了 Grok 将成为正在展开的人工智能故事中有趣的一章。
原文链接:https://decrypt.co/204584/the-good-the-bad-and-the-ugly-of-grok-elon-musks-new-ai-chatbot