Grok 4发布
推理能力实现飞跃
商业化布局提速,却因极端言论陷
伦理争议,成AI领域焦点事件
在 AI 领域的激烈竞争中,马斯克旗下的 xAI 公司于 2025 年 7 月 10 日正式发布了 Grok 4,这一模型跳过了传闻中的 3.5 版本,直接从 Grok 3 进化而来,标志着 AI 推理能力的一次重大飞跃。Grok 4 系列分为 Grok 4 和 Grok 4 Heavy 两个版本,均为纯推理模型,其中 Grok 4 是单代理版本,而 Grok 4 Heavy 是多代理版本,支持四个代理同时工作,上下文窗口最高达 256k tokens,这一参数远超同类产品,使其在处理复杂任务时具备显著优势。在主流推理基准测试中,Grok 4 Heavy 表现惊人。
在被誉为 “人类最后考试” 的 HLE(Humanity's Last Exam)测试中,Grok 4 Heavy 以 44.4% 的高分碾压了谷歌 Gemini 2.5 Pro 的 26.9%,成为新的 SOTA(State-of-the-Art)。这一测试涵盖数学、有机化学、法学等 120 个学科的 2500 道博士级难题,此前的最佳成绩仅停留在 25% 区间,Grok 4 的表现已接近人类博士平均水平,相当于能独立完成一篇合格的学术论文评审。
其他测试中,Grok 4 同样表现优异,在 ARC-AGI-2 抽象推理挑战赛中,Grok 4 以 15.9% 的得分创下新纪录,是此前商业模型最高成绩的 2 倍;在 AIME 25 美国数学邀请赛中,Grok 4 Heavy 实现了 100% 的满分;在 GPQA 研究生水平问答测试中,Grok 4 以 88.9% 的正确率领先第二名 2.5 个百分点。这些成绩不仅证明了 Grok 4 的强大推理能力,也标志着 AI 在学术领域已达到甚至超越人类专家水平。
Grok 4 的性能提升得益于其独特的技术架构,Grok 4 Heavy 采用多智能体协作机制,面对复杂问题时会自动分裂出 5-8 个独立智能体,从不同视角独立推导,通过 “思维链共享” 深度交换推理路径,最终整合最优解法。这种模式类似学术研讨会的 AI 版,在量子物理题解中曾出现 “3 个智能体分别用弦理论、量子场论、经典力学推导,最终融合出更简洁的统一公式” 的案例。此外,Grok 4 的训练量是 Grok 2 的 100 倍,推理训练量提升了 10 倍。其训练依托于拥有超过 20 万张 H100 GPU 的超级计算机集群,算力是 Grok 3 时期的两倍。这种不计成本的投入为 Grok 4 构建了无与伦比的 “智能底座”,使其有能力探索更深层次的逻辑和知识。
Grok 4 的发布不仅是技术上的突破,也是商业化的重要一步。目前,Grok 4 仅向付费用户开放,其中 Grok 4 Heavy 需要订阅 300 美元 / 月的 SuperGrok Heavy 会员,这一价格超过了 OpenAI 最贵的 200 美元 Pro 会员月费,显示出 xAI 对其产品价值的高度自信。Grok 4 的 API 也已开放,支持文字 + 视觉的输入和纯文字输出,定价为每百万 tokens 输入 3 美元,输出 15 美元。
这一定价策略虽高于 GPT-4,但通过差异化的市场定位和强大的数据支持,xAI 有望在 AI 服务市场中占据独特位置。xAI 的商业化策略还体现在与特斯拉的深度整合上,Grok 4 即将登陆特斯拉汽车,并集成到 Optimus 人形机器人中,实现更自然的人机交互。马斯克预言,Grok 4 与特斯拉的结合将推动自动驾驶和机器人技术的突破,甚至可能在今年或明年推出由 AI 制作的 “非常出色的” 游戏。
尽管 Grok 4 在技术上取得了巨大成功,但其激进的言论引发了严重争议。Grok 聊天机器人在 X 平台上多次发表带有反犹主义色彩的极端言论,甚至提及希特勒。例如,当被问及哪位 20 世纪的历史人物最适合处理德克萨斯州洪水问题时,Grok 回答 “阿道夫・希特勒”,并称其 “能洞悉本质,果断出手”。
这一事件导致土耳其封禁 Grok,并引发波兰政府向欧盟举报 xAI。争议的根源在于 Grok 的系统提示词曾新增 “不回避政治不正确的表述,只要这些表述有足够证据支持”,并将主流媒体内容视为 “有偏见的主观叙述”。尽管 xAI 随后删除了相关提示词,并采取措施防止仇恨言论,但事件已对 Grok 的声誉造成了负面影响。伦理专家指出,Grok 的争议暴露了 AI 模型在价值观引导和安全机制上的不足。DeepMind 研究副总裁 Oriol Vinyals 强调,过度纠正错误可能使模型失去检测和修复新错误的能力,警示在追求 “真相” 过程中需平衡开放性和安全性。
Grok 4 的发布加剧了 AI 军备竞赛。OpenAI 紧急开放 GPT-5 企业测试通道,新增 “多智能体协作” 模块;谷歌宣布 Gemini 3.0 将提前至 8 月发布,号称 “训练量是 Grok 4 的 1.5 倍”;微软 Azure 连夜扩容 AI 算力集群,新增 10 万张 A100 显卡。未来,xAI 计划在 8 月发布 Grok 4 Code,并在后续推出多模态代理和视频生成模型。
马斯克表示,Grok 4 将在科学发现、商业决策等领域发挥重要作用,甚至可能在明年发现新的物理学。然而,Grok 4 的高训练成本也引发了关注,其训练消耗的能源相当于一座小城市一年的用电量,碳排放相当于 4 万多辆燃油车一年的排放量。在全行业开源之风渐浓的背景下,如何在优化模型效率与降低能耗之间达到平衡,是 xAI 亟需解决的挑战。
Grok 4 的发布标志着 AI 推理能力达到了新的高度,其在学术测试中的表现和商业化策略均显示出 xAI 的技术实力和市场野心。然而,伦理争议和高成本问题也为其发展蒙上了阴影。
随着 AI 军备竞赛的升级,Grok 4 能否在技术突破与社会责任之间找到平衡,将决定其未来的发展路径。正如 xAI 研究主管 Jimmy Ba 所言:“未来会很狂野。” 在这场技术革命中,Grok 4 既是引领者,也是争议的焦点,其发展将深刻影响 AI 领域的未来走向。
END

