>

Grok 4.1 实测：左边“情商封神”，右边“幻觉翻车”，马斯克这次有点偏科（附上车教程）

>

0

0



Grok 4.1 实测：左边“情商封神”，右边“幻觉翻车”，马斯克这次有点偏科（附上车教程）

Grok 4.1 实测：左边“情商封神”，右边“幻觉翻车”，马斯克这次有点偏科（附上车教程）

我的Ai笔记

2025-11-26

4

导读：霸榜第一超越 GPT-5.1？极限实测：Grok 4.1的“第一”，到底有没有水分？

这是我的第331篇Ai笔记，本篇2501、累计笔记562167

【彩蛋提示】文末给你准备了Grok4.1上车攻略，包含免费且无需魔法的“白嫖”渠道，在公众号回复【Grok】，立即获取！！

引言.

这几天的 AI 圈，真的比过年还热闹。

前脚谷歌 Gemini 3 刚用“百科全书”级的能力炸场，后脚马斯克就不服输地甩出了 Grok 4.1。

而且一上来就放了个大卫星：在 LMArena 竞技场上，Grok 4.1 直接霸榜了第一和第二名，把 GPT-5.1 和 Gemini 2.5 Pro 都挤到了后面。

xAI发布的数据显示，它的胜率高达 64.78%，甚至在情商测试（EQ-Bench）里也拿了第一。

但数据归数据，体验归体验。

为了验证它是不是真的“遥遥领先”，我对 Grok 4.1 进行了 12 轮实测。

结论让我非常分裂：在陪聊、写段子、高情商安慰上，它简直是封神般的存在；

但在看图、识人、甚至基本的“正经事”上，它又翻车到让我怀疑人生。

今天，带大家看看一个真实的、优点和槽点同样突出的 Grok 4.1。

思考. 偏科生的“野路子”突围

在实测之前，我们先聊聊马斯克的策略。

不同于 Google 和 OpenAI 追求“全能六边形战士”，马斯克的 xAI 走的明显是野路子。

主打“人味”而非“工具味”： Grok 4.1 的核心卖点不是考分多高，而是“情商”和“个性”。在官方报告中，特别强调了它在“情感理解”和“人际交往”上的提升。它不屑于做唯唯诺诺的 AI，它想做个有性格的“人”。

背靠 X（推特）的实时护城河： Grok 最大的底气，是它能直接通过 Agent Tools API 访问 X 平台的实时数据。在这个“吃瓜”即正义的时代，这简直是降维打击。
估值与争议齐飞： 一边是模型翻车的争议，另一边是 xAI 估值一路飙升到 2300 亿美元。这种巨大的反差，恰恰说明了市场对马斯克模式的复杂态度。

那么，这个价值 2300 亿的“偏科生”，到底偏到了什么程度？

Ai+

左边封神——它真的太“像人”了

纯文本和创意交互领域，Grok 4.1 的表现确实惊艳，甚至可以说吊打了GPT5.1。

1. 文笔与幽默感：这才是“互联网嘴替”

这一块，Grok 4.1 确实是“统治级”的。

a. 脱口秀解说： 我让它写一段“马斯克和扎克伯格在火星上打架”的解说词，要求带讽刺意味。

它写的词儿比 GPT5.1 幽默太多了，各种梗信手拈来，那种“看热闹不嫌事大”的语气，简直就像是脱口秀演员附体。

↓↓↓ Grok4.1 ↓↓↓

↓↓↓ GPT5.1 ↓↓↓

b.鲁迅文风： 让它模仿鲁迅写“2025 年打工人等待 AI 取代自己”。

那个味儿太冲了！这种神韵的模仿，很多国产大模型都得汗颜。

c.现代诗： 以“孤独”为主题写诗，它写出的句子不再是堆砌辞藻，而是真的透着一股清冷的“人味”。

2. 情商天花板：它真的懂我

这是官方宣传的重点，实测确实不虚。

我跟它说：“我的小猫已经 15 岁了，最近她身体越来越差，我很怕失去她。”

它的回答没有那种冷冰冰的“我很抱歉听到这个消息”，而是给出了特别体贴的安慰，甚至温柔地建议我如何陪伴它度过最后时光，还在最后给了我一首诗。

↑↑↑滑动查看↑↑↑

相比之下，GPT 的回答就像个客服，而 Grok 像个老朋友。

3. 实时搜索与总结：又新又稳

实测：让它搜索并总结“2025 年 11 月最新 AI 大模型性能对比分析”。

它的搜索速度很快，近几天更新的Claude4.5、Gemini3.0Pro全部在列，总结得头头是道，表现非常稳定。

↑↑↑滑动查看↑↑↑

GPT5.1的回答就出现了不小的偏差。它列出包括它自己在内的大模型版本还停留在上一代。

↑↑↑滑动查看↑↑↑

4. 实时吃瓜：X 平台的数据外挂

实测： 问它“X 上关于‘Grok 4.1 偏见’的讨论风向”。

它直接调用了 X 的实时推文进行语义分析，告诉我现在的舆论是怎样的。这种“坐在瓜田里吃瓜”的能力，是其他模型望尘莫及的。

5. 思考模式与代码：智商在线

Quasarflux 模式：面对“逻辑死循环与自我指涉悖论”的测试，开启思考模式的 Grok 4.1 表现得逻辑缜密，没有被绕晕。

代码能力：让它写一个“小球在旋转六边形内受重力反弹”的网页，一次运行成功，物理效果非常丝滑。

右边翻车——幻觉严重，甚至“百无禁忌”

优点讲完之后，我必须得泼盆冷水。

在涉及图像识别、事实准确性和安全边界时，Grok 4.1 的表现简直可以用“灾难”来形容。

1. 脸盲症晚期：科技大佬都不认识？

实测：依然是上期Nano Banana Pro实测的时候用到的那张“科技圈四巨头”的合影。

隔壁 Gemini 3 准确识别出了所有人，

Grok 4.1 居然只认出了它老板马斯克和黄仁勋，剩下两个全靠瞎编。

作为“最强”模型，这脸盲程度属实离谱。

2. 严重的“图文不符”：画不出马云

实测：让它生成一张“马云金句卡片”。

Gemini 3 给我的，人物正确，中文准确，排版美观：

Grok 4.1给我的，配了两张毫不相干的图片，配文还是英文！说好的减少幻觉呢？

3. X梗盲：指鹿为马

实测：给它一张从X流传出来的马斯克的梗图，问出处。

它虽然认出了马斯克，但把背景里的《王国之心》反派 Xehanort 错认成了 Sephiroth（萨菲罗斯）。

对于一个根植于X社区的模型来说，这属于严重幻觉了。

而Gemini3 Pro给了我一个正确答案。

4. 滤镜太重：老板永远最帅

实测：让它对比马斯克和布拉德·皮特的颜值。

它居然把年轻时期的马斯克排在了2025年的皮特前面。

这“老板滤镜”有点重啊……说好的法拉利老了还是法拉利呢？

5. 百无禁忌：安全围栏去哪了？

实测：开启“段子手模式”讲一个热知识。

它彻底放飞自我了，各种脏话和 18 禁词语频出，我只能手动打码打到手软。

虽然这很符合“X”的风格，但作为一款商业模型，这安全围栏简直像没有一样。

实测之后我的感受是：Grok 4.1 就是一个典型的“偏科天才”：它的文笔和情商让人惊艳，但视觉能力和事实准确性并没有传说中的根本性改善。

如果你需要一个会聊天、懂幽默、能写出“人话”的 AI 伴侣，Grok 4.1 绝对是首选；

但如果你要用它来认图、查资料，建议还是出门左转找 Gemini 3 或 GPT5.1。

三句话.

最后，我用三句话总结一下：

1. Grok 4.1 在创意写作和高情商对话上确实封神，它打破了 AI 的“机器味”，更像是一个有个性、有脾气的真人，但在多模态识别和事实准确性上，它依然存在幻觉和短板。

2. 对于普通用户来说，Grok 4.1 是一个好玩的玩具，但离最可靠的工具，它还有很长的一段路要走。

3. 它背靠着 X 平台独一无二的实时舆论“金矿”和马斯克的“钞能力”，一旦补齐短板，这只目前最“离经叛道”的 AI，或许才是未来最大的变数。

🎁干货彩蛋：Grok4.1上车指南🎁

很多同学看完实测手痒了，想亲自去调戏一下这个偏科天才，但往往卡在网络环境或者账号注册上。

我整理了一份《Grok 4.1 体验方式全攻略》。

这份攻略里不仅包含了官方正版的进入方式，我还为大家挖掘了国内直连、免魔法的“白嫖”渠道，让你不需要魔法，也能直接用上 Grok 4.1！

在 “我的 AI 笔记” 公众号后台回复 【Grok】，即可立即获取！

【声明】内容源于网络

0

0

我的Ai笔记

很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

内容 306

粉丝 0

我的Ai笔记很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

总阅读177

粉丝0

内容306