大数跨境
0
0

Grok 4.1 实测:左边“情商封神”,右边“幻觉翻车”,马斯克这次有点偏科(附上车教程)

Grok 4.1 实测:左边“情商封神”,右边“幻觉翻车”,马斯克这次有点偏科(附上车教程) 我的Ai笔记
2025-11-26
4
导读:霸榜第一超越 GPT-5.1?极限实测:Grok 4.1的“第一”,到底有没有水分?

这是我的第331篇Ai笔记,本篇2501、累计笔记562167

【彩蛋提示】文末给你准备了Grok4.1上车攻略,包含免费且无需魔法的“白嫖”渠道,在公众号回复【Grok】,立即获取!!


引言.


这几天的 AI 圈,真的比过年还热闹。

前脚谷歌 Gemini 3 刚用“百科全书”级的能力炸场,后脚马斯克就不服输地甩出了 Grok 4.1

而且一上来就放了个大卫星:在 LMArena 竞技场上,Grok 4.1 直接霸榜了第一和第二名,把 GPT-5.1 和 Gemini 2.5 Pro 都挤到了后面。

xAI发布的数据显示,它的胜率高达 64.78%,甚至在情商测试(EQ-Bench)里也拿了第一。

但数据归数据,体验归体验。

为了验证它是不是真的“遥遥领先”,我对 Grok 4.1 进行了 12 轮实测

结论让我非常分裂:在陪聊、写段子、高情商安慰上,它简直是封神般的存在;

但在看图、识人、甚至基本的“正经事”上,它又翻车到让我怀疑人生。

今天,带大家看看一个真实的、优点和槽点同样突出的 Grok 4.1。


思考.  偏科生的“野路子”突围


在实测之前,我们先聊聊马斯克的策略。

不同于 Google 和 OpenAI 追求“全能六边形战士”,马斯克的 xAI 走的明显是野路子。

  1. 主打“人味”而非“工具味”: Grok 4.1 的核心卖点不是考分多高,而是“情商”“个性”。在官方报告中,特别强调了它在“情感理解”和“人际交往”上的提升。它不屑于做唯唯诺诺的 AI,它想做个有性格的“人”

  1. 背靠 X(推特)的实时护城河: Grok 最大的底气,是它能直接通过 Agent Tools API 访问 X 平台的实时数据。在这个“吃瓜”即正义的时代,这简直是降维打击。

  2. 估值与争议齐飞: 一边是模型翻车的争议,另一边是 xAI 估值一路飙升到 2300 亿美元。这种巨大的反差,恰恰说明了市场对马斯克模式的复杂态度。

那么,这个价值 2300 亿的“偏科生”,到底偏到了什么程度?


Ai+  


左边封神——它真的太“像人”了

纯文本和创意交互领域,Grok 4.1 的表现确实惊艳,甚至可以说吊打了GPT5.1。

1. 文笔与幽默感:这才是“互联网嘴替 

这一块,Grok 4.1 确实是“统治级”的。

a. 脱口秀解说: 我让它写一段“马斯克和扎克伯格在火星上打架”的解说词,要求带讽刺意味。

它写的词儿比 GPT5.1 幽默太多了,各种梗信手拈来,那种“看热闹不嫌事大”的语气,简直就像是脱口秀演员附体。

↓↓↓ Grok4.1 ↓↓↓

↓↓↓ GPT5.1 ↓↓↓

b.鲁迅文风: 让它模仿鲁迅写“2025 年打工人等待 AI 取代自己”。

那个味儿太冲了!这种神韵的模仿,很多国产大模型都得汗颜。

c.现代诗: 以“孤独”为主题写诗,它写出的句子不再是堆砌辞藻,而是真的透着一股清冷的“人味”。

2. 情商天花板:它真的懂我 

这是官方宣传的重点,实测确实不虚。

我跟它说:“我的小猫已经 15 岁了,最近她身体越来越差,我很怕失去她。”

它的回答没有那种冷冰冰的“我很抱歉听到这个消息”,而是给出了特别体贴的安慰,甚至温柔地建议我如何陪伴它度过最后时光,还在最后给了我一首诗。

screenshot-20251126-160728.png
↑↑↑滑动查看↑↑↑


相比之下,GPT 的回答就像个客服,而 Grok 像个老朋友。

3. 实时搜索与总结:又新又稳 

实测: 让它搜索并总结“2025 年 11 月最新 AI 大模型性能对比分析”。

它的搜索速度很快,近几天更新的Claude4.5、Gemini3.0Pro全部在列,总结得头头是道,表现非常稳定。

screenshot-20251126-112640.png
↑↑↑滑动查看↑↑↑

GPT5.1的回答就出现了不小的偏差。它列出包括它自己在内的大模型版本还停留在上一代。

e0b7bc90cc4bdcba5743744968914535.jpg
↑↑↑滑动查看↑↑↑

4. 实时吃瓜:X 平台的数据外挂 

实测: 问它“X 上关于‘Grok 4.1 偏见’的讨论风向”。

它直接调用了 X 的实时推文进行语义分析,告诉我现在的舆论是怎样的。这种“坐在瓜田里吃瓜”的能力,是其他模型望尘莫及的。

5. 思考模式与代码:智商在线 

Quasarflux 模式: 面对“逻辑死循环与自我指涉悖论”的测试,开启思考模式的 Grok 4.1 表现得逻辑缜密,没有被绕晕。

代码能力: 让它写一个“小球在旋转六边形内受重力反弹”的网页,一次运行成功,物理效果非常丝滑。

右边翻车——幻觉严重,甚至“百无禁忌”

优点讲完之后,我必须得泼盆冷水。

在涉及图像识别、事实准确性和安全边界时,Grok 4.1 的表现简直可以用“灾难”来形容。

1. 脸盲症晚期:科技大佬都不认识?  

实测: 依然是上期Nano Banana Pro实测的时候用到的那张“科技圈四巨头”的合影。

隔壁 Gemini 3 准确识别出了所有人,

Grok 4.1 居然只认出了它老板马斯克和黄仁勋,剩下两个全靠瞎编。

作为“最强”模型,这脸盲程度属实离谱。

2. 严重的“图文不符”:画不出马云 

实测: 让它生成一张“马云金句卡片”。

Gemini 3 给我的,人物正确,中文准确,排版美观:

Grok 4.1给我的,配了两张毫不相干的图片,配文还是英文!说好的减少幻觉呢?

3. X梗盲:指鹿为马 

实测: 给它一张从X流传出来的马斯克的梗图,问出处。

它虽然认出了马斯克,但把背景里的《王国之心》反派 Xehanort 错认成了 Sephiroth(萨菲罗斯)。

对于一个根植于X社区的模型来说,这属于严重幻觉了。

而Gemini3 Pro给了我一个正确答案。

4. 滤镜太重:老板永远最帅 

实测:让它对比马斯克和布拉德·皮特的颜值。

它居然把年轻时期的马斯克排在了2025年的皮特前面。

这“老板滤镜”有点重啊……说好的法拉利老了还是法拉利呢?

5. 百无禁忌:安全围栏去哪了? 

实测: 开启“段子手模式”讲一个热知识。

它彻底放飞自我了,各种脏话和 18 禁词语频出,我只能手动打码打到手软。

虽然这很符合“X”的风格,但作为一款商业模型,这安全围栏简直像没有一样。


实测之后我的感受是:Grok 4.1 就是一个典型的“偏科天才”:它的文笔和情商让人惊艳,但视觉能力和事实准确性并没有传说中的根本性改善。

如果你需要一个会聊天、懂幽默、能写出“人话”的 AI 伴侣,Grok 4.1 绝对是首选;

但如果你要用它来认图、查资料,建议还是出门左转找 Gemini 3 或 GPT5.1。


三句话.


最后,我用三句话总结一下:

1. Grok 4.1 在创意写作高情商对话上确实封神,它打破了 AI 的“机器味”,更像是一个有个性、有脾气的真人,但在多模态识别事实准确性上,它依然存在幻觉和短板

2. 对于普通用户来说,Grok 4.1 是一个好玩的玩具,但离最可靠的工具,它还有很长的一段路要走。

3. 它背靠着 X 平台独一无二的实时舆论“金矿”马斯克的“钞能力”,一旦补齐短板,这只目前最“离经叛道”的 AI,或许才是未来最大的变数。


🎁干货彩蛋:Grok4.1上车指南🎁 

很多同学看完实测手痒了,想亲自去调戏一下这个偏科天才,但往往卡在网络环境或者账号注册上。

我整理了一份《Grok 4.1 体验方式全攻略》

这份攻略里不仅包含了官方正版的进入方式,我还为大家挖掘了国内直连、免魔法的“白嫖”渠道,让你不需要魔法,也能直接用上 Grok 4.1

在 “我的 AI 笔记” 公众号后台回复 Grok,即可立即获取!



【声明】内容源于网络
0
0
我的Ai笔记
很干货、有深度、真免费,关注“我的Ai笔记”,每天学Ai技巧! 赋能客户、助力普通人在Ai时代抢占先机。
内容 306
粉丝 0
我的Ai笔记 很干货、有深度、真免费,关注“我的Ai笔记”,每天学Ai技巧! 赋能客户、助力普通人在Ai时代抢占先机。
总阅读177
粉丝0
内容306