今天就跟大家聊聊,GPT-4.1到底有啥亮点,值得我们关注。
参考提示词:本周末家中聚餐,请帮我设计一份兼顾多样饮食需求、美味健康、操作简便的晚餐菜单,具体要求如下:
人员与需求:
爷爷:牙口不好,需软烂、低糖、中式炖蒸菜;不吃羊肉
表妹:健身高蛋白、低脂低碳、主菜 < 450 大卡 / 份,喜欢鸡胸肉 / 鱼虾 / 绿叶蔬菜;不吃红肉,乳制品少量可
朋友:严格素食,不含任何动物制品(含蛋奶蜂蜜);喜欢豆制品、菌菇、蔬菜,能吃微辣,需高植物蛋白
我:不吃香菜、内脏,对花生和杏仁严重过敏,喜欢新风味
菜单要求:
5 个热菜,需含:至少 1 款严格素食主菜,1 款高蛋白低脂低碳主菜(<450 大卡 / 份),1 款适合爷爷和我的主菜
主食至少 1 款,须兼顾低糖和低碳水(可多选)
甜点 1 款,须严格素食低糖
每道菜名后标注其主要特点 / 适合人群(如:素食 Vegan、高蛋白低卡、软烂低糖、无坚果)
菜品风味丰富,避免单一,创意但易做,不用复杂厨具和特殊食材
参考提示词:帮我写一篇文章,使用通俗易懂的语言,内容:详细描述分析未来十年,哪些东西最容易贬值?
参考提示词:用Tailwind CSS生成响应式宠物医院官网首页,包含:

这次最大的亮点就是支持100万token的上下文处理!这意味着,GPT-4.1比之前的GPT-4o提升了整整8倍的上下文能力。用简单的话来说,就是它能处理更长、更复杂的文本,不管是金融分析、小说写作、教育领域等,都能轻松搞定。这简直就是“超级大脑”啊!
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可处理 100 万个上下文 token,而之前的 GPT-4o 模型最多可处理 12.8 万个。100 万个 token 相当于 8 个完整的 React 代码库,因此长上下文非常适合处理大型代码库或大量长文档。
如果你曾经遇到过AI无法理解复杂对话的尴尬,那你一定会喜欢GPT-4.1。在多轮对话的测试中,GPT-4.1比GPT-4o更能理解上下文,尤其是在处理长文本时,它能精准地给出正确答案,推理能力超强。
对于程序员来说,GPT-4.1的编码能力提升了一个大档次。在SWEBench测试中,它的准确率高达55%,比GPT-4o的33%高了整整20%。这意味着,无论是写代码、修复bug还是开发工具,GPT-4.1都能提供更高效的解决方案。
GPT-4.1在处理复杂指令时也展现了极高的执行能力。无论是需要特定格式的指令,还是行为规范,它都能准确地完成任务,比GPT-4o更高效、更精确。
如果你对视觉分析感兴趣,GPT-4.1也能给你带来不小的惊喜。GPT-4.1 系列模型在图像理解方面同样非常强大,尤其是 GPT-4.1 mini 实现了重大的飞跃,在图像基准测试中经常击败 GPT-4o。
MMMU:主要考察模型对各种可视化(例如图表、示意图、地图)提问的理解与回答能力。GPT‑4.1 mini 在这一测试中表现优异,能够更准确地读取图中信息并生成对应文字解释。以下为 MMMU、MathVista、CharXiv-Reasoning等基准上的表现对比。
MathVista:聚焦视觉数学题,要求模型从题图(几何图形、代数图表等)中提取关键信息并给出数学推理过程与答案。GPT‑4.1 mini 不仅准确率更高,还能提供更清晰的解题思路。
CharXiv‑Reasoning:针对科学论文中的图表问答,考察模型如何在学术语境下理解实验曲线、统计图或流程图等。GPT‑4.1 mini 在这一领域同样超越了 GPT‑4o,尤其是在复杂图例和多重注释的解读上更胜一筹。
长上下文性能对于多模态用例(例如处理长视频)也至关重要。在 Video-MME(长视频无字幕)中,模型基于 30-60 分钟长的无字幕视频回答多项选择题。GPT-4.1 达到了最佳性能,得分为 72.0%,高于 GPT-4o 的 65.3%。
这款以超强编码能力著称的模型,实际使用表现如何呢?
有网友Flavio Adamo进行了一项有趣的测试:他用同一个任务——让小球在旋转的六边形里模拟自由落体,分别测试了GPT-4.1的三款模型和GPT-4.5的编码表现。
结果很明显,GPT-4.1完美模拟了小球的物理运动过程,表现十分精准。相比之下,GPT-4.1 Mini和GPT-4.1 Nano的表现就差了不少,而GPT-4.5的表现则几乎与GPT-4.1不相上下。
另一个类似的测试是让GPT-4.1模拟旋转正方形里的小球弹跳,GPT-4.1成功地还原了球体在正方形内真实弹跳的效果。
Kaggle的开发者Parul Pandey表示,使用GPT-4.1来创建教育物理模拟过程非常有趣。比如在模拟小球击倒金字塔的过程中,GPT-4.1只读取了少量必要的文件,生成的代码结构也非常简洁高效。
另一位工程师通过Windsurf让GPT-4.1在30秒内就生成了一个经典的贪吃蛇游戏。
沃顿商学院教授Ethan Mollick也用GPT-4.1生成了飞船控制面板的p5js代码。他表示,相比GPT-4,GPT-4.1的进步非常大,整体表现十分出色。
此外,Ethan还提到,GPT-4.1是第四款能够在twigl中运行着色器的模型。
在法律行业方面,汤森路透的AI助手CoCounsel利用GPT-4.1对复杂的法律文件进行多文档审查,准确性比GPT-4o提高了17%。这对律师来说,可以更快、更准确地处理法律文件,大大提高了工作效率。
Carlyle,全球知名的私募股权公司,也使用GPT-4.1从各种格式的金融文档中提取关键信息。测试结果显示,GPT-4.1在数据检索方面比其他模型高出了50%,显著提升了金融分析的准确性和速度。
Windsurf公司通过基准测试发现,GPT-4.1在编码任务中的得分比GPT-4o高出60%,而且在工具调用上效率提高了30%,还减少了50%的重复编辑。这样,开发者的工作变得更加高效,节省了大量不必要的时间和精力。
总体而言,GPT-4.1堪称一款性价比极高的AI模型。它不仅具备百万级token的上下文处理能力,还在编程辅助、指令执行和视觉内容理解等方面实现了显著突破。