大数跨境
0
0

Claude3.7能让程序员直接失业?AI大模型分水岭:首个“混合推理”模型!

Claude3.7能让程序员直接失业?AI大模型分水岭:首个“混合推理”模型! 求数科技
2025-02-25
2
导读:Claude3.7可以直接让程序员失业了?更新的“混合推理”模型究竟是什么?新突破能否挑战 Deepseek或GPT?

🔮 Anthropic 的王炸时刻!Claude 3.7 Sonnet横空出世

在OpenAI、谷歌和Meta的围攻下,Anthropic扔出了一张王牌——Claude 3.7 Sonnet,全球首个混合推理(Hybrid Reasoning)模型!这是Anthropic迄今最智能的AI,也是LLM(大语言模型)技术路线的一次大突破!


图源:Anthropic官网

为什么说Claude 3.7 是AI发展史上的一个里程碑?

因为它是全球首个“混合推理”(Hybrid Reasoning)模型,彻底打破了传统LLM的瓶颈,让AI具备了“自主选择”不同推理模式的能力。

🔹 通用LLM + 深度推理合二为一 —— 即时响应 vs. 深度思考,随需切换
🔹 更强编程能力 —— 代码改动、测试、自动提交,超越GPT-4 Turbo
🔹 Claude Code —— 终端智能体,AI自动修复代码、提交GitHub PR
🔹 128K 超长上下文 —— 可处理超长任务,适合复杂企业应用
🔹 思考预算控制 —— API用户可精准控制AI思考深度,优化速度与成本


图源:Anthropic官网



01

关键升级点

“混合推理”到底意味着什么?Claude 3.7的核心创新

以往的大模型推理能力有两种模式: 

  • 即时响应模式:类似 ChatGPT,回答迅速但不够深入, 适合日常对话、搜索信息、基础代码生成

  • 深度思考模式:用于数学推理、复杂逻辑分析、代码优化等任务,回答更准确但速度较慢

传统LLM模型的局限性:

  • ChatGPT、Claude 3.5 这类模型在生成对话时,基本只能选择快速生成或思考更久,但无法兼顾两者。

  • GPT-4 Turbo 依然使用固定的推理模式,一旦任务复杂度增加,回答质量容易下降。

Claude 3.7 彻底打破了这种二元选择,让用户可以自由控制 AI 何时需要快速反应,何时需要更长时间深度思考



行业意义:这就像人类大脑的运作方式!

  • 普通问题:只需一眼即可回答,如“5+5=10”

  • 复杂决策:在复杂问题(如商业决策、代码重构、金融建模),需要反复推演, 能够自主“停下来思考”,生成更优解,如“如何优化一家企业的供应链?”,“请深入分析...”


测试混合推理功能,图源:Anthropic


Claude 3.7的编程能力,为何让开发者如此激动?

编程领域一直是大模型的“试金石”,而 Claude 3.7 在 SWE-bench Verified 基准测试中达到了 70.3% 的得分,远超 GPT-4 Turbo 和 DeepSeek R1。

Claude 3.7 在编程领域的重大突破:

🔹 代码理解更精准:比 GPT-4 Turbo 更擅长处理复杂代码库、跨文件代码修改
🔹 全栈开发能力更强:支持完整 Web 应用开发、API 端点构建、数据库管理
🔹 自动优化代码:可智能建议重构方案、减少冗余代码、提升执行效率
🔹 智能调试 & 代码测试:不仅能发现 Bug,还能自动生成修复代码 + 测试用例


图源:Digital Soloist


图源:Anthropic官网


Claude 3.7 的实测表现:

🔹 SWE-bench Verified基准测试中:Claude 3.7 以70.3%的得分超越所有竞品,包括GPT-4 Turbo、DeepSeek等!
🔹 Cursor 评测:Claude 3.7 成为最适合真实世界编程任务的AI,特别擅长大型代码库解析与优化
🔹 Vercel 测试:Claude 3.7 精准执行复杂代理任务,大幅降低代码错误率
🔹 Replit 部署测试:Claude 3.7 能够独立开发完整Web应用与仪表盘,其他模型容易中途崩溃

性能测评,图源:Anthropic官网



终端智能体Claude Code,真正的AI程序员来了!

如果说Claude 3.7本身是“编程大脑”,那么Claude Code就是它的执行助手,让AI能直接在终端操作代码。

✅ 代码修改 & 代码重构 —— Claude Code能理解大型代码库,自动优化结构
✅ 自动单元测试 —— 识别代码错误,编写并执行测试
✅ GitHub集成 —— 直接提交PR,自动合并代码
✅ 智能调试 —— 分析错误、优化代码逻辑,甚至修复兼容性问题


AI可以直接在终端写代码、改代码、跑测试,未来程序员可能要失业了?自动生成 PR + 提交 GitHub,这已经比很多 Junior Developer 还要厉害了……直接上图



Claude Code可以搜索和读取代码,编辑文件,写入和运行测试,提交和将代码推向GitHub,图源:Claude 官网(https://www.anthropic.com/news/claude-3-7-sonnet)

测试图像到文本视觉功能,图源:Amazon官网

02

成本和预算

“思考预算”功能,让 API 体验更灵活

对于API用户来说,Claude 3.7 还带来了一个革命性功能——思考预算(Budget for Thinking),API 用户可以精准控制 AI 计算资源的消耗。
在调用 Claude 3.7 API 时,你可以设置 AI 最多思考 N 个 token(最高 128K),从而精准控制:

  • 速度(减少思考 token,让回答更快)

  • 质量(增加思考 token,确保答案更精准)

  • 成本(避免AI过度思考,降低计算费用)

定价套餐,图源:Claude


成本介绍,图源:Anthropic官网


典型应用场景: 

  • 企业级客服——优先使用快速响应模式,提高交互流畅度

  • 金融分析——在关键数据推理时增加“思考预算”,确保AI能进行深入分析

  • 学术研究——调整 AI 处理论文、数据分析的推理层次,优化质量


定价分析:Claude 3.7 值得买吗?

Anthropic这次并没有涨价,Claude 3.7 依旧维持了与Claude 3.5相同的价格: 

🔹 $3 / 百万输入 tokens
🔹 $15 / 百万输出 tokens(包括推理 tokens)

但要注意:

如果使用深度推理模式,会增加额外的“思考 token”消耗,可能推高成本

与GPT-4 Turbo相比,Claude 3.7的编程能力更强,适合开发者,但普通用户的性价比要衡量


成本介绍,图源:Anthropic官网


03

结语

Claude 3.7 能否真正挑战 OpenAI?

Anthropic这次发布的Claude 3.7 Sonnet,无论在推理能力、编程应用、API灵活性上都展现出行业领先水平。
但能否真正撼动 OpenAI,还取决于实际用户体验和企业客户的长期使用反馈。

  • Claude 3.7 的混合推理能力,领先 OpenAI,但能否在 GPT-5 发布前占据市场?

  • 编程 AI 竞争加剧,Claude Code 已经让 GPT-4 Turbo 颇感压力,微软 Copilot 生态或将迎来挑

  • 企业级 AI 应用场景大增,Claude 3.7 支持超长上下文(128K tokens),大幅提升商业可用性



🔮 你怎么看?Claude 3.7 能否挑战 OpenAI或Deepseek?
欢迎在评论区留言讨论👇👇👇

📢 关注我们,第一时间获取最新AI|科技|财经资讯!

····


(添加木兮(huanxiang-1314))
关注下方月说公众号,回复“2”,更多精彩方案就在月说数智领地~
领取方式点击文末小程序“求数科技团”“加群/找方案”获取全套资料,或者添加木兮(huanxiang-1314),领取《清华大学 第五弹 DeepSeek与AI幻觉》
图片

数字化转型相关方案

图片

数字化转型相关书籍

#数智化书籍  产业数字化转型精要:方法与实践(413页)

##数智化书籍  《明智转向:一本书读懂企业数字化转型战略

#数智化书籍  《大交通时代:行业数字化转型之道》电子书

#数智化书籍  《从犀牛到独角兽:传统企业如何实现数字化转型

#数智化书籍  《数字化转型方法论


2025


早期商机平台


加入本地城市工业互联网商机微信群,请加VX号:qiushukeji

图片

部分图片来源于网络,使用图片、文字等均不作为商业用途使用,如有侵权,请联系删除。

【声明】内容源于网络
0
0
求数科技
科技、人工智能、网络安全、科学、工业软件信息资讯
内容 662
粉丝 0
求数科技 科技、人工智能、网络安全、科学、工业软件信息资讯
总阅读363
粉丝0
内容662