Gork 3 发布不到一周, DeepSeek 仍然在“开源周”的时间, Anthropic 平台空降推出首个双思维大模型——Claude 3.7 Sonnet,将模型行业的“狂卷时代”推到一个新高度。
2.1 双思维模型
-
复杂数学问题准确率大幅提高 -
逻辑推理和分析任务能力显著增强 -
推理过程更加详尽透明,提升用户信任度 -
为开发者提供模型优化的重要依据 -
增强模型安全性,便于监控和干预潜在风险
2.2 API 定价
3.1 模型功能能力提升
3.2 垂直领域明显
4.1 置信的评测榜单
4.2 高难度评测集
之前也做过高难度评测集能力的测试,欢迎大家查看
AGI-Eval评测社区,公众号:AI科技评论PK OpenAI o1,国产模型在高难度数学和算法竞赛的能力几何?
详细内容可查看往期内容
AGI-Eval社区,公众号:AGI-Eval大模型评测【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用
4.3 创新的评测方式

