大数跨境
0
0

302.AI 基准实验室丨编程能力超越 Claude Opus 4?DeepSeek V3.1 最新版本实测

302.AI 基准实验室丨编程能力超越 Claude Opus 4?DeepSeek V3.1 最新版本实测 302.AI
2025-08-20
54
导读:DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。

DeepSeek-V3.1悄然上线Hugging Face,实测多维度性能表现

上下文扩展至128k,模型尺寸达685B,302.AI已接入并开展实测

DeepSeek近日在Hugging Face平台低调发布了其最新升级模型DeepSeek-V3.1-Base。此次更新未进行任何宣传,亦未发布模型卡,唯一明确的技术升级是上下文窗口从64k扩展至128k,且模型已支持网页、App及小程序端调用。模型文件显示其参数规模达685B,并支持BF16、F8_E4M3、F32等多种张量类型,兼顾计算精度与效率。

Hugging Face联合创始人Clement Delangue发文调侃,DeepSeek V3.1上线几小时内便冲上模型趋势榜第四位,目前排名已升至第二。

由于官方尚未公布详细说明,302.AI已第一时间接入DeepSeek-V3.1,支持聊天机器人与API调用,并开展多维度实测,评估其实际性能表现。

I. 实测模型基本信息

参与对比测评的模型

输入价格

输出价格

上下文长度

deepseek-V3.1 

$0.286/ 1M

$1.15/ 1M

64000

gpt-5

$1.5 / 1M

$10 / 1M

400000

qwen3-235b-a22b-thinking

$0.33/ 1M

$3.135

128000

claude-opus-4-1

$16.5 / 1M

$82.5 / 1M

200000

评测工具:302.AI 模型竞技场与聊天机器人。

Ⅱ. 实测案例

实测 1:逻辑推理-排序问题

有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?

正确答案:6528。

deepseek-V3.1:回答错误。

gpt-5:回答正确。

qwen3-235b-a22b-thinking:回答正确。

claude-opus-4-1:回答正确。

实测 2:网页制作

测试任务:为虚构品牌“AURA SWIM”创建一个完全在<canvas>内渲染的交互式电商首页,面向Z世代用户,体现“多巴胺夏日”美学。

deepseek-V3.1:整体表现最佳,页面完整度高,UI/UX设计高级,并自主添加品牌与商品描述。

gpt-5:完整实现,布局合理,UI美观,具备商品轮播、搜索框与购物车交互功能。

qwen3-235b-a22b-thinking:基本实现,但UI/UX较为混乱。

claude-opus-4-1:基本实现,包含品牌信息,但组件布局有待优化。

实测 3:高考数学

正确答案:B。

deepseek-V3.1:回答正确。

gpt-5:回答正确。

qwen3-235b-a22b-thinking:回答正确。

claude-opus-4-1:回答错误。

实测 4:小游戏制作

任务要求:使用HTML、CSS和JavaScript,在单一<canvas>元素内创建一个可玩的赛博朋克风格弹珠机游戏。

“CYBER-FLIP”:赛博朋克风弹珠游戏设计与主流大模型实现对比

游戏概念与视觉风格:游戏名为“CYBER-FLIP”,是一款快节奏、得分导向的街机类弹珠游戏,玩家需在垂直的未来都市场景中尽可能获取高分。整体视觉采用典型的赛博朋克美学,呈现“高科技,低生活”的反乌托邦氛围,背景设定为酸雨中的深夜都市,远处可见摩天大楼与飞行器。

色彩与视觉设计:采用高对比度的霓虹色调,主色包括电光蓝(#00FFFF)、品红(#FF00FF)、剧毒绿(#39FF14)和亮黄色(#FFFF00),搭配深邃背景(如#1A1A2E)以增强视觉冲击力。弹珠台元素被全面赛博朋克化:弹珠为发光能量球并带有粒子尾迹;挡板为霓虹边缘的镀铬金属臂;保险杠设计为脉冲式数据节点,撞击时发出环状光波;坡道为半透明数据流管道或磁悬浮轨道;目标则为闪烁故障的公司Logo或“接入面板”。

特效处理:所有霓虹元素均具备辉光/泛光效果,弹珠撞击时产生粒子爆发,高分或完成任务时伴有轻微屏幕震动,增强沉浸感。

玩法机制:玩家通过方向键控制左右挡板,空格或下方向键发射弹珠,核心目标是撞击目标并完成“数据入侵”任务以积累高分,延续经典弹珠游戏的成瘾性循环。

deepseek-V3.1:未能实现游戏功能。

gpt-5:界面初步实现,但存在UX缺陷,无法触发完整游戏。

qwen3-235b-a22b-thinking:界面初步实现,UX存在bug,游戏流程未完整触发。

claude-opus-4-1:完整实现游戏功能,交互流畅,碰撞特效炫酷,完全符合设计要求。

DeepSeek V3.1 实测表现分析

逻辑推理

网页制作

高考数学

小游戏制作

deepseek-V3.1

★★★★★

✔️

gpt-5

✔️

★★★★★

✔️

★★

qwen3-235b-a22b-thinking

✔️

★★★

✔️

★★★

claude-opus-4-1

✔️

★★★★

★★★★★

综合结论:DeepSeek V3.1 在网页制作方面表现卓越,代码生成能力接近顶尖水平,尤其在前端复杂任务中展现出强大实用性。但在逻辑推理与小游戏编程任务中表现不佳,反映出其推理深度和稳定性仍有提升空间。该模型具备128k上下文窗口,在长文档处理和批量生成方面具显著成本优势,适合编程辅助等实际应用场景。尽管存在短板,其整体进步仍提升了市场对后续版本R2的期待。





【声明】内容源于网络
0
0
302.AI
分享更新更全面的AI资讯。
内容 172
粉丝 1
302.AI 分享更新更全面的AI资讯。
总阅读76.1k
粉丝1
内容172