302.AI 基准实验室丨编程能力超越 Claude Opus 4？DeepSeek V3.1 最新版本实测



302.AI 基准实验室丨编程能力超越 Claude Opus 4？DeepSeek V3.1 最新版本实测

302.AI

2025-08-20

导读：DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。

DeepSeek-V3.1悄然上线Hugging Face，实测多维度性能表现

上下文扩展至128k，模型尺寸达685B，302.AI已接入并开展实测

DeepSeek近日在Hugging Face平台低调发布了其最新升级模型DeepSeek-V3.1-Base。此次更新未进行任何宣传，亦未发布模型卡，唯一明确的技术升级是上下文窗口从64k扩展至128k，且模型已支持网页、App及小程序端调用。模型文件显示其参数规模达685B，并支持BF16、F8_E4M3、F32等多种张量类型，兼顾计算精度与效率。

Hugging Face联合创始人Clement Delangue发文调侃，DeepSeek V3.1上线几小时内便冲上模型趋势榜第四位，目前排名已升至第二。

由于官方尚未公布详细说明，302.AI已第一时间接入DeepSeek-V3.1，支持聊天机器人与API调用，并开展多维度实测，评估其实际性能表现。

I. 实测模型基本信息

参与对比测评的模型	输入价格	输出价格	上下文长度
deepseek-V3.1	$0.286/ 1M	$1.15/ 1M	64000
gpt-5	$1.5 / 1M	$10 / 1M	400000
qwen3-235b-a22b-thinking	$0.33/ 1M	$3.135	128000
claude-opus-4-1	$16.5 / 1M	$82.5 / 1M	200000

评测工具：302.AI 模型竞技场与聊天机器人。

Ⅱ. 实测案例

实测 1：逻辑推理-排序问题

有 8 个人，分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上，每排有 4 个座位，共 8 个座位。相邻的定义是：若两个人坐在同一排并且座位编号相邻，则这两个人相邻。现要求 A 与 B 必须相邻，且 C 与 D 不相邻，问在上述条件下共有多少种不同的排法？

正确答案：6528。

deepseek-V3.1：回答错误。

gpt-5：回答正确。

qwen3-235b-a22b-thinking：回答正确。

claude-opus-4-1：回答正确。

实测 2：网页制作

测试任务：为虚构品牌“AURA SWIM”创建一个完全在<canvas>内渲染的交互式电商首页，面向Z世代用户，体现“多巴胺夏日”美学。

deepseek-V3.1：整体表现最佳，页面完整度高，UI/UX设计高级，并自主添加品牌与商品描述。

gpt-5：完整实现，布局合理，UI美观，具备商品轮播、搜索框与购物车交互功能。

qwen3-235b-a22b-thinking：基本实现，但UI/UX较为混乱。

claude-opus-4-1：基本实现，包含品牌信息，但组件布局有待优化。

实测 3：高考数学

正确答案：B。

deepseek-V3.1：回答正确。

gpt-5：回答正确。

qwen3-235b-a22b-thinking：回答正确。

claude-opus-4-1：回答错误。

实测 4：小游戏制作

任务要求：使用HTML、CSS和JavaScript，在单一<canvas>元素内创建一个可玩的赛博朋克风格弹珠机游戏。

“CYBER-FLIP”：赛博朋克风弹珠游戏设计与主流大模型实现对比

游戏概念与视觉风格：游戏名为“CYBER-FLIP”，是一款快节奏、得分导向的街机类弹珠游戏，玩家需在垂直的未来都市场景中尽可能获取高分。整体视觉采用典型的赛博朋克美学，呈现“高科技，低生活”的反乌托邦氛围，背景设定为酸雨中的深夜都市，远处可见摩天大楼与飞行器。

色彩与视觉设计：采用高对比度的霓虹色调，主色包括电光蓝（#00FFFF）、品红（#FF00FF）、剧毒绿（#39FF14）和亮黄色（#FFFF00），搭配深邃背景（如#1A1A2E）以增强视觉冲击力。弹珠台元素被全面赛博朋克化：弹珠为发光能量球并带有粒子尾迹；挡板为霓虹边缘的镀铬金属臂；保险杠设计为脉冲式数据节点，撞击时发出环状光波；坡道为半透明数据流管道或磁悬浮轨道；目标则为闪烁故障的公司Logo或“接入面板”。

特效处理：所有霓虹元素均具备辉光/泛光效果，弹珠撞击时产生粒子爆发，高分或完成任务时伴有轻微屏幕震动，增强沉浸感。

玩法机制：玩家通过方向键控制左右挡板，空格或下方向键发射弹珠，核心目标是撞击目标并完成“数据入侵”任务以积累高分，延续经典弹珠游戏的成瘾性循环。

deepseek-V3.1：未能实现游戏功能。

gpt-5：界面初步实现，但存在UX缺陷，无法触发完整游戏。

qwen3-235b-a22b-thinking：界面初步实现，UX存在bug，游戏流程未完整触发。

claude-opus-4-1：完整实现游戏功能，交互流畅，碰撞特效炫酷，完全符合设计要求。

DeepSeek V3.1 实测表现分析

	逻辑推理	网页制作	高考数学	小游戏制作
deepseek-V3.1	❌	★★★★★	✔️	★
gpt-5	✔️	★★★★★	✔️	★★
qwen3-235b-a22b-thinking	✔️	★★★	✔️	★★★
claude-opus-4-1	✔️	★★★★	❌	★★★★★

综合结论：DeepSeek V3.1 在网页制作方面表现卓越，代码生成能力接近顶尖水平，尤其在前端复杂任务中展现出强大实用性。但在逻辑推理与小游戏编程任务中表现不佳，反映出其推理深度和稳定性仍有提升空间。该模型具备128k上下文窗口，在长文档处理和批量生成方面具显著成本优势，适合编程辅助等实际应用场景。尽管存在短板，其整体进步仍提升了市场对后续版本R2的期待。

【声明】内容源于网络

302.AI

分享更新更全面的AI资讯。

内容 172

粉丝 1

302.AI 分享更新更全面的AI资讯。

总阅读76.1k

粉丝1

内容172