DeepSeek-V3.1悄然上线Hugging Face,实测多维度性能表现
上下文扩展至128k,模型尺寸达685B,302.AI已接入并开展实测
DeepSeek近日在Hugging Face平台低调发布了其最新升级模型DeepSeek-V3.1-Base。此次更新未进行任何宣传,亦未发布模型卡,唯一明确的技术升级是上下文窗口从64k扩展至128k,且模型已支持网页、App及小程序端调用。模型文件显示其参数规模达685B,并支持BF16、F8_E4M3、F32等多种张量类型,兼顾计算精度与效率。
Hugging Face联合创始人Clement Delangue发文调侃,DeepSeek V3.1上线几小时内便冲上模型趋势榜第四位,目前排名已升至第二。
由于官方尚未公布详细说明,302.AI已第一时间接入DeepSeek-V3.1,支持聊天机器人与API调用,并开展多维度实测,评估其实际性能表现。
I. 实测模型基本信息
参与对比测评的模型 |
输入价格 |
输出价格 |
上下文长度 |
deepseek-V3.1 |
$0.286/ 1M |
$1.15/ 1M |
64000 |
gpt-5 |
$1.5 / 1M |
$10 / 1M |
400000 |
qwen3-235b-a22b-thinking |
$0.33/ 1M |
$3.135 |
128000 |
claude-opus-4-1 |
$16.5 / 1M |
$82.5 / 1M |
200000 |
评测工具:302.AI 模型竞技场与聊天机器人。
Ⅱ. 实测案例
实测 1:逻辑推理-排序问题
有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?
正确答案:6528。
deepseek-V3.1:回答错误。
gpt-5:回答正确。
qwen3-235b-a22b-thinking:回答正确。
claude-opus-4-1:回答正确。
实测 2:网页制作
测试任务:为虚构品牌“AURA SWIM”创建一个完全在<canvas>内渲染的交互式电商首页,面向Z世代用户,体现“多巴胺夏日”美学。
deepseek-V3.1:整体表现最佳,页面完整度高,UI/UX设计高级,并自主添加品牌与商品描述。
gpt-5:完整实现,布局合理,UI美观,具备商品轮播、搜索框与购物车交互功能。
qwen3-235b-a22b-thinking:基本实现,但UI/UX较为混乱。
claude-opus-4-1:基本实现,包含品牌信息,但组件布局有待优化。
实测 3:高考数学
正确答案:B。
deepseek-V3.1:回答正确。
gpt-5:回答正确。
qwen3-235b-a22b-thinking:回答正确。
claude-opus-4-1:回答错误。
实测 4:小游戏制作
任务要求:使用HTML、CSS和JavaScript,在单一<canvas>元素内创建一个可玩的赛博朋克风格弹珠机游戏。
“CYBER-FLIP”:赛博朋克风弹珠游戏设计与主流大模型实现对比
游戏概念与视觉风格:游戏名为“CYBER-FLIP”,是一款快节奏、得分导向的街机类弹珠游戏,玩家需在垂直的未来都市场景中尽可能获取高分。整体视觉采用典型的赛博朋克美学,呈现“高科技,低生活”的反乌托邦氛围,背景设定为酸雨中的深夜都市,远处可见摩天大楼与飞行器。
色彩与视觉设计:采用高对比度的霓虹色调,主色包括电光蓝(#00FFFF)、品红(#FF00FF)、剧毒绿(#39FF14)和亮黄色(#FFFF00),搭配深邃背景(如#1A1A2E)以增强视觉冲击力。弹珠台元素被全面赛博朋克化:弹珠为发光能量球并带有粒子尾迹;挡板为霓虹边缘的镀铬金属臂;保险杠设计为脉冲式数据节点,撞击时发出环状光波;坡道为半透明数据流管道或磁悬浮轨道;目标则为闪烁故障的公司Logo或“接入面板”。
特效处理:所有霓虹元素均具备辉光/泛光效果,弹珠撞击时产生粒子爆发,高分或完成任务时伴有轻微屏幕震动,增强沉浸感。
玩法机制:玩家通过方向键控制左右挡板,空格或下方向键发射弹珠,核心目标是撞击目标并完成“数据入侵”任务以积累高分,延续经典弹珠游戏的成瘾性循环。
deepseek-V3.1:未能实现游戏功能。
gpt-5:界面初步实现,但存在UX缺陷,无法触发完整游戏。
qwen3-235b-a22b-thinking:界面初步实现,UX存在bug,游戏流程未完整触发。
claude-opus-4-1:完整实现游戏功能,交互流畅,碰撞特效炫酷,完全符合设计要求。
DeepSeek V3.1 实测表现分析
逻辑推理 |
网页制作 |
高考数学 |
小游戏制作 |
|
deepseek-V3.1 |
❌ |
★★★★★ |
✔️ |
★ |
gpt-5 |
✔️ |
★★★★★ |
✔️ |
★★ |
qwen3-235b-a22b-thinking |
✔️ |
★★★ |
✔️ |
★★★ |
claude-opus-4-1 |
✔️ |
★★★★ |
❌ |
★★★★★ |
综合结论:DeepSeek V3.1 在网页制作方面表现卓越,代码生成能力接近顶尖水平,尤其在前端复杂任务中展现出强大实用性。但在逻辑推理与小游戏编程任务中表现不佳,反映出其推理深度和稳定性仍有提升空间。该模型具备128k上下文窗口,在长文档处理和批量生成方面具显著成本优势,适合编程辅助等实际应用场景。尽管存在短板,其整体进步仍提升了市场对后续版本R2的期待。

