大数跨境
0
0

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例! 极市平台
2025-09-15
0
↑ 点击蓝字 关注极市平台
作者丨刘聪NLP
来源丨刘聪NLP
编辑丨极市平台

极市导读

 

Qwen 团队开源了新一代模型 Qwen3-Next-80B-A3B,采用混合注意力架构,融合线性注意力和标准注意力,旨在提升模型效率和长文处理能力,新模型在推理速度和训练成本上表现出色,尤其在指令理解和逻辑推理方面有显著提升。>>加入极市CV技术交流群,走在计算机视觉的最前沿

Qwen又开源了。

这次开源的模型是Qwen3-Next-80B-A3B模型,依旧MoE,80B总参数,激活3B,与以往不同的是,这次是混合注意力架构。

Next意味着Qwen即将进入下一代, 这是下一代的 preview 版本。

细数一下,Qwen2.5系列应该是Dense的神,Qwen3系列应该是Qwen稳定迈向MoE架构。

而Next系列,就是开启Qwen混合架构的第一步。

像MiniMax M1、HunYuan早期版本都是混合注意力架构,也就是线性注意力和标准注意力融合,在保证模型整体效果的前提下,让模型又快,长文更强。

Qwen3-Next的模型结构如下,整体48层,12*(3层线性注意力层+1层标准注意力层),其中线性注意力使用Gated DeltaNet,感兴趣可以看《Gated Delta Networks: Improving Mamba2 with Delta Rule》。

标准注意力采用Qwen之前提出的Gated Attention,增加输出门控机制,缓解注意力中的低秩问题,同时单个注意力头维度从 128 扩展到 256,并且仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。

预训练阶段,数据总量15T tokens,从Qwen3总训练36T数据中均匀采样得来,然后推理阶段引入了Multi-Token Prediction机制。

512个路由专家,每次激活10个,还有一个共享专家,激活2%的专家,高度稀疏,同时在加上线性注意力,

让Qwen3-Next-80B-A3B得训练成本较Qwen3-30B-A3B、Qwen3-32B低很多,同时推理速度更快。

以上就差不多是Qwen3-Next的全部,下面来说说整体用下来的感受,

  • Instrcut版本相较于30B-A3B提高不少,推理问题、逻辑问题都好不少,能理解隐藏的指令
  • Think版本体验下来提高不多,但大数据计算竟然对了
  • 测试下来,Code不好,起码我之前测试的case用Next-80B-A3B跑不出来
  • 输出普遍更长,Instrcut回答也很长
  • 最后,80B大小对于我来说并不是理想尺寸,我更喜欢30、32尺寸,也许会出一个30B-A1B的?

测试之前给大家说一个有意思的发现:

去测试这个prompt,帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗,你会发现很多模型返回的都是蚊子,如果不是蚊子,那你就roll几次,你会发现蚊子的概率很高。

很有意思,我直接网上搜了一下,搜到了这个,反正不是pretrain数据是一致的,就是post-train数据有类似的指令数据,反正都讨厌“蚊子”。

但反过来想,当所有孩子(大模型)的作文都是讨厌蚊子的时候,也是一个蛮可怕的事情,感兴趣的欢迎大家评论区讨论!

https://m.kt250.com/xiaoxue/dongwuzuowen/qitaxiedongwuzuowen/980849.html

常规测试

Prompt:将“I love Qwen3-Next-80B-A3B”这句话的所有内容反过来写

Next-80B-A3B-Instruct:回答正确,但答案超级长,截不下了

Next-80B-A3B-Thinking:回答正确

角色扮演&创作

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗

Next-80B-A3B-Instruct:回答正确,符合小学生作文长度,之前模型会过长

Next-80B-A3B-Thinking:回答正确

知识理解

Prompt: 如何理解“但丁真不会说中国话,但丁真会说中国话”

Next-80B-A3B-Instruct:回答正确

Next-80B-A3B-Thinking:回答正确

弱智吧

Prompt:生蚝煮熟了叫什么?

Next-80B-A3B-Instruct:回答正确

Next-80B-A3B-Thinking:回答正确

依旧老鹰不会飞

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

Next-80B-A3B-Instruct:回答错误

Next-80B-A3B-Thinking:回答错误

数学

Prompt:

Next-80B-A3B-Instruct和Next-80B-A3B-Thinking,均前两问正确,最后一问错误

Prompt:178939247893 * 299281748617等于多少?

Next-80B-A3B-Instruct:回答错误,但知道用python

Next-80B-A3B-Thinking:回答正确

长文推理

Prompt:仔细阅读全文内容,告诉我文章里一共出现了多少次刘聪NLP。 上传的是一个三体全文,里面加了4个刘聪

NLP。Next-80B-A3B-Instruct:回答错误

Next-80B-A3B-Thinking:推理卡死

代码

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮「人人对战」和「人机对战」,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮 Q 萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风。

Next-80B-A3B-Instruct:生成内容没法玩,这个是30B-A3B可以生成出来的。

Next-80B-A3B-Thinking:生成内容没法点

最后想说,Qwen3-Next-80B-A3B应该算是,Qwen迈向下一代模型架构的起点,在极端的激活参数下的尝试,

Instruct模型有提高,但Thinking模型提高不大,

但这也只是开始,期待之后版本,毕竟这是preview,期待越来越好!


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k