01
引言
阿里巴巴Qwen团队刚刚发布了迄今为止最先进的代码模型——Qwen3-Coder,提供多种参数规模版本。其中4800亿参数的旗舰版本在代码生成、浏览器操作和工具交互等任务中,为开源模型树立了新标杆,其性能之强甚至可与Claude 4 Sonnet相媲美。
对于正在Cursor或Claude Code等工具中使用Claude 4 Sonnet的开发者来说,这个开源新星的问世无疑是个好消息。近期Claude模型频发的速率限制和性能下滑已引发开发者社区诸多不满,越来越多人开始寻求替代方案。而Qwen3-Coder不仅以亮眼的基准测试成绩登场,更保持着完全开放的访问权限。
现在最大的悬念在于:在实际沉浸式编程工作流中,Qwen3-Coder是否真能撼动Claude的统治地位?
02
Qwen3-Coder是阿里云Qwen团队开发的大语言模型系列Qwen3的代码专用版本。
这款完全开源的模型专为长上下文智能编程设计,通过YaRN技术实现高达100万token的上下文窗口,实际运行时激活参数为350亿。
它完整继承了Qwen3基础模型的优势,不仅在代码生成方面表现出色,在数学计算、逻辑推理和通用语言任务上同样表现优异。该模型支持358种编程语言,包括:Python、JavaScript、TypeScript、C++、Java、Go、Rust、PHP、SQL、HTML、CSS和Shell等。
Qwen核心工程师表示,虽然团队不会宣称其已达到Claude Sonnet 4的水平,但这已经是当前非常强大的智能编程助手。
开发团队在Qwen2.5-Coder基础上投入大量时间构建的Qwen3-Coder,虽然规模更大(基于混合专家架构),但智能水平和性能都实现了质的飞跃!
技术细节可查阅Qwen3论文。
论文链接:https://arxiv.org/abs/2505.09388
基准测试显示,Qwen3-Coder-480B-A35B-Instruct模型是目前最强大的开源智能编程模型。下面让我们深入解析其性能表现。
03
Qwen3–480B-A35B-Instruct 具备以下特性:
模型类型:因果语言模型
训练阶段:预训练与后训练
参数量:总计4800亿,激活350亿
层数:62层
注意力头数(分组查询注意力):查询头96个,键值头8个
专家数量:160个
激活专家数:8个
原生上下文长度:262,144 tokens
仅支持标准模式,不会生成<think></think>思考输出块,无需手动关闭思考功能,默认适配对话式交互场景。
预训练阶段
Qwen3-Coder 基于 7.5 万亿 token 进行训练,其中 70% 的数据来自代码。训练在保留强大数学和通用能力的同时,重点强化了实际编程应用。模型原生支持长上下文,默认支持 256K,并通过 YaRN 技术扩展至 1M。
团队还利用 Qwen2.5-Coder 清洗并重写了噪声样本,生成更高质量的训练数据。这一步骤显著提升了数据整体质量,并减少了幻觉现象。
后训练阶段
后训练阶段聚焦于强化学习(RL)。团队针对广泛的现实任务引入了 Code RL,并优化了基于执行验证(execution-based verification)的训练方式,大幅提升了模型生成可运行代码的能力。
此外,团队还采用了长周期强化学习(long-horizon RL),这对 SWE-Bench 等多步骤规划任务尤为关键。
整个训练过程依托阿里云基础设施,在20,000个并行运行的计算环境中完成。这种规模化训练反馈机制使模型性能超越了大多数开源模型的表现。
04
根据Qwen发布的基准测试结果,Qwen3-Coder 480B-A35B-Instruct目前是性能最强的开源智能体模型。
它在编码任务、基于浏览器的推理和工具使用方面的排名高于所有其他开源模型。其在Terminal-Bench上的得分为37.5,Mind2Web为55.8,TAU-Bench Retail为77.5。
然而,它仍然不及Claude Sonnet-4。Claude在处理复杂任务时具有更多的控制权限和更高的准确性,在SWE-bench、BFCL及其他一些工具使用基准上得分更高。
总的来说,Qwen3-Coder在开源模型中占据优势,在许多领域与Claude的表现相近,但尚未超越顶级的闭源模型。
05
与Qwen3-Coder模型同步,该公司还开源了一款名为Qwen Code的智能体编程命令行工具。
Qwen Code: https://github.com/QwenLM/qwen-code
该工具基于Gemini Code分支开发,通过定制化的提示词(prompts)和函数调用协议进行了深度适配,能够充分发挥Qwen3-Coder在智能体编程任务中的全部潜力。
Qwen3-Coder项目源代码已在GitHub公开:
可通过以下命令克隆至本地:
git clone https://github.com/QwenLM/qwen-code.gitcd qwen-code && npm install && npm install -g
请注意克隆过程将下载多个Safetensor格式的模型文件,每个文件约9-10GB。请确保本地磁盘有足够存储空间。
Qwen Code 兼容 OpenAI SDK 进行大模型调用,您只需导出以下环境变量,或直接将其配置在 .env 文件中即可完成设置。
export OPENAI_API_KEY="your_api_key_here"export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"export OPENAI_MODEL="qwen3-coder-plus"
配置完成后,输入简单指令即可开启 Qwen-Code 的沉浸式编程体验:
您也可以在 Claude Code 或 Cline 上使用它。有关如何设置的详细说明,请参阅 Qwen 的这篇博客文章。
链接:https://qwenlm.github.io/blog/qwen3-coder/
如果您不想在本地系统上使用 Qwen3-Code,更简单的方法是通过 HuggingFace 或 Qwen Chat App 访问它。有关更多详细信息,请参阅本文的后续部分。
Qwen Chat : https://chat.qwen.ai/
06
要测试新模型的对话能力,请访问这个HuggingFace空间页面,右侧的聊天界面可自由提问。
网址:https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct
页面如下:
操作示例:
若需在Playground界面中使用聊天功能,需先获取HuggingFace访问Token(免费)。请确保该令牌包含Inference API权限,您可在登录后通过账户页面菜单创建。若权限不足,模型将无法响应交互请求。
获取令牌后返回模型页面,点击"Open Playground"按钮,在弹出窗口中粘贴令牌即可进入Playground界面。
特别说明:Playground界面提供更丰富的参数调控选项,包括temperature(随机性)、top-p(核采样)和生成长度等设置。
07
Qwen3-Coder擅长从零开始生成前端应用程序。要开始使用,您可以访问这个HuggingFace空间,在提示字段中描述您想要创建的应用。
网址:https://huggingface.co/spaces/Qwen/Qwen3-Coder-WebDev
以下是一些示例:
示例:帮我生成一个包含详细信息的5个宝可梦的SVG图像。
编码智能体将开始在仪表盘右侧流式传输HTML/React代码。完成后,最终输出大致如下:
看起来挺不错的。每个宝可梦都以SVG形式呈现,具有详细的特征和悬停时的动画效果。整个生成过程大约只用了30秒。
另外一种免费使用Qwen3-Coder模型的方法是通过官方的Qwen聊天应用。访问chat.qwen.ai并登录您的账号,将模型设置为Qwen3-Coder,在提示字段下方选择您需要的工具。您可以用它创建网页应用、进行深入研究、生成图片等等。
我们来看个例子:
08
我们也可以直接使用API接口来调用,示例如下:
import osfrom openai import OpenAIclient = OpenAI(api_key=os.getenv("DASHSCOPE_API_KEY"), # If you have not configured environment variables, replace this with your API key.base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",)completion = client.chat.completions.create(model="qwen3-coder-plus",messages=[{'role': 'system', 'content': 'You are a helpful assistant.'},{'role': 'user', 'content': 'Please write a Python function find_prime_numbers that takes an integer n as a parameter and returns a list containing all prime numbers less than n. Prime numbers are positive integers that can only be divided by 1 and themselves, such as 2, 3, 5, 7, etc. Do not output non-code content.'}],)print(completion.choices[0].message.content)
模型返回结果如下:
```pythondef find_prime_numbers(n):if n <= 2:return []primes = []for num in range(2, n):is_prime = Truefor i in range(2, int(num ** 0.5) + 1):if num % i == 0:is_prime = Falsebreakif is_prime:primes.append(num)return primes```
09
Qwen3-coder-plus 是 Qwen3-Coder 的官方商业模型,可通过 API 访问。它采用分级定价,根据每次请求的输入 token 数量收费。
上下文窗口(Context window):1,048,576 个 token
最大输入(Maximum input):1,000,000 个 token
最大输出(Maximum output):65,536 个 token
免费额度(Free quota):100 万个 token(激活后有效期 180 天)
查看下方每百万 token 的输入和输出价格:
-
0 到32K token:输入:每百万token 1美元,输出:每百万 token5 美元 -
32K到128K token:输入:每百万token 1.8美元,输出:每百万token 9 美元 -
128K到256K token:输入:每百万token 3美元,输出:每百万token 15 美元 -
256K 到1M token:输入:每百万token 6美元,输出:每百万token 60 美元
10
必须给Qwen团队点个大大的赞,他们开源了Qwen3-Coder的完整权重!这对所有开发者和开源社区来说都是重大利好。虽然基准测试和演示效果看起来很惊艳,但我更期待这些优势能真正转化到实际开发流程中。
强烈推荐大家亲自上手体验,尤其是通过前文提到的免费平台。无需安装任何软件,也不需要预先付费,直接拿真实工作流中的代码案例测试,看看它的响应是否符合预期。欢迎在评论区分享你的使用体验。
点击上方小卡片关注我
添加个人微信,进专属粉丝群!

