数据筑基,智能修 “码”!
Skywork-SWE
重塑软件工程智能体新高度
在科技飞速发展的今天,代码已成为现代文明的隐形骨架,支撑着从日常软件到复杂 AI 算法的各类系统运行。然而,如同古代匠人手中的器物难免破损,代码系统也频繁出现 bug。这些问题或源于逻辑失误,或因环境变迁,甚至可能是协作失控的结果。前不久,AWS、谷歌云等巨头的服务中断,连带 ChatGPT 等热门 AI 应用短暂失联,经排查,事故原因可能是一次错误的自动配额更新导致谷歌 API 管理系统故障。这一事件深刻地提醒我们,在代码世界中,bug 修复已成为软件工程中最基础却又最复杂、最消耗人力的任务之一。
传统上,修复 GitHub 项目中的 bug 绝非易事。开发者需要读取和理解成百上千个文件,推演变量在不同模块的流动路径,研读前人的修复记录与讨论,准确理解上下文、猜测代码意图并编写补丁,最后还要反复进行测试,以确保问题真正解决。面对如此复杂的任务,人们不禁思考:能否借助 AI 智能体的力量,让代码修复变得高效而精准?
答案是肯定的,但这需要的不是传统的 AI 编程模型,而是能像人类开发者一样理解历史上下文、进行多轮推理、在模糊情境中决策并落地执行的软件工程智能体。然而,长期以来,这类任务面临着高质量训练数据匮乏的困境。市面上现有的 SWE 数据集,要么验证机制不足,要么训练样本杂乱无章,难以支持模型在真实工程环境中进化。同时,数据集规模普遍较小,导致数据 Scaling Law(数据缩放定律)的适用性不明确,严重制约了软件工程智能体的发展。
为突破这一困境,昆仑万维推出了自主代码智能体基座模型 Skywork-SWE。它不仅是一个性能卓越的 32B 参数量级的最强开源软件工程智能体,更是一个集数据、验证、推理与修复为一体的完整系统。该模型的诞生,源于昆仑万维在软件工程任务上对数据 Scaling Law 的高质量实践。
为获取高质量数据,昆仑万维构建了一套自动化、结构化且可复现的 SWE 数据收集与验证流程,涵盖三大阶段、九个步骤。团队从 15 万个 GitHub 开源项目中精心筛选,最终得到 10,169 个真实代码问题和 8,209 条多轮交互轨迹,打造出业内最大规模、可验证的 SWE 数据集。这个数据集的每个样本都达到 “工程级” 标准:每条任务都能在 Docker 中复现,每个补丁都要通过单元测试验证,每条智能体轨迹都覆盖完整修复闭环。
在任务数量与代码覆盖广度上,Skywork-SWE 数据集远超现有同类数据集。相较于其他基准数据集,其中的任务编辑复杂度显著更高,平均每个补丁涉及 2 个以上函数修改、6 个代码块和多达 74 行代码变更,真实反映了 GitHub 开发中问题修复的复杂性。数据集不仅包含 Pydantic、SQLGlot 等主流开源项目,还涉及大量中小型仓库,高度贴近真实开发生态,为模型提供了丰富多样的训练样本。
基于 Skywork-SWE 数据集,昆仑万维训练出了 Skywork-SWE-32B 模型(采用 Qwen2.5-Coder-32B-Instruct 作为基座模型)。在 SWE-bench Verified 基准测试中,该模型在 OpenHands Agent 框架下取得了 47% 的准确度,超越了 32B 以下的开源模型,甚至优于参数量高达 671B 的 DeepSeek-V3-0324 模型。实验还揭示了 LLM SWE 能力在数据方面的 Scaling Law,即随着训练数据规模的扩展,SWE 模型性能持续提升,且在当前数据集规模下,性能提升尚未饱和,展现出进一步扩展数据的巨大潜力。
在推理阶段,通过测试时扩展(TTS)技术,Skywork-SWE-32B 的能力得到进一步释放,在 Best of 8 的测试下正确率可达 47%,相较于主流闭源模型,如 GPT-4.1-mini、Claude 3.5 HaiKu 等,表现更为出色。以天文学通用核心软件包 Astropy 的 #14309 PR 为例,Skywork-SWE-32B 能精准定位问题源文件与缺陷,并生成有效的 patch 修复方案,且该方案成功通过全部测试样例,实现了从问题理解到解决的一站式代码修复。
Skywork-SWE 的意义不仅在于其强大的模型性能,更在于它开创了一套系统化构建真实工程数据的范式。它收集的不是孤立的代码片段,而是来自 GitHub 仓库的实际修复任务,每个任务都具备可复现性、可验证性和可追踪性。这份数据集不仅成就了 Skywork-SWE-32B,更首次系统性验证了数据 Scaling Law 在复杂工程任务上的适用性,堪称软件工程智能体领域的 “ImageNet”。
展望未来,昆仑万维计划将 Skywork-SWE 数据集向更多编程语言扩展,并利用其在运行时环境中执行并验证单元测试的特性,助力 LLM 社区探索在线强化学习方法。这一系列举措背后,是昆仑万维对行业趋势的深刻洞察:大模型的发展必须回归真实任务,开源技术的竞争力在于 “数据 + 系统 + 执行力” 的全面提升。
从多模态推理模型 Skywork-R1V 到音乐模型 Mureka O1,从短剧创作大模型 Skyreels-V1 到可交互视频生成世界模型 Matrix-Game 和 Matrix-Zero,再到天工超级智能体,昆仑万维围绕 Skywork 系列已构建起全链条布局,且大多模型选择开源。Skywork-SWE 的推出,是这一体系的进一步落地,也是昆仑万维在智能体任务场景长期探索的延续。在这个过程中,昆仑万维不仅专注于模型开发,更重视数据构建与验证,为智能体训练树立了新的标准。
在智能体时代,Skywork-SWE 以扎实的数据实践,为 “工程智能体” 时代交出了一份优秀答卷,也为行业发展提供了极具价值的参考。随着技术的不断演进,我们有理由相信,以高质量任务型数据为基础的智能体训练范式,将成为代码、软件工程乃至通用多模态智能体领域的 “标准工艺”,引领行业迈向新的高度。
-END-

