元龙科普丨数据筑基，智能修 “码”！Skywork-SWE 重塑软件工程智能体新高度- 大数跨境

首页

元龙科普丨数据筑基，智能修 “码”！Skywork-SWE 重塑软件工程智能体新高度

元龙数字智能科技

2025-06-20

数据筑基，智能修 “码”！

Skywork-SWE

重塑软件工程智能体新高度

在科技飞速发展的今天，代码已成为现代文明的隐形骨架，支撑着从日常软件到复杂 AI 算法的各类系统运行。然而，如同古代匠人手中的器物难免破损，代码系统也频繁出现 bug。这些问题或源于逻辑失误，或因环境变迁，甚至可能是协作失控的结果。前不久，AWS、谷歌云等巨头的服务中断，连带 ChatGPT 等热门 AI 应用短暂失联，经排查，事故原因可能是一次错误的自动配额更新导致谷歌 API 管理系统故障。这一事件深刻地提醒我们，在代码世界中，bug 修复已成为软件工程中最基础却又最复杂、最消耗人力的任务之一。

传统上，修复 GitHub 项目中的 bug 绝非易事。开发者需要读取和理解成百上千个文件，推演变量在不同模块的流动路径，研读前人的修复记录与讨论，准确理解上下文、猜测代码意图并编写补丁，最后还要反复进行测试，以确保问题真正解决。面对如此复杂的任务，人们不禁思考：能否借助 AI 智能体的力量，让代码修复变得高效而精准？

答案是肯定的，但这需要的不是传统的 AI 编程模型，而是能像人类开发者一样理解历史上下文、进行多轮推理、在模糊情境中决策并落地执行的软件工程智能体。然而，长期以来，这类任务面临着高质量训练数据匮乏的困境。市面上现有的 SWE 数据集，要么验证机制不足，要么训练样本杂乱无章，难以支持模型在真实工程环境中进化。同时，数据集规模普遍较小，导致数据 Scaling Law（数据缩放定律）的适用性不明确，严重制约了软件工程智能体的发展。

为突破这一困境，昆仑万维推出了自主代码智能体基座模型 Skywork-SWE。它不仅是一个性能卓越的 32B 参数量级的最强开源软件工程智能体，更是一个集数据、验证、推理与修复为一体的完整系统。该模型的诞生，源于昆仑万维在软件工程任务上对数据 Scaling Law 的高质量实践。

为获取高质量数据，昆仑万维构建了一套自动化、结构化且可复现的 SWE 数据收集与验证流程，涵盖三大阶段、九个步骤。团队从 15 万个 GitHub 开源项目中精心筛选，最终得到 10,169 个真实代码问题和 8,209 条多轮交互轨迹，打造出业内最大规模、可验证的 SWE 数据集。这个数据集的每个样本都达到 “工程级” 标准：每条任务都能在 Docker 中复现，每个补丁都要通过单元测试验证，每条智能体轨迹都覆盖完整修复闭环。

在任务数量与代码覆盖广度上，Skywork-SWE 数据集远超现有同类数据集。相较于其他基准数据集，其中的任务编辑复杂度显著更高，平均每个补丁涉及 2 个以上函数修改、6 个代码块和多达 74 行代码变更，真实反映了 GitHub 开发中问题修复的复杂性。数据集不仅包含 Pydantic、SQLGlot 等主流开源项目，还涉及大量中小型仓库，高度贴近真实开发生态，为模型提供了丰富多样的训练样本。

基于 Skywork-SWE 数据集，昆仑万维训练出了 Skywork-SWE-32B 模型（采用 Qwen2.5-Coder-32B-Instruct 作为基座模型）。在 SWE-bench Verified 基准测试中，该模型在 OpenHands Agent 框架下取得了 47% 的准确度，超越了 32B 以下的开源模型，甚至优于参数量高达 671B 的 DeepSeek-V3-0324 模型。实验还揭示了 LLM SWE 能力在数据方面的 Scaling Law，即随着训练数据规模的扩展，SWE 模型性能持续提升，且在当前数据集规模下，性能提升尚未饱和，展现出进一步扩展数据的巨大潜力。

在推理阶段，通过测试时扩展（TTS）技术，Skywork-SWE-32B 的能力得到进一步释放，在 Best of 8 的测试下正确率可达 47%，相较于主流闭源模型，如 GPT-4.1-mini、Claude 3.5 HaiKu 等，表现更为出色。以天文学通用核心软件包 Astropy 的 #14309 PR 为例，Skywork-SWE-32B 能精准定位问题源文件与缺陷，并生成有效的 patch 修复方案，且该方案成功通过全部测试样例，实现了从问题理解到解决的一站式代码修复。

Skywork-SWE 的意义不仅在于其强大的模型性能，更在于它开创了一套系统化构建真实工程数据的范式。它收集的不是孤立的代码片段，而是来自 GitHub 仓库的实际修复任务，每个任务都具备可复现性、可验证性和可追踪性。这份数据集不仅成就了 Skywork-SWE-32B，更首次系统性验证了数据 Scaling Law 在复杂工程任务上的适用性，堪称软件工程智能体领域的 “ImageNet”。

展望未来，昆仑万维计划将 Skywork-SWE 数据集向更多编程语言扩展，并利用其在运行时环境中执行并验证单元测试的特性，助力 LLM 社区探索在线强化学习方法。这一系列举措背后，是昆仑万维对行业趋势的深刻洞察：大模型的发展必须回归真实任务，开源技术的竞争力在于 “数据 + 系统 + 执行力” 的全面提升。

从多模态推理模型 Skywork-R1V 到音乐模型 Mureka O1，从短剧创作大模型 Skyreels-V1 到可交互视频生成世界模型 Matrix-Game 和 Matrix-Zero，再到天工超级智能体，昆仑万维围绕 Skywork 系列已构建起全链条布局，且大多模型选择开源。Skywork-SWE 的推出，是这一体系的进一步落地，也是昆仑万维在智能体任务场景长期探索的延续。在这个过程中，昆仑万维不仅专注于模型开发，更重视数据构建与验证，为智能体训练树立了新的标准。