MSRA首测AI从零建仓库：能写、能跑，但不一定对丨ACL'26- 大数跨境

量子位

2026-04-16

导读：AI写代码的「最后一公里」有多远？

大模型代码生成面临工程实践挑战

当前大模型代码生成能力存在明显断层：虽能完成函数级编写或代码库修补，却难以应对从零搭建可部署系统的工程挑战。微软亚洲研究院（MSRA）最新研究成果直指核心痛点——在仅提供README式需求文档的条件下，AI能否生成符合黑盒测试标准且可部署的完整代码仓库？这项工作已被ACL 2026高分录用，推出首个面向多语言、仓库级端到端Web微服务生成的基准RepoGenesis。

RepoGenesis突破现有评测边界，聚焦多语言（Python/Java）仓库级微服务生成能力。其核心差异在于实现Repo-Level（仓库级）、NL2Repo（自然语言到仓库）的端到端工程验证。

数据集包含106个仓库（60个Python，46个Java），覆盖18个领域、11套框架，含1258个API及2335项测试。其中30个经严格验证的仓库构成评测子集（含6个真实GitHub项目），76个用于训练。测试采用学术会议级质控流程，确保评分可靠性。

注：Benchmark构造与难度分布统计

建立工程化评估体系

RepoGenesis创新采用三维度评测标准：

1. 功能通过率（Pass@1）：黑盒测试功能完整性（核心硬指标）。

2. 接口覆盖率（AC）：需求接口实现程度。

3. 部署成功率（DSR）：生成物实际部署能力。

注：开源Agent与商业IDE能力评测

实验显示：接口覆盖率可达73.91%，部分配置部署成功率100%，但顶尖系统功能通过率仅23.67%（Python）和21.45%（Java）。这揭示核心瓶颈：跨文件一致性（50.2%失败主因）、架构连贯性（26.0%）及依赖管理（23.8%）仍是重大挑战，其中Java依赖问题更为突出（44.7%）。

训练价值与能力边界

基于该基准训练的GenesisAgent-8B模型，其DSR/AC/Pass@1指标已接近GPT-5 mini，证明数据具有持续训练价值。需注意的是，当前仅覆盖结构化README文档和REST式微服务，对需求模糊、动态变更等真实场景尚未建模，且工程规范与长期可维护性未纳入量化评估。

结语

RepoGenesis的核心价值在于将"从文档到仓库"的工程实践转化为可复现、可量化评估的研发基准。这推动代码生成研究从概念验证迈向工程落地，为下一代Agent提供明确优化方向。

论文标题：RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository
论文链接：https://arxiv.org/abs/2601.13943
代码与榜单：https://github.com/pzy2000/RepoGenesis/
公开评测榜：http://23.83.232.182:4090/

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 15033

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读181.8k

粉丝0

内容15.0k