大模型代码生成面临工程实践挑战
当前大模型代码生成能力存在明显断层:虽能完成函数级编写或代码库修补,却难以应对从零搭建可部署系统的工程挑战。微软亚洲研究院(MSRA)最新研究成果直指核心痛点——在仅提供README式需求文档的条件下,AI能否生成符合黑盒测试标准且可部署的完整代码仓库?这项工作已被ACL 2026高分录用,推出首个面向多语言、仓库级端到端Web微服务生成的基准RepoGenesis。

RepoGenesis突破现有评测边界,聚焦多语言(Python/Java)仓库级微服务生成能力。其核心差异在于实现Repo-Level(仓库级)、NL2Repo(自然语言到仓库)的端到端工程验证。

数据集包含106个仓库(60个Python,46个Java),覆盖18个领域、11套框架,含1258个API及2335项测试。其中30个经严格验证的仓库构成评测子集(含6个真实GitHub项目),76个用于训练。测试采用学术会议级质控流程,确保评分可靠性。

注:Benchmark构造与难度分布统计
建立工程化评估体系
RepoGenesis创新采用三维度评测标准:
1. 功能通过率(Pass@1):黑盒测试功能完整性(核心硬指标)。
2. 接口覆盖率(AC):需求接口实现程度。
3. 部署成功率(DSR):生成物实际部署能力。

注:开源Agent与商业IDE能力评测
实验显示:接口覆盖率可达73.91%,部分配置部署成功率100%,但顶尖系统功能通过率仅23.67%(Python)和21.45%(Java)。这揭示核心瓶颈:跨文件一致性(50.2%失败主因)、架构连贯性(26.0%)及依赖管理(23.8%)仍是重大挑战,其中Java依赖问题更为突出(44.7%)。
训练价值与能力边界
基于该基准训练的GenesisAgent-8B模型,其DSR/AC/Pass@1指标已接近GPT-5 mini,证明数据具有持续训练价值。需注意的是,当前仅覆盖结构化README文档和REST式微服务,对需求模糊、动态变更等真实场景尚未建模,且工程规范与长期可维护性未纳入量化评估。
结语
RepoGenesis的核心价值在于将"从文档到仓库"的工程实践转化为可复现、可量化评估的研发基准。这推动代码生成研究从概念验证迈向工程落地,为下一代Agent提供明确优化方向。
论文标题:RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository
论文链接:https://arxiv.org/abs/2601.13943
代码与榜单:https://github.com/pzy2000/RepoGenesis/
公开评测榜:http://23.83.232.182:4090/

