九坤旗下至知研究院发布开源代码大模型IQuest-Coder-V1
2026年开年,九坤投资创始团队发起设立的至知研究院(IQuest Research)正式发布首代开源代码大模型系列IQuest-Coder-V1。
该系列涵盖7B、14B、40B三种参数规模,并提供标准版与Loop变体两个技术路径,已全面开源至GitHub与Hugging Face平台。
其中旗舰模型IQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基准测试中取得81.4%解决率,超过Claude Sonnet 4.5(77.2%)与GPT-5.1(76.3%);其余指标包括:BigCodeBench 49.9%、BFCL V3 73.8%、Mind2Web 62.5%、Terminal-Bench v1.0 51.3%;Thinking版本在LiveCodeBench v6达81.1%,CRUXEval Input-COT/Output-COT分别为98.5%和99.4%。
聚焦代码演化轨迹的Code-Flow训练范式
区别于传统基于静态代码快照的训练方式,IQuest-Coder创新采用Code-Flow范式,系统性利用代码仓库commit演化数据构建(R_old, P, R_new)三元组样本:R_old为稳定开发阶段的初始代码状态,P为变更Patch,R_new为迭代后的新状态。
训练数据筛选聚焦项目生命周期40%–80%的“成熟期”,规避早期探索性代码与后期碎片化维护修改,以提升变更模式对真实软件开发逻辑的代表性。
该设计使模型更贴近程序员实际思维——关注“代码如何从一种状态演变为另一种状态”,天然契合需生成patch修复issue的SWE-bench类任务;技术报告指出,仓库演化数据在任务规划能力上提供的训练信号优于静态快照。
分阶段训练架构与Loop Transformer创新设计
预训练阶段采用通用数据+代码语料打底,再以高质量代码语料进行退火;中间训练分两期:先在32K上下文注入推理数据、Agent轨迹与代码混合数据,再扩展至128K并加入仓库级长序列样本。
Agent轨迹数据包含完整“行动–观察–修正”闭环,涵盖命令执行、日志输出、错误反馈与测试结果等环境信号;技术报告认为,此类数据可赋予模型“闭环智能”,并在分布偏移下稳定后训练性能。
后训练分为Thinking与Instruct双路径:Thinking路径通过含显式推理轨迹的数据监督微调,再以强化学习(RL)优化推理能力;Instruct路径则侧重通用及代码指令数据监督微调,再用RL增强指令遵循能力。Thinking版本展现出显著的自主错误恢复(error-recovery)能力,该能力在标准Instruct路径中几乎未见,印证RL对解锁“自主调试”能力的关键作用。
Loop变体提升计算深度与部署效率平衡
LoopCoder采用循环Transformer架构,令参数共享的Transformer块执行两次固定迭代:首次处理输入嵌入;第二次同时计算全局注意力(queries指向第一次所有key-value)与局部因果自注意力。
两种注意力输出通过基于query表示的学习门控机制加权融合,在有限参数规模下提升有效计算深度,兼顾模型能力与部署效率。
技术价值与后续验证空间
IQuest-Coder-V1的核心技术贡献在于对commit演化数据的大规模、系统性工程化应用,此前在开源大模型训练中尚属少见。技术报告承诺开源完整训练流程与中间检查点,为研究代码模型如何习得软件工程能力提供重要参考。
需指出的是,SWE-bench Verified仅覆盖500个Python样本,存在榜单针对性优化争议;其在真实开发场景中的生产力转化效果,仍有待社区广泛实测验证。
图丨IQuest-Coder-V1的架构(来源:GitHub)
图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)
图丨训练流程(来源:GitHub)
图丨基准测试结果(来源:IQuest-Coder-V1)

