一个自我进化的开源代码模型突然火了，单张显卡实测效果真不错- 大数跨境

首页

一个自我进化的开源代码模型突然火了，单张显卡实测效果真不错

至顶AI实验室

2026-07-03

导读：最近两周，一个开源代码模型 Ornith-1.0 在AI圈里莫名其妙地火了，至少六七个YouTube博主做了测试。陌生模型能爆火，我相信一定是有原因的。

作者 | Don

来源 | 至顶AI实验室

最近两周，一个开源代码模型 Ornith-1.0 在本地AI圈里莫名其妙地火了，至少六七个YouTube博主已经做了实测。陌生模型能爆火，我相信一定是有原因的。

看了下，YouTube博主Bijan Bowen做的测试算是比较扎实的：浏览器OS测试、地铁场景模拟等测试逐项通过。

我觉得有两点最值得分享：一是模型的训练思路有创新，二是作者用两张不同定位的显卡分别跑了9B和35B，正好能看出"能不能在本地跑起来"和"跑起来效果怎么样"是两回事。

Ornith-1.0 是什么来头

Ornith-1.0 是AI研究团队 DeepReinforce 在2026年6月25日发布的开源代码模型家族，面向"agentic coding"，也就是能自主规划、执行、修复代码的编程智能体场景。家族一共四个尺寸：9B稠密、31B稠密、35B混合专家（MoE）、397B MoE旗舰。9B、35B、397B基于阿里的Qwen 3.5后训练，31B则基于Google的Gemma 4。视频拍摄时31B还没在Hugging Face上公开，397B又太大，视频作者手头没有合适的机器跑，实际测试的只有9B稠密版和35B的MoE版本。

自我进化的模型训练思路

这个模型家族最特别的地方，是训练时用的"自我进化脚手架"思路。以往的编程智能体，通常由研究者手工设计一套固定"脚手架"：工具调用、错误处理、任务拆解的整套流程，模型只负责往里面填答案。Ornith-1.0反过来，把脚手架也变成模型在强化学习中自己迭代的对象：先读任务和上一轮脚手架，提出改进版脚手架，再用它生成解决方案，两步反馈都会回流训练。用到的算法是GRPO（分组相对策略优化），最早由DeepSeek在2024年DeepSeekMath论文里提出：让模型针对同一任务一次生成一组答案，组内互相比较打分，省掉训练独立"评判模型"的开销，是近来国产开源模型圈常用的训练手段。

视频里还提到一个背景，多少能解释大家为何对开源模型格外上心：录制前不久，OpenAI发布新一代旗舰模型GPT-5.6，但受美国网络安全审查流程影响，目前只对约20家经审批的合作伙伴开放，普通用户完全无法通过ChatGPT或API访问。作者感慨前沿闭源模型的门槛正变得越来越高，这也让开源权重模型显得更有存在感。

本地测试设备

回到实测。作者用两台机器分别跑9B和35B。9B在一台笔记本上跑，显卡是移动版RTX 5090（24GB显存），Q8量化，通过LM Studio加载。这里值得提一句：笔记本版RTX 5090和桌面版并非同一块芯片，桌面版用完整的Blackwell GB202核心、32GB显存，笔记本版是阉割过的GB203核心、24GB显存，性能更接近桌面版RTX 5080，购买前容易踩坑。35B的MoE版本跑在一台配备RTX 6000 Pro（Blackwell架构专业卡）的机器上，通过vLLM以未量化全精度运行。这块工作站旗舰卡有96GB GDDR7显存，是RTX 5090的三倍，官方定价约8500美元。

多个实测开始

测试项目是作者频道的常规菜单：生成一个可交互的"浏览器桌面操作系统"、一个地铁3D场景并改造成带丧尸敌人的FPS游戏、一个带3D手表模型和电影感首屏的手表电商网站、按图复刻3D模型，以及一些即兴追加测试。作者还用了开源编程智能体Open Code（一个能在终端里调用本地模型自主写代码、跑命令、修错误的工具），把两个模型生成的半成品接进去，看它们能不能自己发现并修复bug。