传闻被封禁的Claude Mythos模型获开源重建,项目OpenMythos整合公开研究与主流架构推测。
该项目实现带MoE路由机制的循环深度Transformer(RDT),通过跨专家权重共享与条件计算实现迭代深度。现有研究证实,该架构仅需半数参数即可达到传统模型同等效果。
开源架构突破:RDT技术解析
项目创建者Kye Gomez(22岁,Swarms智能体框架创始人)设计的RDT包含三大核心机制:
- 权重循环:单组权重最多重复运行16遍
- 动态路由:每次激活不同专家路径
- 潜在空间推理:全程在hidden state向量中完成
RDT突破行业惯用的上百层Transformer堆叠模式,采用少量层循环运行。关键创新在于MoE路由器每次激活不同专家子集,使重复计算不重复思考——"MoE提供领域知识广度,循环提供推理深度"。
MoE提供领域知识的广度,循环提供推理的深度。
UCSD与Together AI提出的LTI稳定循环机制保障运算稳定性。实验显示,770M参数RDT可达到1.3B参数标准Transformer效果,参数量减少近半。
关键实验验证
俄亥俄州立大学实验证明其卓越性能:
系统性泛化能力:面对训练未见知识组合,循环Transformer准确作答而标准模型失败,证实非重复计算的深度思考能力。
深度外推能力:面对30跳测试(训练仅20跳),循环Transformer通过增加推理轮次维持性能,标准模型则崩溃。
这些发现揭示当前模型瓶颈在于知识组合能力,循环机制可免费解锁该能力。若结论成立,行业方向将从"训练更大模型"转向"让模型推理更深入"。
GitHub:
https://github.com/kyegomez/OpenMythos
参考链接:
https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946

