大数跨境

【AI】Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

【AI】Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek 人工智能产业链union
2026-04-20
2

传闻被封禁的Claude Mythos模型获开源重建,项目OpenMythos整合公开研究与主流架构推测。

该项目实现带MoE路由机制的循环深度Transformer(RDT),通过跨专家权重共享与条件计算实现迭代深度。现有研究证实,该架构仅需半数参数即可达到传统模型同等效果。

开源架构突破:RDT技术解析

项目创建者Kye Gomez(22岁,Swarms智能体框架创始人)设计的RDT包含三大核心机制:

  • 权重循环:单组权重最多重复运行16遍
  • 动态路由:每次激活不同专家路径
  • 潜在空间推理:全程在hidden state向量中完成

RDT突破行业惯用的上百层Transformer堆叠模式,采用少量层循环运行。关键创新在于MoE路由器每次激活不同专家子集,使重复计算不重复思考——"MoE提供领域知识广度,循环提供推理深度"。

MoE提供领域知识的广度,循环提供推理的深度。

UCSD与Together AI提出的LTI稳定循环机制保障运算稳定性。实验显示,770M参数RDT可达到1.3B参数标准Transformer效果,参数量减少近半。

关键实验验证

俄亥俄州立大学实验证明其卓越性能:

系统性泛化能力:面对训练未见知识组合,循环Transformer准确作答而标准模型失败,证实非重复计算的深度思考能力。

深度外推能力:面对30跳测试(训练仅20跳),循环Transformer通过增加推理轮次维持性能,标准模型则崩溃。

这些发现揭示当前模型瓶颈在于知识组合能力,循环机制可免费解锁该能力。若结论成立,行业方向将从"训练更大模型"转向"让模型推理更深入"。

GitHub:
https://github.com/kyegomez/OpenMythos

参考链接:
https://x.com/KyeGomezB/status/2045660378844024994
[2] https://arxiv.org/abs/2604.07822
[3] https://arxiv.org/abs/2604.12946

【声明】内容源于网络
0
0
人工智能产业链union
人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
内容 1183
粉丝 1
人工智能产业链union 人工智能产业链联盟,旨在汇聚全球人工智能领域的创新力量,共同推动人工智能技术的研发、应用与产业化。联盟以基础技术、人工智能技术及人工智能应用为核心,打造了一个完整、高效、协同的人工智能生态链。
总阅读39.0k
粉丝1
内容1.2k