大数跨境

太疯了!MIT博士在Transformer里造计算机,攻破LLM终极缺陷

太疯了!MIT博士在Transformer里造计算机,攻破LLM终极缺陷 新智元
2026-03-21
3

新智元报道

编辑:KingHZ Aeneas
【新智元导读】麻省理工学院(MIT)博士成功将WebAssembly解释器嵌入Transformer模型,使大模型具备原生计算能力。新方案可高效执行数百万步程序,世界最难数独准确率达100%,彻底解决"9.11与9.9"类计算问题,重塑大模型能力边界。

近日,AI领域迎来一项突破性进展:MIT博士通过硬编码方式,将WebAssembly解释器无损嵌入Transformer模型权重,实现大模型原生计算能力。

该方案无需调用外部工具,仅依靠模型自身即可高效执行程序。实验表明,新模型能在几秒内运行数百万步程序,解决世界最难数独的准确率高达100%,彻底终结大模型"算错9.11与9.9大小"的历史性缺陷。

此项研究引发广泛关注,"Vibe Coding"之父Karpathy盛赞其"太棒了,令人深受启发"。

LLM终极弱点被彻底攻破

大模型虽可解决复杂研究难题,但缺乏精确计算能力。传统方案依赖调用Python等外部工具,不仅中断推理链,还增加延迟与安全风险。此次研究通过将任意C代码转化为词元序列,使Transformer在内部可靠执行计算任务。

团队采用匈牙利算法求解最小成本完美匹配,所有计算均在Transformer内部以自回归方式完成。核心突破在于发明新型解码路径:通过指数级加速的注意力机制,实现每秒3万词元的输出速度(较MacBook M2 Pro提速超1000倍),有效突破标准注意力机制的计算瓶颈。

此举赋予大模型内在计算能力,为数值计算、物理模拟等高精度领域开辟新路径。网友评价其为"真正的原生智能"。

传统Attention可能退出历史舞台?

该技术并非简单提升计算能力,而是使Transformer内部直接执行程序。不依赖外挂工具,数百万步程序数秒内即可完成。其本质是创建混合架构:神经网络负责推理理解,嵌入式解释器专精高精度计算。

这相当于为大模型"天生植入算数能力",彻底解决"9.11与9.9"等基础数值问题。该方向若突破,将引发数值计算、金融建模等领域的范式变革。

分析指出,传统注意力机制因计算效率低下不适合数值任务,而混合架构可兼顾推理与计算精度,成为Transformer演进新方向。

AI计算耻辱正式终结

计算:一条只增不减的轨迹

研究巧妙将计算表示为不可逆增长的轨迹:输入提示后,模型生成的词元序列逐行记录虚拟机状态(指令指针、内存操作等),每步仅需回看固定数量先前位置。

该方法效仿图灵机工作原理,将算法转化为可执行序列。通过二维注意力头优化,突破轨迹延长导致的计算成本激增问题,使Transformer真正具备程序执行能力。

MIT博士指出:"别给莎士比亚放计算器,直接让他天生会算数。"这项突破意味着,大模型将从概率预测工具进化为兼具推理与执行能力的智能系统,为下一代AI奠定基础。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 15058
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读144.5k
粉丝0
内容15.1k