大数跨境

不用一个字,MIT团队让细胞自动机教会了大模型推理

不用一个字,MIT团队让细胞自动机教会了大模型推理 DeepTech深科技
2026-03-23
9
导读:他们的最终愿景是完全用干净的合成数据做预训练,只在最后阶段用少量经过精心筛选的自然语言来获取语义。

从简单规则到语言理解:细胞自动机启发AI新路径

1970年,数学家约翰·康威提出的"生命游戏"在无限棋盘上演绎着简单规则:每个方格按邻接数量决定生死状态。这种无人操控的系统竟能涌现出滑翔机、脉冲枪等复杂结构,成为展示简单规则如何生成复杂行为的经典范例。

麻省理工学院Improbable AI实验室团队在2023年3月发表突破性研究:使用类似"生命游戏"的细胞自动机生成的数据预训练语言模型。该系统采用12×12像素网格的动态演化轨迹,完全不含文字语义。

实验显示,在此类"动态图案"上训练的模型表现出显著优势:自然语言学习中困惑度(perplexity)降低6%,收敛速度提升1.6倍。尤为突破的是,仅1.64亿个细胞自动机token的预训练效果,竟超越16亿真实英语文本(Common Crawl)的预训练成果。

研究核心发现:语言模型本质需学习语言背后的计算结构。团队采用"神经细胞自动机"(NCA),将传统固定规则替换为3×3卷积神经网络,随机生成不同动力学规则演化轨迹。模型通过推断隐藏规则完成token预测,这与语言模型的隐式贝叶斯推断原理深度契合。

该"预预训练"采用三步法:先在NCA数据训练transformer非嵌入层,继而在自然语言语料(OpenWebText、OpenWebMath、CodeParrot)进行标准预训练,最终微调任务。三类下游任务均获持续提升:

推理测试中,GSM8K数学推理pass@1提升0.6%,HumanEval代码生成提升0.7%,BigBench-Lite综合推理跃升10.6%。结构分析表明,注意力层承载主要迁移价值——其可迁移结构使模型通用化能力显著增强。

关键突破在于发现"领域定向数据设计"原理:NCA数据压缩率(20-50%以上)需匹配目标语料特征。高复杂度数据(压缩率>50%)显著提升文本与数学任务,而代码任务受益于中等复杂度(30-40%),这与OpenWebText(压缩率60-70%)和CodeParrot(压缩率32%)的特性完全对应。

研究解释为何小规模NCA数据优于大规模自然语料:NCA数据极高多样性和低冗余迫使模型进行深层规则推断,而自然语言训练常陷于浅层模式学习。但需注意,增益随模型规模扩大而递减(4亿参数模型改善8.6%,16亿参数改善5.7%),且字母表规模过大会导致收益饱和。

该成果指向革命性愿景:未来或可完全依赖合成数据完成主体预训练,仅需少量精选自然语言获取语义。作为计算架构创新的早期实践,其"从非语言数据提炼语言能力"的范式,为突破当前语言模型训练瓶颈提供了全新路径。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 5048
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读43.1k
粉丝0
内容5.0k