不用一个字，MIT团队让细胞自动机教会了大模型推理- 大数跨境

DeepTech深科技

2026-03-23

导读：他们的最终愿景是完全用干净的合成数据做预训练，只在最后阶段用少量经过精心筛选的自然语言来获取语义。

从简单规则到语言理解：细胞自动机启发AI新路径

1970年，数学家约翰·康威提出的"生命游戏"在无限棋盘上演绎着简单规则：每个方格按邻接数量决定生死状态。这种无人操控的系统竟能涌现出滑翔机、脉冲枪等复杂结构，成为展示简单规则如何生成复杂行为的经典范例。

麻省理工学院Improbable AI实验室团队在2023年3月发表突破性研究：使用类似"生命游戏"的细胞自动机生成的数据预训练语言模型。该系统采用12×12像素网格的动态演化轨迹，完全不含文字语义。

实验显示，在此类"动态图案"上训练的模型表现出显著优势：自然语言学习中困惑度（perplexity）降低6%，收敛速度提升1.6倍。尤为突破的是，仅1.64亿个细胞自动机token的预训练效果，竟超越16亿真实英语文本（Common Crawl）的预训练成果。

研究核心发现：语言模型本质需学习语言背后的计算结构。团队采用"神经细胞自动机"（NCA），将传统固定规则替换为3×3卷积神经网络，随机生成不同动力学规则演化轨迹。模型通过推断隐藏规则完成token预测，这与语言模型的隐式贝叶斯推断原理深度契合。

该"预预训练"采用三步法：先在NCA数据训练transformer非嵌入层，继而在自然语言语料（OpenWebText、OpenWebMath、CodeParrot）进行标准预训练，最终微调任务。三类下游任务均获持续提升：

推理测试中，GSM8K数学推理pass@1提升0.6%，HumanEval代码生成提升0.7%，BigBench-Lite综合推理跃升10.6%。结构分析表明，注意力层承载主要迁移价值——其可迁移结构使模型通用化能力显著增强。

关键突破在于发现"领域定向数据设计"原理：NCA数据压缩率（20-50%以上）需匹配目标语料特征。高复杂度数据（压缩率>50%）显著提升文本与数学任务，而代码任务受益于中等复杂度（30-40%），这与OpenWebText（压缩率60-70%）和CodeParrot（压缩率32%）的特性完全对应。

研究解释为何小规模NCA数据优于大规模自然语料：NCA数据极高多样性和低冗余迫使模型进行深层规则推断，而自然语言训练常陷于浅层模式学习。但需注意，增益随模型规模扩大而递减（4亿参数模型改善8.6%，16亿参数改善5.7%），且字母表规模过大会导致收益饱和。

该成果指向革命性愿景：未来或可完全依赖合成数据完成主体预训练，仅需少量精选自然语言获取语义。作为计算架构创新的早期实践，其"从非语言数据提炼语言能力"的范式，为突破当前语言模型训练瓶颈提供了全新路径。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 5048

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读43.1k

粉丝0

内容5.0k