大数跨境

论文推送 | 用大语言模型(LLM)重构元胞自动机:探索LLM在地理模拟中的能力边界

论文推送 | 用大语言模型(LLM)重构元胞自动机:探索LLM在地理模拟中的能力边界 Ai尚研修
2026-07-03
2
导读:关注Ai尚研修公众号加星标🌟,不错过每一次学术干货!

Liang Xun, Zhang Renyuan, Quan Xin, Guan Qingfeng* (2026). Decoding future land use dynamics through neighborhood sequences: A cellular automata-inspired large language model framework (LLM-CA), Applied Geography, 193, 104094.

作者简介

梁迅:博士,教授,博导,中国地质大学(武汉)地理与信息工程学院。研究方向为地理时空动态模拟和城市规划技术。
张人元:硕士研究生,中国地质大学(武汉)地理与信息工程学院。研究方向为时空模拟与大模型。
全昕:硕士研究生,中国地质大学(武汉)地理与信息工程学院。研究方向为计算机辅助城市规划。
关庆锋(通讯作者):博士,教授,博导,中国地质大学(武汉)地理与信息工程学院。研究方向包括时空大数据、空间计算智能和高性能空间计算。

摘要

土地利用/覆被变化(LUCC)模拟是理解人地关系相互作用过程、支撑可持续土地治理的重要研究工具。现有 LUCC 模拟方法主要基于机器学习与元胞自动机的集成框架,但在刻画高维地理空间数据中复杂时序动态特征方面仍存在局限。随着大语言模型的快速发展,其强大的模式学习与泛化能力为时空过程模拟提供了新机遇。本研究提出了一种新型土地利用变化模拟预测框架 LLM-CA,将经过微调的大语言模型(LLM)与元胞自动机(CA)思想相结合,通过将历史土地利用数据及相关驱动因子编码为结构化提示词,引导模型学习土地利用演化规律并进行模拟预测。以中国武汉市中心城区为研究区开展实验验证,结果表明 LLaMA-3.2-3B 表现最优(OA=85.80%,FoM=26.20%)。进一步的空间邻域尺度、时间间隔及多情景模拟实验表明,该框架具有良好的稳健性与适应性。

引言

土地利用/覆被变化(LUCC)是支撑国土空间规划、生态保护与城市可持续发展的重要基础。目前,元胞自动机(CA)及其结合机器学习、深度学习的方法已广泛应用于 LUCC 模拟,但大多依赖结构化数值数据,难以利用政策规划、空间管控等非结构化语义信息,对复杂时空关系的表达能力不足。近年来,大语言模型(LLMs)凭借强大的知识理解、语义推理和泛化能力展现出巨大潜力,但现有研究尚未将其与 CA 模型相结合用于 LUCC 模拟。
基于此,本研究围绕两个关键科学问题展开:(1)如何在保留空间邻域关系与地理依赖特征的前提下,将复杂高维地理空间数据转换为适用于 LLMs 处理的结构化语义表达;(2)如何利用 LLMs 学习土地利用变化过程中的复杂非线性时空演化规律,实现具有较强泛化能力的 LUCC 模拟。为此,本文提出一种融合大语言模型与元胞自动机的 LLM-CA 土地利用变化模拟预测框架,通过构建空间语义语料库、开展监督微调以及引入语义约束情景模拟,实现土地利用变化过程的生成式预测,并以武汉市中心城区为研究区验证框架的有效性。

研究方法

LLM-CA 框架主要包含三个部分:
(1)空间语义语料库构建。依据不同土地利用转移类型构建转移图,采用分层采样策略按各类转移比例抽取训练样本。以元胞自动机(CA)邻域演化机制为指导,将历史土地利用、邻域空间关系及地形、交通、人口等多源驱动因子统一编码为结构化文本,构建适用于大语言模型训练的空间语义语料库,实现传统地理空间数据向自然语言语义表达的转换。
(2)大语言模型监督微调。基于构建的空间语义语料库,采用低秩适配(LoRA)方法对预训练大语言模型进行监督微调,使模型在保留通用语言理解能力的基础上,学习土地利用变化的复杂时空演化规律,实现面向 LUCC 任务的生成式土地利用预测。
(3)土地利用模拟与情景分析。利用微调后的 LLM-CA 框架开展历史土地利用模拟,并采用 OA、FoM 等指标对模型性能进行综合评价。通过设计自然发展、生态保护、城市扩张和耕地保护等不同情景的提示词,引导模型生成不同政策导向下的未来土地利用格局,并分析不同约束策略对土地利用演化的影响。
图 1 LLM-CA 框架
图 2 语料库构建 (a) 分层采样 (b) 提示词设计
图 3 多情景提示词约束

主要结果

01 不同模型结果对比

本研究在武汉市中心城区对多种 LUCC 模拟模型进行对比评估。结果表明,LLM-CA 整体表现最优,其中 LLaMA-3.2-3B 达到最佳精度,在土地转移识别与空间格局重建方面均优于 PLUS 及 CNN-CA、Transformer-CA 等模型,误差分布更接近真实地表变化,且在耕地与林地等关键类型上表现稳定。不同规模模型对比显示,性能并未随参数规模单调提升,8B 模型未优于 3B 模型,说明 LUCC 任务对模型容量与数据规模匹配较为敏感。小规模模型(如 Qwen-1.5B)在 FoM 上接近最优,但类别精度波动较大。空间错误地块上存在明显差异:LLM-CA 分布较为均匀,Transformer-CA 呈碎片化特征,CNN-CA 则表现为空间聚集性误差。总体而言,LLM-CA 在空间格局重建与变化识别方面具有稳定优势。
表 1 不同模型结果对比
图 4 2020 年不同模型模拟土地利用格局对比

02 多情景 LUCC 预测结果

在最优配置下,本研究开展了 2030 年多情景 LUCC 预测,评估不同语义约束对土地利用格局的影响。结果表明,不同情景产生了显著差异:生态保护情景促进林地扩张并抑制城市蔓延,城市扩张情景加速不透水面增长并占用耕地和林地,耕地保护情景则推动农地扩张。变化最显著的区域主要集中于洪山区等快速发展地区。局部结果显示,城市扩张、生态保护与耕地约束之间存在明显权衡关系。总体来看,语义约束能够有效引导土地利用转移方向,赋予 LLM-CA 框架情景驱动的土地利用变化预测能力。
图 5 LLM-CA 框架下 2020—2030 年土地利用变化预测结果

03 空间幻觉分析

本研究进一步分析了 LLM-CA 框架中的幻觉现象,即模型生成超出预定义土地利用类别范围的无效预测值。结果表明,幻觉主要出现在较大邻域(7×7)配置下,其中 DeepSeek-R1-1.5B 和 LLaMA-3.1-8B 分别产生 428 个和 1439 个无效像元,而 Qwen-2.5-3B 与 LLaMA-3.2-3B 在所有实验中均未出现幻觉,表明模型稳定性与参数规模并非简单正相关。空间分析发现幻觉像元主要聚集于城市边缘及建设用地与植被交错的过渡区域,高空间异质性导致邻域信息混杂,从而增加无效类别生成风险。总体而言,幻觉现象主要受空间异质性驱动,在复杂过渡地带更易发生。
表 2 不同时空配置下的幻觉像元数量
图 6 LLM-CA 框架下空间幻觉像元分布及热点分析

讨论

多情景预测结果表明,城市扩张、生态保护与耕地保护之间存在显著的权衡关系,不同政策导向通过改变土地利用空间分配格局影响未来土地利用演化路径,说明单一目标导向的土地管理策略难以实现区域发展的整体优化。与传统 PLUS 等依赖宏观数量约束的模型不同,本研究提出的 LLM-CA 框架通过语义提示实现政策规则的嵌入与引导,使模型能够根据不同发展情景生成差异化的土地利用格局,展现出较强的灵活性与情景适应能力。然而,由于缺乏显式的全局数量控制机制,模型仍可能产生局部累积偏差,因此如何实现语义约束与宏观数量约束的有效融合仍是未来的重要研究方向。此外,研究发现 LLM-CA 模拟结果仍受到空间异质性、输入数据质量以及模型结构等因素影响,同时存在可解释性不足和计算成本较高等问题。

结论

本研究提出了一种新型 LLM-CA 土地利用变化模拟预测框架,将大语言模型与元胞自动机方法相结合。通过将历史土地利用格局及其相关驱动因子编码为结构化文本提示,该框架使经过微调的大语言模型能够以更具泛化性与灵活性的方式刻画复杂的时空动态过程。在中国武汉市中心城区的实证分析中,结果表明该框架具有较高的模拟精度,其中 LLaMA-3.2-3B 表现最优。通过对比实验进一步分析了时空配置对模拟结果的影响,揭示了邻域结构与时间间隔对生成性能的作用机制,同时验证了该框架在语义转移约束下进行 LUCC 模拟的能力。此外,通过对“幻觉”误差的识别与空间分布分析,揭示了模型对空间异质性的敏感性,为理解基于大语言模型的空间预测边界提供了重要视角。本研究可视为将大语言模型生成能力引入 LUCC 模拟预测的初步探索,结果表明大语言模型在空间决策支持中具有较大应用潜力。

来源:高性能空间计算智能实验室

内容仅做学术分享之用,不代表本号观点,版权归原作者所有,若涉及侵权等行为,请联系我们删除,万分感谢!

【声明】内容源于网络
0
0
Ai尚研修
1234
内容 3167
粉丝 0
Ai尚研修 1234
总阅读49.2k
粉丝0
内容3.2k