Nature Climate Change : 基于机器学习的10万份气候影响研究的证据与归因绘图

大数据透视地理

2025-03-03

摘要：越来越多的证据表明，气候变化的影响已在全球范围内被观察到。全球环境评估面临评估不断增长的文献的挑战。在这里，我们使用语言模型BERT来识别和分类关于观察到的气候影响的研究，生成一个全面的机器学习辅助证据图。我们估计有102,160（64,958-164,274）篇出版物记录了广泛的观察到的影响。通过结合我们的空间分辨数据库与网格单元级别的人类可归因的温度和降水变化，我们推断，可归因的人为影响可能发生在世界陆地面积的80%，那里居住着85%的人口。我们的结果显示出一个显著的“归因差距”，因为潜在可归因影响的有力证据在高收入国家比在低收入国家更为普遍。虽然在区域和部门层面自信地归因气候影响仍存在差距，但这个数据库展示了人为气候变化当前在全球范围内的潜在影响。

Callaghan, M., Schleussner, CF., Nath, S. et al. Machine-learning-based evidence and attribution mapping of 100,000 climate impact studies. Nat. Clim. Chang. 11, 966–972 (2021). https://doi.org/10.1038/s41558-021-01168-6

研究背景

研究问题：这篇文章旨在解决全球环境评估中面临的挑战，即如何系统地识别和分类关于气候变化影响的文献。具体来说，研究使用语言模型BERT来识别和分类关于观察到的气候变化影响的研究，生成一个全面的机器学习的证据地图。
研究难点：该问题的研究难点包括：气候变化影响的证据基础不断扩大，手动专家评估难以应对指数级增长的文献；不同研究和学科的方法论和鲁棒性标准差异广泛，需要专家判断；区域和部门层面的气候影响归因存在显著差距。
相关工作：该问题的研究相关工作包括：IPCC对观察到的气候变化影响的评估；使用自然语言处理（NLP）技术进行健康科学中的证据综合；以及将系统综述和地图方法扩展到大规模文献的研究。

研究方法

这篇论文提出了一种基于机器学习的气候影响证据和归因映射方法，用于解决气候变化影响文献识别和分类的问题。具体来说，

文献检索与筛选：首先，使用Web of Science和Scopus两个大型文献数据库进行系统检索，确保搜索字符串返回IPCC第五次评估报告（AR5）工作组II表18.5-18.9中的所有参考文献。检索到的记录经过去重处理，共得到601,667条记录。
机器学习分类：使用BERT模型和其变体DistilBERT进行文本分类。训练数据通过协作筛选和编码2,373个摘要生成，使用监督学习对DistilBERT进行微调，以分类与理解气候变化观察到的影响相关的文档，并预测其影响类别和气候变量。分类器的性能通过嵌套交叉验证进行评估，二元包含分类器达到平均F1分数0.71和ROC AUC分数0.92。

图1 | 机器辅助文献综述的结果。所有显示的结果均基于我们的搜索查询，并由机器学习流程进行后续分类。不确定性范围表示通过自助法得到的预测相关性和类别成员身份的平均值±1标准差大于0.5个a的研究数量。过去30年中与观察到的气候影响相关的科学文献增长（IPCC评估期的累计总数突出显示以供参考）。插图：总查询中考虑的文档数量以及IPCC AR5 WGII表18.5-18.9中的文档数量。b,c,我们数据库中每个影响类别（b）和大洲（c）的估计研究数量（注意不确定性条形图考虑了相关性和影响类别的不确定性）。ES，生态系统；FAR，首次评估报告；SAR，第二次评估报告；TAR，第三次评估报告。

3. 地理信息系统（GIS）分析：使用geoparser从研究的标题和摘要中提取结构化地理信息，并将其与温度和降水趋势的网格单元级数据匹配。通过计算每个网格单元的相关研究数量，推断出人类活动对气候的影响。

图2 | 影响研究对区域人为温度和降水趋势的潜在归因。a，b，基于模型的评估，将1951年至2018年（a）的时间跨度内区域温度和1951年至2016年（b）的时间跨度内降水趋势归因于人类影响。被标记为类别±2和±3的区域中的冷却/变暖或干燥/湿润趋势，部分归因于人类影响（方法）。c，按存在可检测和可归因（D&A）趋势（至少一个变量为紫色可归因趋势，两个变量均为交叉阴影的可归因趋势，无可归因趋势为灰色）着色的全球面积加权研究地图，并显示局部证据密度（低：<5项加权研究；稳健：5-20项加权研究；高：>20项加权研究）。d，e，按国家收入类别分组，每种网格单元类型的陆地面积（d）和人口（e）比例。

实验设计

数据收集：从Web of Science和Scopus数据库中检索到601,667条记录，经过去重处理后得到601,667条记录。
样本选择：通过协作筛选和编码2,373个摘要，并使用IPCC AR5工作组II表18.5-18.9中的数据进行自动标记。
参数配置：使用DistilBERT模型进行分类，采用嵌套交叉验证进行超参数调优和模型选择。最终模型在测试集上的表现进行评估。

结果与分析

文献分类结果：通过机器学习分类，共识别出102,160篇与气候变化观察到的影响相关的文档。这些文档分布在各大洲，其中北美、亚洲和欧洲的相关研究数量远高于南美洲、非洲和大洋洲。

图3 | 气候影响证据的全球密度地图。地图颜色表示每个网格单元内关于气候影响的所有证据的加权研究数量（N=77,785）。条形图显示了每个大洲和影响类别的研究数量。条形按预测驱动影响的气候变量着色。颜色强度表示一个研究所指的单元格百分比，其中气候变量的趋势可以归因（部分归因：>0%的网格单元，主要归因：>50%的网格单元）。

2. 气候影响归因：结合气候模型模拟和观测数据，推断出80%的全球陆地面积（不包括南极洲）的温度和/或降水趋势至少部分可归因于人类活动的影响。这些区域覆盖了85%的世界人口。

3. 证据差距：高收入国家的归因研究密度显著高于低收入国家。低收入国家中有23%的人口生活在低证据区域，而高收入国家仅为3%。

总体结论

这篇论文通过机器学习和GIS分析，生成了一份全面的气候变化影响证据地图。研究表明，尽管大多数世界人口生活在受人类活动影响的气候区域内，但在低收入国家，相关证据仍然不足。该数据库为进一步的区域和本地气候适应行动提供了重要的信息，并揭示了气候变化影响评估中的“归因差距”。未来的研究可以进一步细化分析或扩展归因信号，以提高归因的可靠性。

【声明】内容源于网络

大数据透视地理

精选地理科学领域的优质文章，专注于解读多源空间大数据如何助力地理科学相关问题

内容 102

粉丝 0

大数据透视地理精选地理科学领域的优质文章，专注于解读多源空间大数据如何助力地理科学相关问题

总阅读8

粉丝0

内容102