大数跨境

NeurIPS 2023 Spotlight | 探索不变学习中的充分必要因果

NeurIPS 2023 Spotlight | 探索不变学习中的充分必要因果 AI TIME 论道
2023-12-05
19
导读:本文阐述了在分布外泛化场景里充分必要性的因果学习的动机,以及提出了一种方法能够有效的学习到观察数据当中的充分必要因果表征

Invariant Learning via Sufficient and Necessary Cause:基于充分必要因果的不变学习方法

NeurIPS 2023 接收的 Spotlight 论文“Invariant Learning via Sufficient and Necessary Cause”提出了一种在不变学习中识别充分必要因果特征的新方法[k]。该方法不仅致力于从数据中提取不变表征,更进一步聚焦于发现对预测目标具有充分且必要性的关键因果因素[k]。理论与实验结果均表明,该方法能有效识别数据中的核心信息,在分布外泛化(OOD Generalization)任务中表现出优越性能[k]

论文地址: https://arxiv.org/pdf/2309.12559.pdf

背景:分布外泛化与不变学习

分布外泛化旨在解决训练数据与测试数据分布不一致时模型性能下降的问题[k]。主流方法通过学习数据中的不变表征(invariant representation)来提升泛化能力,其核心假设是因果特征与标签间的关系不受域(如环境、风格)信息干扰[k]。例如,在图像分类任务中,猫的身体结构、耳朵形状等因果特征通常不会因拍摄风格变化而改变[k]

动机:为何需要充分必要因果?

现有方法常以识别所有因果特征为目标,但并非所有因果特征都对泛化至关重要[k]。若模型依赖于非关键或易受干扰的特征(如仅凭“尖耳”判断是否为猫),可能在分布外数据上产生错误预测[k]。因此,研究者提出应关注对预测任务既充分又必要的因果特征——即该特征存在时必然导致结果发生(充分性),且结果发生时该特征必定存在(必要性)[k]

以图像中识别猫为例,“短嘴”可能是比“尖耳”或“猫爪”更具判别力的充分必要特征,因后者可能出现在其他动物或因图像裁剪而缺失[k]

方法:PNS Risk 与优化策略

论文引入“充分必要因果概率”(Probability of Necessary and Sufficiency, PNS),源自Judea Pearl的因果理论,用于量化某特征作为预测结果充分必要原因的可能性[k]。由于PNS涉及反事实推理,直接计算困难,作者在满足单调性(Monotonicity)和外生性(Exogeneity)条件下实现其可识别性[k]

基于此,论文提出“PNS Risk”作为优化目标,通过最小化该风险来学习高PNS值的表征[k]。具体策略包括:

  • 显式优化单调性度量项,确保因果影响方向一致;
  • 根据不同因果假设(如图1所示),结合不变性学习机制(如IRM惩罚项或MMD约束)满足外生性要求[k]

为保证PNS估计的有效性,论文提出“语义可分性”假设:不同标签对应的因果变量取值应具有可区分性,避免微小扰动导致PNS估计剧烈波动[k]

基于因果学习的分布外泛化方法研究

探究充分必要因果表征在OOD场景中的应用

本研究针对分布外(OOD)泛化场景中的因果学习问题,提出了一种能够有效识别并学习数据中充分必要因果关系的新方法。通过泛化分析发现,训练数据上的PNS risk与测试域上的PNS risk存在关联,理论支持在训练阶段优化相关风险指标以提升测试性能[k]

该方法的优化目标中引入了表征先验分布与后验分布之间的KL散度项,并针对特定因果假设设计了额外惩罚机制,以确保不变表征的学习效果[k]


实验验证


实验分为两部分:首先在模拟数据上验证模型识别充分必要因果因素的能力;其次在真实OOD数据集上评估其分布外泛化性能[k]

4.1 模拟数据实验

依据图1中的因果假设1构建模拟数据,其中特征X包含充分性、必要性、充分必要性因果信息及虚假相关域信息。实验结果如下图所示:
通过距离相关系数统计发现,所提方法CaSN能有效分离并识别出充分必要因(SN)信息。消融实验表明,若去除Monotonicity组件,模型易将充分必要因与充分因混淆。随着参数  增大,模型性能提升,符合语义可分性要求[k]

4.2 真实OOD数据实验

在DomainBed和SupCo提供的基准框架下,采用PACS、VLCS和SupCoAnimals数据集进行测试。结果显示,该方法在多种OOD泛化任务及存在虚假相关性的场景中均表现出优越性能[k]



总结与展望

本文提出了面向分布外泛化的充分必要因果学习方法,能够在观测数据中有效提取因果表征并提升模型泛化能力。未来工作将拓展至更复杂的因果假设与预测函数形式的研究[k]
详细技术细节请参考原文。学术交流可通过邮箱mengyue.yang.20@ucl.ac.uk联系作者杨梦月[k]

参考文献

[1] Arjovsky, Martin, et al. "Invariant risk minimization." arXiv preprint arXiv:1907.02893 (2019).
[2] Pearl, Judea. Causality. Cambridge university press, 2009.
【声明】内容源于网络
0
0
AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
内容 2053
粉丝 0
AI TIME 论道 AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来
总阅读25.9k
粉丝0
内容2.1k