Invariant Learning via Sufficient and Necessary Cause:基于充分必要因果的不变学习方法
NeurIPS 2023 接收的 Spotlight 论文“Invariant Learning via Sufficient and Necessary Cause”提出了一种在不变学习中识别充分必要因果特征的新方法[k]。该方法不仅致力于从数据中提取不变表征,更进一步聚焦于发现对预测目标具有充分且必要性的关键因果因素[k]。理论与实验结果均表明,该方法能有效识别数据中的核心信息,在分布外泛化(OOD Generalization)任务中表现出优越性能[k]。
论文地址: https://arxiv.org/pdf/2309.12559.pdf
背景:分布外泛化与不变学习
分布外泛化旨在解决训练数据与测试数据分布不一致时模型性能下降的问题[k]。主流方法通过学习数据中的不变表征(invariant representation)来提升泛化能力,其核心假设是因果特征与标签间的关系不受域(如环境、风格)信息干扰[k]。例如,在图像分类任务中,猫的身体结构、耳朵形状等因果特征通常不会因拍摄风格变化而改变[k]。
动机:为何需要充分必要因果?
现有方法常以识别所有因果特征为目标,但并非所有因果特征都对泛化至关重要[k]。若模型依赖于非关键或易受干扰的特征(如仅凭“尖耳”判断是否为猫),可能在分布外数据上产生错误预测[k]。因此,研究者提出应关注对预测任务既充分又必要的因果特征——即该特征存在时必然导致结果发生(充分性),且结果发生时该特征必定存在(必要性)[k]。
以图像中识别猫为例,“短嘴”可能是比“尖耳”或“猫爪”更具判别力的充分必要特征,因后者可能出现在其他动物或因图像裁剪而缺失[k]。
方法:PNS Risk 与优化策略
论文引入“充分必要因果概率”(Probability of Necessary and Sufficiency, PNS),源自Judea Pearl的因果理论,用于量化某特征作为预测结果充分必要原因的可能性[k]。由于PNS涉及反事实推理,直接计算困难,作者在满足单调性(Monotonicity)和外生性(Exogeneity)条件下实现其可识别性[k]。
基于此,论文提出“PNS Risk”作为优化目标,通过最小化该风险来学习高PNS值的表征[k]。具体策略包括:
- 显式优化单调性度量项,确保因果影响方向一致;
- 根据不同因果假设(如图1所示),结合不变性学习机制(如IRM惩罚项或MMD约束)满足外生性要求[k]。
为保证PNS估计的有效性,论文提出“语义可分性”假设:不同标签对应的因果变量取值应具有可区分性,避免微小扰动导致PNS估计剧烈波动[k]。
基于因果学习的分布外泛化方法研究
探究充分必要因果表征在OOD场景中的应用

实验验证
4.1 模拟数据实验
4.2 真实OOD数据实验

总结与展望
参考文献

