大数跨境
0
0

NeurIPS 2025 | 可解释-相关论文12篇

NeurIPS 2025 | 可解释-相关论文12篇 AI新文
2025-12-07
0

由于微信公众号开始试行乱序推送,为了让您在第一时间获取AI新文,请将"AI新文"设为星标。


CHiQPM:校准的分层可解释图像分类

原标题:CHiQPM: Calibrated Hierarchical Interpretable Image Classification

作者:Thomas Norrenbrock;Timo Kaiser;Sovan Biswas;Neslihan Kose;Ramesh Manuvinakurike;Bodo Rosenhahn

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/11/25

摘要:全局可解释的模型是安全关键领域中可信人工智能的一种有前途的方法。全局解释以及详细的局部解释是有效支持人类专家在推理过程中不可或缺的补充。这项工作提出了校准分层QPM(CHiQPM),它提供了独特的全面的全局和局部可解释性,为人类与AI互补铺平了道路。CHiQPM 通过对比解释大多数类别而实现了优越的全局可解释性,并提供了新颖的层次化解释,这些解释更类似于人类的推理方式,并且可以遍历以提供内置的可解释的符合预测(CP)方法。我们的全面评估表明,CHiQPM 作为一个点预测器实现了最先进的准确率,保持了不可解释模型的 99% 的准确性。这展示了实质性的改进,在此过程中可解释性被纳入而未牺牲整体准确性。此外,其校准后的集合预测在其他CP方法中具有竞争力的效率,同时提供了沿其层次解释的一致集的可解释预测。


原文链接



逐层模态分解的可解释多模态传感器融合

原标题:Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion

作者:Jaehyun Park;Konyul Park;Daehun Kim;Junseo Park;Jun Won Choi

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/11/02

摘要:在自动驾驶中,感知模型决策的透明性至关重要,因为即使是单一的误感知也可能造成灾难性后果。然而,通过多传感器输入,很难确定每种模式如何贡献于预测,因为传感器信息在融合网络中变得纠缠在一起。我们介绍了层间模态分解(LMD),这是一种事后解释性方法,与模型无关,能够分离预训练融合模型所有层中的特定模态信息。据我们所知,LMD 是首个在自动驾驶传感器融合系统中将感知模型的预测归因于各个输入模态的方法。我们评估了LMD在相机-雷达、相机-激光雷达以及相机-雷达-激光雷达设置下的预训练融合模型的性能。其有效性通过基于结构扰动的度量和模态分解的视觉分解得到验证,展示了在解释高容量多模态架构方面的实际适用性。代码可在https://github.com/detxter-jvb/Layer-Wise-Modality-Decomposition上获取。


原文链接



循环神经网络模拟隐马尔可夫模型的机制性可解释性

原标题:Mechanistic Interpretability of RNNs emulating Hidden Markov Models

作者:Elia Torre;Michele Viscione;Lucas Pompe;Benjamin F Grewe;Valerio Mante

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/10/29

摘要:循环神经网络(RNNs)在神经科学中提供了一种强大的方法来推断神经群体中的潜在动态,并生成关于行为背后的神经计算的假设。然而,过去的研究主要集中在相对简单、输入驱动且很大程度上确定性的行为上-对于允许RNN在自然环境中生成更丰富、自发且可能具有随机性的行为的机制知之甚少。隐马尔可夫模型(HMMs)的建模揭示了自然行为可以被分割成具有随机转换的离散潜在状态,这种动态类型可能与循环神经网络(RNNs)实现的连续状态空间相矛盾。在这里我们首先表明RNN可以复制HMM发射统计量然后逆向工程训练的网络以揭示它们实现的机制。在没有输入的情况下,训练好的RNN的活动趋向于一个单一的固定点。当受到随机输入驱动时,轨迹反而表现出沿闭合轨道的噪声维持的动力学行为。这些轨道上的旋转调制了发射概率,并受控于通过快速确定性跃迁连接的慢速噪声驱动动力学区域之间的转换。训练的RNN发展出高度结构化的连通性,一组少量的“启动神经元”(kick neurons)在这些区域之间发起转换。该机制在训练过程中出现,当网络进入随机共振状态时产生,使其能够执行概率计算。对多种HMM架构——完全连接的、循环的和线性的——进行分析揭示了该解决方案通过同一动力学模体的模块化重用来泛化,表明RNN可以通过这种方式模拟复杂的离散潜在动态。


原文链接



Transformer键值记忆几乎和稀疏自编码器一样可解释

原标题:Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders

作者:Mengyu Ye;Jun Suzuki;Tatsuro Inaba;Tatsuki Kuribayashi

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/10/25

摘要:最近关于大型语言模型(LLMs)的可解释性研究越来越受到智能体模块辅助的功能发现方法的主导。然后,通过例如稀疏自编码器(SAEs)学习到的特征的质量被评估。这一范式自然引发了一个关键问题:这样的学习特征是否比原始模型参数中已经表示的那些具有更好的属性?不幸的是,迄今为止只有少数研究系统地进行了此类比较。在这项工作中,我们重新审视了存储在前馈(FF)层中的特征向量的可解释性,从将FF视为键值内存的角度出发,并使用现代可解释性基准。我们的广泛评估表明,SAE 和 FFs 具有相似的可解释性范围,尽管 SAE 在某些方面表现出轻微但可以观察到的改进。此外,在某些方面,令人惊讶的是,甚至普通的全连接网络(FF)比稀疏自编码器(SAE)产生了更好的可解释性,并且在SAE和FF中发现的特征出现了分歧。这从特征质量和忠实度两个角度提出了关于SAEs的优势的问题,与直接解释FF特征向量相比,并且FF键值参数在现代可解释性研究中作为一个强大的基准。


原文链接



预测编码增强元强化学习实现部分可观测性下的可解释贝叶斯最优信念表示

原标题:Predictive Coding Enhances Meta-RL To Achieve Interpretable Bayes-Optimal Belief Representation Under Partial Observability

作者:Po-Chen Kuo;Han Hou;Will Dabney;Edgar Y. Walker

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/10/24

摘要:学习历史的紧凑表示对于在部分可观测环境中规划和泛化是至关重要的。虽然元强化学习(RL)代理可以达到接近贝叶斯最优策略,但他们经常无法学习紧凑且可解释的贝叶斯最优信念状态。这种表征效率低下可能限制了智能体的适应能力和泛化能力。受神经科学中的预测编码的启发——它表明大脑通过神经实现贝叶斯推理来预测感觉输入——以及深度强化学习中的辅助预测目标,我们研究了将自监督预测编码模块集成到元强化学习中是否可以促进贝叶斯最优表示的学习。通过状态机模拟,我们展示了具有预测模块的元强化学习(meta-RL)在广泛的任务中始终生成更可解释的表示,这些表示更好地近似贝叶斯最优信念状态,即使两者都实现了最优策略也如此。在需要主动寻求信息的艰巨任务中,只有具有预测模块的元强化学习成功地学习了最优表示和策略,而传统的元强化学习则因表示学习不足而难以应对。最后,我们证明更好的表示学习导致泛化性能的提升。我们的结果强烈表明预测学习在代理处理部分可观测性时作为有效表示学习的指导原则的作用。


原文链接



Hierarchical Koopman Diffusion:具有可解释扩散轨迹的快速生成

原标题:Hierarchical Koopman Diffusion: Fast Generation with Interpretable Diffusion Trajectory

作者:Hanru Bai;Weiyang Ding;Difan Zou

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/10/14

摘要:扩散模型在高保真图像生成方面取得了令人印象深刻的成就,但由于其固有的迭代去噪过程而存在采样速度慢的问题。虽然最近的一步法通过学习直接的噪声到图像映射加速了推理,但它们牺牲了扩散动力学固有的可解释性和细粒度控制,这些是使应用程序(如可编辑生成)成为可能的关键优势。为了解决这一矛盾,我们引入了Hierarchical Koopman Diffusion,一种既能实现一步采样又能生成可解释的生成轨迹的新框架。基于Koopman算子理论,我们的方法将非线性扩散动力学提升到一个潜在空间,在该空间中演化受全局线性算子支配,从而能够得到封闭形式的轨迹解。这种公式不仅消除了迭代采样,而且还提供了对中间状态的完全访问权限,允许在生成过程中进行手动干预。为了模拟图像的多尺度特性,我们设计了一个分层架构,通过特定于尺度的Koopman子空间在不同空间分辨率间分离生成动力学,系统地捕捉从粗到细的细节。我们实证表明,层次Koopman扩散不仅实现了具有竞争力的一步生成性能,而且还通过谱分析提供了一种解释和操控生成过程的原理机制。我们的框架在扩散模型中弥合了快速采样和可解释性之间的差距,为生成建模中的可解释图像合成铺平了道路。


原文链接



GnnXemplar:范例到解释——用于全球GNN可解释性的自然语言规则

原标题:GnnXemplar: Exemplars to Explanations -- Natural Language Rules for Global GNN Interpretability

作者:Burouj Armgaan;Eshan Jain;Harsh Pey;Mahesh Chran;Sayan Ranu

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/09/22

摘要:图神经网络(GNNs)被广泛用于节点分类,但其不透明的决策过程限制了信任和采用。虽然局部解释能提供个体预测的见解,全局解释方法(那些描述整个类别的方法)仍然发展不足。现有的全局解释工具依赖于小图中的基序发现,这种方法在大型现实世界环境中会失效,在这些环境中子图重复很少,节点属性是高维的,并且预测源自复杂的结构属性交互。我们提出GnnXemplar,一种受认知科学中的原型理论启发的新型全局解释器。GnnXemplar 在 GNN 嵌入空间中识别代表性节点(示例),并通过从其邻域派生的自然语言规则解释预测。示例选择被构架为逆k-最近邻的覆盖最大化问题,对此我们提供了一个高效的贪婪近似算法。为了推导出可解释的规则,我们采用了一种使用大型语言模型(LLMs)的自我优化提示策略。实验在不同的基准上进行,结果显示GnnXemplar在保真度、可扩展性和人类可解释性方面显著优于现有方法,这一点通过一项包含60名参与者的用户研究得到了验证。


原文链接



FireGNN:具有可训练模糊规则的神经符号图神经网络用于可解释的医学图像分类

原标题:FireGNN: Neuro-Symbolic Graph Neural Networks with Trainable Fuzzy Rules for Interpretable Medical Image Classification

作者:Prajit Sengupta;Islem Rekik

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/09/02

摘要:医学图像分类不仅需要高预测性能,还需要可解释性以确保临床信任和采用。图神经网络(GNNs)为在数据集中建模关系结构提供了一个强大的框架;然而,标准的GNNs通常作为黑盒操作,限制了透明度和可用性,特别是在临床环境中。在这项工作中,我们提出了一种可解释的基于图的学习框架FireGNN,该框架将可训练的模糊规则集成到GNN中用于医学图像分类。这些规则嵌入了拓扑描述符——节点度数、聚类系数和标签一致性——使用可学习的阈值和锐度参数以实现内在符号推理。此外,我们探索辅助自监督任务(例如,同配性预测,相似性熵)作为评估拓扑学习贡献的基准。我们的模糊规则增强模型在五个MedMNIST基准和合成数据集MorphoMNIST上均表现出色,同时生成了可解释的基于规则的解释。据我们所知,这是首次在GNN中集成可训练的模糊规则。源代码: https://github.com/basiralab/FireGNN。


原文链接



非线性表示困境:因果抽象足以支持机制可解释性吗?

原标题:The Non-Linear Representation Dilemma: Is Causal Abstraction Enough for Mechanistic Interpretability?

作者:Denis Sutter;Julian Minder;Thomas Hofmann;Tiago Pimentel

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/07/11

摘要:因果抽象的概念最近流行起来,用于揭开机器学习模型不透明决策过程的神秘面纱;简言之,如果存在一个函数允许我们在它们之间进行映射,则可以将神经网络抽象为更高层次的算法。值得注意的是,大多数关于可解释性的论文都将这些映射实现为线性函数,其动机是线性表示假设:即特征在模型的表示中是以线性方式编码的想法。然而,这种线性约束并不是因果抽象定义所要求的。在这项工作中,我们通过考虑任意强大的对齐映射来批判性地审视因果抽象的概念。特别是,在合理的假设下,任何神经网络都可以映射到任何算法,使得这种不受限制的因果抽象的概念变得微不足道且无信息含量。我们用实证证据补充了这些理论发现,证明即使这些模型无法解决实际任务,也有可能完美地将模型映射到算法上;例如,在使用随机初始化的语言模型进行的实验中,我们的对齐映射在间接对象识别任务上达到了100%互换干预准确率。这引发了非线性表示困境:如果我们取消因果抽象分析中对齐映射施加的线性约束,我们就无法找到一种原则性的方法来平衡这些映射的复杂性和准确性之间的内在权衡。这些结果共同表明了对标题问题的回答:因果抽象不足以实现机制可解释性,因为它在没有关于模型如何编码信息的假设的情况下变得空洞。研究这种信息编码假设与因果抽象之间的联系应该会带来令人兴奋的未来工作。


原文链接



迈向可解释性而不牺牲:使用解码器混合的忠实密集层分解

原标题:Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders

作者:James Oldfield;Shawn Im;Sharon Li;Mihalis A. Nicolaou;Ioannis Patras;Grigorios G Chrysos

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2025/05/27

摘要:多层感知机(MLPs)是大语言模型的重要组成部分,然而它们密集的表示使得这些模型难以理解、编辑和控制。最近的方法通过神经元级别的稀疏性学习可解释的近似值,但仍无法忠实重建原始映射---显著增加了模型的下一个标记交叉熵损失。在本文中,我们主张采用层级稀疏性来克服稀疏层近似中的精度权衡。在此范式下,我们引入解码器混合(MxDs)。MxD扩展了MLP和Gated Linear Units,将预训练的密集层扩展成数万个专门化的子层。通过一种灵活的张量分解形式,每个激活稀疏的M×D子层实现了一个具有满秩权重的线性变换——即使在高度稀疏的情况下也保持了原始解码器的表现能力。实验上,我们证明MxD在语言模型中(例如,Transcoders)在稀疏性-准确性前沿显著优于最先进的方法,这些语言模型最多包含30亿参数。进一步的评估表明,稀疏探测和特征引导证明了MxDs能够学习自然语言中类似的专门化特征——这为设计可解释且忠实的分解开辟了一个有希望的新途径。我们的代码包含在https://github.com/james-oldfield/MxD/中


原文链接



通过广义归纳头实现可解释的下一个词预测

原标题:Interpretable Next-token Prediction via the Generalized Induction Head

作者:Eunji Kim;Sriya Mantena;Weiwei Yang;Chan Singh;Sungroh Yoon;Jianfeng Gao

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2024/10/31

摘要:虽然大型Transformer模型在预测性能方面表现出色,但其缺乏可解释性限制了它们在高风险领域的实用性。为了解决这个问题,我们提出了一个可解释的模型——广义归纳头模型(GIM),该模型受大型语言模型(LLMs)中“归纳头”的观察启发,用于下一个标记预测。GIM是一个基于检索的模块,通过结合精确n-gram匹配和基于神经相似度度量的模糊匹配,在输入上下文中识别相似序列。我们评估了GIM在两种设置下的表现:语言模型和fMRI响应预测。在语言建模中,GIM通过可解释的基线提高了多达25%的下一个标记预测准确率,显著缩小了与黑盒LLMs之间的差距。在fMRI环境下,GIM提高了神经反应预测的准确率20%,并且提供了关于大脑语言选择性的见解。GIM代表了在各个领域中统一可解释性和性能的重要一步。代码可在https://github.com/ejkim47/generalized-induction-head获取。


原文链接



通过语义聚类增强深度强化学习的可解释性

原标题:Enhancing Interpretability in Deep Reinforcement Learning through Semantic Clustering

作者:Liang Zhang;Justin Lieffers;Adarsh Pyarelal

期刊:Conference and Workshop on Neural Information Processing Systems

出版时间:2024/09/25

摘要:在本文中,我们探索深度强化学习(DRL)的语义聚类特性,以提高其可解释性,并深化对其内部语义组织的理解。在此背景下,语义聚类指的是神经网络基于特征空间中的语义相似性对输入进行聚类的能力。我们提出了一种DRL架构,该架构融合了一个新颖的语义聚类模块,该模块结合了特征降维与在线聚类。此模块无缝集成到深度强化学习(DRL)训练管道中,解决了t-SNE的不稳定性,并消除了先前语义分析方法固有的大量手动标注需求。我们通过实验验证了所提出的模块的有效性,并展示了其揭示DRL内部语义聚类属性的能力。此外,我们引入了基于这些属性的新分析方法,以提供对政策层次结构和特征空间内的语义组织的见解。我们的代码可在https://github.com/ualiangzhang/semantic_rl上获取。


原文链接



【声明】内容源于网络
0
0
AI新文
AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
内容 223
粉丝 0
AI新文 AI顶刊顶会新论文一号通,每天推送,助您时刻站在AI研究最前沿。包括:人工智能基础、交叉应用、脑认知与类脑智能、机器学习、模式识别与计算机视觉、自然语言处理、知识工程与数据挖掘、跨媒体与人机交互、智能机器人与系统、智能芯片与计算等。
总阅读31
粉丝0
内容223