大数跨境
0
0

告别欧氏距离“抄近道”!杭电浙大等提出GeoProto用流形几何提升可解释AI精度

告别欧氏距离“抄近道”!杭电浙大等提出GeoProto用流形几何提升可解释AI精度 极市平台
2025-09-30
0
↑ 点击蓝字 关注极市平台
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

GeoProto是一种新型的可解释细粒度识别框架,通过引入测地距离代替传统的欧氏距离来匹配原型,解决了特征空间中“欧氏捷径”导致的错误匹配问题。它利用扩散图技术将复杂流形展开为低维空间,在其中计算测地距离,从而更精准地反映特征的语义相似性。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

大家在用一些AI识图软件时,有没有想过,它到底是怎么“思考”的?为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”?为了让AI不那么像个黑箱,可解释性AI(XAI)应运而生,其中一个很火的流派就是“原型网络(Prototype-based Network)”。

简单来说,这种网络会学习一些典型的“原型”部件,比如鸟的“尖嘴”、汽车的“圆形车轮”,然后通过判断一张新图片里包含了哪些原型,来做出最终分类。但这里有个问题,大多数模型在比较图片特征和原型时,用的是最简单的欧氏距离(Euclidean distance),也就是两点之间的直线距离。可特征空间往往是弯曲的,走直线“抄近道”反而会出错。

来自杭州电子科技大学、浙江大学等机构的研究者们就针对这个问题,提出了一个名为 GeoProto的新框架。它放弃了“抄近道”的欧氏距离,选择沿着特征空间的“道路”(流形)来计算距离,让原型匹配变得更符合语义,也更准确。

  • 论文标题:GEODESIC PROTOTYPE MATCHING VIA DIFFUSION MAPS FOR INTERPRETABLE FINE-GRAINED RECOGNITION
  • 作者:Junhao Jia, Yunyou Liu, Yifei Sun, Huangwei Chen, Feiwei Qin, Changmiao Wang, Yong Peng
  • 机构:杭州电子科技大学,浙江大学,深圳大数据研究院
  • 论文地址https://arxiv.org/abs/2509.17050

01 欧氏距离的“近路”与测地距离的“正途”

咱们先用一张图来理解下欧氏距离错在哪。在做细粒度分类时,比如区分不同种类的鸟,特征空间里,同一类鸟的特征会聚集在一起,形成一个“类流形(class-manifold)”。

如上图所示,两个在流形上其实离得很远的点(语义差异大),它们的欧氏直线距离可能非常近。这就导致模型在匹配原型时,可能会把一个“鸟头”原型错误地匹配到一个背景里相似的纹理上,因为它俩在特征空间里的“直线距离”很近。这就是所谓的“欧氏捷径(Euclidean shortcuts)”问题。

GeoProto的核心思想就是,不应该走直线,而应该沿着数据本身所在的弯曲流形表面走,这个距离叫作 测地距离(Geodesic Distance)。这样才能真正反映两个特征点的语义相似度。

02 GeoProto:在流形上学习和匹配原型

为了实现这个想法,GeoProto设计了一个端到端的框架,主要分为训练和推理两个阶段。

训练阶段

  1. 构建类流形:首先,对于训练集里的每一个类别,模型会提取所有样本的深度特征。然后,基于这些特征构建一个k近邻图(k-NN graph),用这个图来近似表达该类别的潜在流形结构。
  2. 学习扩散图嵌入:接着,模型使用 扩散图(Diffusion Maps) 技术,将这个高维、弯曲的流形“展开”成一个更低维、更平坦的“扩散空间”。在这个空间里,两点间的欧氏距离就等价于原始流形上的扩散距离,而扩散距离是测地距离的一个很好的近似。
  3. 原型嵌入:模型学习到的原型(Prototypes)也会被映射到这个扩散空间中。为了让这个过程可微分且高效,作者采用了一种名为 Nyström扩展 的方法,使得任何新的特征点(无论是测试样本还是原型)都能被快速地嵌入到已经构建好的流形中。

推理阶段

当一张新的查询图片到来时:

  1. 特征提取与嵌入:图片先通过CNN主干网络提取特征。
  2. 计算测地相似度:然后,利用Nyström扩展将该特征嵌入到 每一个 类别的扩散流形中,并计算它与该类别所有原型的测地距离(也就是在扩散空间中的欧氏距离)。
  3. 聚合与分类:最后,模型会聚合这些距离分数,转换成相似度,并根据最相似的原型组合来判断图片属于哪个类别,同时给出“这张图的这个部分像某个原型的这个部分”这样的可视化解释。

03 实验效果:更准也更“懂”

GeoProto不仅在理论上听起来很棒,在实际测试中也表现出了优越的性能。

上表展示了在CUB-200-2011(鸟类)和Stanford Cars(汽车)两个经典细粒度识别数据集上的准确率。可以看到,在不同的骨干网络下,GeoProto(最后一行)的准确率 全面超越了 其他所有基于原型的可解释方法。例如,在CUB数据集上使用ResNet-50时,GeoProto达到了 87.8% 的准确率,比之前的SOTA方法MGProto高出1.6%。

准确率的提升是一方面,更重要的是,这种提升来自于更合理的原型匹配。

上图的对比一目了然。对于同一个原型(比如鸟头),GeoProto找到的匹配图像块(a)都非常精准地对应着其他鸟的头部。而基于欧氏距离的方法(b)则找来了一些背景或无关纹理,显然是“抄近道”抄错了地方。

作者还通过一系列消融实验证明了框架中各个组件的有效性,比如测地距离的替换、图的构建方式、Nyström扩展的参数选择等,都对最终性能有重要影响。

总结

GeoProto这个工作点出了一个在可解释AI领域可能被长期忽视的问题:度量“相似性”的方式是否真的合理?它提醒人们,在深度学习构建的复杂特征空间中,几何结构至关重要,简单地“拉直线”很可能会误导模型。

将流形学习的思想引入到原型网络中,不仅提升了分类的准确性,更重要的是让模型的解释变得更加忠实和可信。这个思路对于所有依赖距离度量的可解释性方法,甚至更广泛的度量学习领域,都具有很好的启发意义。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读3.2k
粉丝0
内容8.2k