告别欧氏距离“抄近道”！杭电浙大等提出GeoProto用流形几何提升可解释AI精度

极市平台

2025-09-30

↑ 点击蓝字关注极市平台

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

GeoProto是一种新型的可解释细粒度识别框架，通过引入测地距离代替传统的欧氏距离来匹配原型，解决了特征空间中“欧氏捷径”导致的错误匹配问题。它利用扩散图技术将复杂流形展开为低维空间，在其中计算测地距离，从而更精准地反映特征的语义相似性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

大家在用一些AI识图软件时，有没有想过，它到底是怎么“思考”的？为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”？为了让AI不那么像个黑箱，可解释性AI（XAI）应运而生，其中一个很火的流派就是“原型网络（Prototype-based Network）”。

简单来说，这种网络会学习一些典型的“原型”部件，比如鸟的“尖嘴”、汽车的“圆形车轮”，然后通过判断一张新图片里包含了哪些原型，来做出最终分类。但这里有个问题，大多数模型在比较图片特征和原型时，用的是最简单的欧氏距离（Euclidean distance），也就是两点之间的直线距离。可特征空间往往是弯曲的，走直线“抄近道”反而会出错。

来自杭州电子科技大学、浙江大学等机构的研究者们就针对这个问题，提出了一个名为 GeoProto的新框架。它放弃了“抄近道”的欧氏距离，选择沿着特征空间的“道路”（流形）来计算距离，让原型匹配变得更符合语义，也更准确。

论文标题：GEODESIC PROTOTYPE MATCHING VIA DIFFUSION MAPS FOR INTERPRETABLE FINE-GRAINED RECOGNITION
作者：Junhao Jia, Yunyou Liu, Yifei Sun, Huangwei Chen, Feiwei Qin, Changmiao Wang, Yong Peng
机构：杭州电子科技大学，浙江大学，深圳大数据研究院
论文地址：https://arxiv.org/abs/2509.17050

01 欧氏距离的“近路”与测地距离的“正途”

咱们先用一张图来理解下欧氏距离错在哪。在做细粒度分类时，比如区分不同种类的鸟，特征空间里，同一类鸟的特征会聚集在一起，形成一个“类流形（class-manifold）”。

如上图所示，两个在流形上其实离得很远的点（语义差异大），它们的欧氏直线距离可能非常近。这就导致模型在匹配原型时，可能会把一个“鸟头”原型错误地匹配到一个背景里相似的纹理上，因为它俩在特征空间里的“直线距离”很近。这就是所谓的“欧氏捷径（Euclidean shortcuts）”问题。

GeoProto的核心思想就是，不应该走直线，而应该沿着数据本身所在的弯曲流形表面走，这个距离叫作 测地距离（Geodesic Distance）。这样才能真正反映两个特征点的语义相似度。

02 GeoProto：在流形上学习和匹配原型

为了实现这个想法，GeoProto设计了一个端到端的框架，主要分为训练和推理两个阶段。

训练阶段

构建类流形：首先，对于训练集里的每一个类别，模型会提取所有样本的深度特征。然后，基于这些特征构建一个k近邻图（k-NN graph），用这个图来近似表达该类别的潜在流形结构。
学习扩散图嵌入：接着，模型使用 扩散图（Diffusion Maps） 技术，将这个高维、弯曲的流形“展开”成一个更低维、更平坦的“扩散空间”。在这个空间里，两点间的欧氏距离就等价于原始流形上的扩散距离，而扩散距离是测地距离的一个很好的近似。
原型嵌入：模型学习到的原型（Prototypes）也会被映射到这个扩散空间中。为了让这个过程可微分且高效，作者采用了一种名为 Nyström扩展 的方法，使得任何新的特征点（无论是测试样本还是原型）都能被快速地嵌入到已经构建好的流形中。

推理阶段

当一张新的查询图片到来时：

特征提取与嵌入：图片先通过CNN主干网络提取特征。
计算测地相似度：然后，利用Nyström扩展将该特征嵌入到 每一个 类别的扩散流形中，并计算它与该类别所有原型的测地距离（也就是在扩散空间中的欧氏距离）。
聚合与分类：最后，模型会聚合这些距离分数，转换成相似度，并根据最相似的原型组合来判断图片属于哪个类别，同时给出“这张图的这个部分像某个原型的这个部分”这样的可视化解释。

03 实验效果：更准也更“懂”

GeoProto不仅在理论上听起来很棒，在实际测试中也表现出了优越的性能。

上表展示了在CUB-200-2011（鸟类）和Stanford Cars（汽车）两个经典细粒度识别数据集上的准确率。可以看到，在不同的骨干网络下，GeoProto（最后一行）的准确率 全面超越了 其他所有基于原型的可解释方法。例如，在CUB数据集上使用ResNet-50时，GeoProto达到了 87.8% 的准确率，比之前的SOTA方法MGProto高出1.6%。

准确率的提升是一方面，更重要的是，这种提升来自于更合理的原型匹配。