如何为数据集构建图像重复查找器？（附代码）- 大数跨境

学术头条

2018-12-12

导读：作者构建了一个重复的查找程序，为您找到重复项，您只需要选择是否要删除它们，在这篇文章中，作者将解释他是如何构建这个工具的。

当您从互联网上下载图像时，通常会发现噪声数据。此外，相似的图片都在附近,一个接一个地看到它们并试图找到重复数据来清理数据集是很繁琐的。

考虑到这个问题，作者构建了一个重复的查找程序，为您找到重复项，您只需要选择是否要删除它们。您可以在fastai库（网址：https://github.com/fastai/fastai）中找到代码。在这篇文章中，作者将解释他是如何构建这个工具的。

这是算法找到的实际副本

第1步：获取激活

我们通常使用CNN对图像进行分类，只对网络末端的softmax输出感兴趣，它告诉我们网络认为图像标签是什么。在这种情况下，我们将比较网络的内层，希望网络学到的一些功能对于查找类似的图像很有用。为了实现这一点，我利用了fastai库中的强大callbacks 功能（代码页：https://docs.fast.ai/callbacks.hooks.html），它允许我们保存网络中任何子层的激活。

hook = hook_output(learn.model[0][7][2])

我使用的激活是Resnet架构的最后一个卷积块的输出，因为我注意到它们在经验上更好地工作。

第2步：合并

您可能知道，CNN中的隐藏层有四个维度：批量大小、高度、宽度和要素数量。假设我们正在谈论一个特定的图像，或者bs = 1。例如，在Resnet 50的情况下，最后一层的输出将具有尺寸（1,7,7,248 ）。由于这里的维度非常高，计算相似性会非常耗时，这对用户来说是一种痛苦。这个问题的答案是使用Pooling（网址：http://deeplearning.stanford.edu/tutorial/supervised/Pooling/） 。我们将汇集每个7x7矩阵，以便得到一个维度张量（1，pool_dim，pool_dim，2048）。

我使用的池函数是AdaptiveConcatPooling（自适应平均池和自适应最大池连接在一起），使用的池维数是4，因为我发现它是速度和性能的良好组合。

第3步：展平

我们以四个维度的张量结束了最后一步。然而，为了计算不同示例之间的相似性，我们需要一维张量（向量）。我们将展平每个图像的激活以获得大小为pool_dim x pool_dim x 512的向量，并且我们将每个图像的向量连接成具有维度（n_exs，vector_dim）的矩阵。现在我们为每个n_exs图像都有一个特征向量。是时候计算相似之处了

def get_actns(learn:Learner, dl:DataLoader, hook:Hook, pool=AdaptiveConcatPool2d, pool_dim:int=4, train:bool=True):
"""Gets the activations at the layer specified by `hook`, 
   applies `pool` of dim `pool_dim` and concatenates."""

    pool = pool(pool_dim) 
    
    actns = []
    learn.model.eval()
    with torch.no_grad():
        for i,(xb,yb) in enumerate(dl):
            learn.model(xb)
            actns.append((hook.stored).cpu())
                                    
    return pool(torch.cat(actns)).view(len(dl.x), -1)

第4步：计算相似之处

为了计算每个特征向量之间的相似性，我们将使用余弦相似度函数。请注意，如果我们将每个向量与每个其他向量组合在一起，则所有相似度将被计算两次。还要注意，如果我们计算矢量与其自身的相似性，相似性的度量显然将是最高的。因此，对于我们的相似性矩阵，我们将用零替换对角线和右上角部分。

def comb_similarity(t1: torch.Tensor, t2: torch.Tensor, sim_func=nn.CosineSimilarity(dim=0)):
    """Computes the similarity function `sim_func` between each embedding
       of `t1` and `t2` matrices.
       t1` and `t2` should have dimensions [n_embeddings, n_features]."""
    
    self_sim = False
    if torch.equal(t1, t2): self_sim = True
        
    sims = np.zeros((t1.shape[0], t2.shape[0]))
    for idx1 in range(t1.shape[0]):
        for idx2 in range(t2.shape[0]):
            if not self_sim or idx1>idx2:
                ex1 = t1[idx1,:]
                ex2 = t2[idx2,:]
                sims[idx1][idx2] = sim_func(ex1,ex2)
                
    return sims

第五步：结果

让我们看看我们的方法是否有效！我用来测试算法的数据集是Oxford-IIIT Pet Dataset（http://www.robots.ox.ac.uk/~vgg/data/pets/），有37只狗和猫品种。

相似但不重复

我还用计算机视觉中众所周知的数据集CIFAR10测试了算法，看看我是否能找到一些重复数据。这些是我发现的一些例子：

不重复，更像是数据扩充

我还运行了relabeler小部件，这是一个额外有趣的发现：

不是卡车

一旦我们有网络的重复建议，我们应该怎么做？好吧，我们应该选择那些实际上是重复的并从我们的数据集中删除它们，因为重复会导致网络过于重视这些图像。我们如何轻松删除重复项？使用fastai的交互式小部件（https://github.com/fpingham/dataset-cleaner）非常容易！你可以通过运行来试试：

来自fastai.widgets进口*

ds，fns_idxs = DatasetFormatter.from_similars（'learner'）
ImageCleaner（ds，fns_idxs，duplicates = True）

课程中所提到的网址整理如下：

fastai库：

https://github.com/fastai/fastai

callbacks 功能：

https://docs.fast.ai/callbacks.hooks.html

Pooling:

http://deeplearning.stanford.edu/tutorial/supervised/Pooling/

Oxford-IIIT Pet Dataset:

http://www.robots.ox.ac.uk/~vgg/data/pets/

fastai的交互式小部件:

https://github.com/fpingham/dataset-cleaner

信息来源：https://towardsdatascience.com/how-to-build-an-image-duplicate-finder-f8714ddca9d2

[关于转载]：本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“SciTouTiao”微信公众号。谢谢您的合作。

分享干货

AMiner迄今为止已发布14期AI系列研究报告，您可在后台回复对应数字获取报告。

1 → 《自动驾驶研究报告》

2 → 《机器人研究报告》

3 → 《区块链研究报告》

4 → 《行为经济学研究报告》

5 → 《机器翻译研究报告》

6 → 《通信与人工智能研究报告》

7 → 《自动驾驶研究报告》前沿版

8 → 《自然语言处理研究报告》

9 → 《计算机图形学研究报告》

10 → 《超级计算机研究报告》

11 → 《3D打印研究报告》

12 → 《智能机器人研究报告》前沿版

13 → 《人脸识别研究报告》

14 → 《人工智能芯片研究报告》

推荐阅读：

分享|Yoshua Bengio讲座视频

福利|免费领取104份强化学习论文资料包

50年间，中国各省论文数量是如何变化的？

通过网络表征学习赋能社会网络计算——经典论文推荐（DeepWalk、LINE、PTE、DeepInf）

大约只有4%～5%的用户会完成MOOC课程，如何挽留有退课风险的用户？

2018 ACM Fellow|美国约占84%，罗彻斯特大学入选人数最多，国内机构无人入选

关于机器学习的这几个必备软件，你知道吗？

机器学习博士笔记分享|Keras中几个重要函数用法

干货推荐|如何基于时间的反向传播算法来训练LSTMs？

一万字纯干货|机器学习博士手把手教你入门LSTM（附代码资料）

中国西北大学和北京大学的研究结果是否将终结CAPTCHA验证码时代？

微信公众号菜单栏为大家设置了“论文推荐”和“优质分享”专栏，“北京讲座”移至“优质分享”专栏内，欢迎大家关注。

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文访问AMiner官网

【声明】内容源于网络

学术头条

致力于学术传播和科学普及，重点关注大模型、AI4Science 等前沿科学进展。

内容 1019

粉丝 0

学术头条致力于学术传播和科学普及，重点关注大模型、AI4Science 等前沿科学进展。

总阅读0

粉丝0

内容1.0k