大数跨境
0
0

SOTA排行榜大变天!MIT研究十个CV测试集,平均错误率超3.4%

SOTA排行榜大变天!MIT研究十个CV测试集,平均错误率超3.4% 极市平台
2021-04-12
1
导读:如果测试集不靠谱,那测出来的模型性能会靠谱吗?MIT研究了10个流行的CV的数据集,平均测试集的错误率超过3.4%,最多的竟然错误超10%。
↑ 点击蓝字 关注极市平台

作者丨LRS
来源丨新智元
编辑丨极市平台

极市导读

 

如果测试集不靠谱,那测出来的模型性能会靠谱吗?MIT研究了10个流行的CV的数据集,平均测试集的错误率超过3.4%,最多的竟然错误超10%。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

「clean code」是机器学习的基础,在公开的数据集取得更好的效果也是发表论文的基础。
 
众所周知的是,公开数据集并不都是完美的,或多或少都存在标签错误的问题。之前的工作主要关注「训练数据集」中的错误,忽视了「测试数据集」的错误。
 
MIT在arxiv上传了一篇论文,研究了10个流行的数据集,借助Amazon的众包平台Machine Turk来检验错误率。
 
通过算法识别并人工验证,发现确实普遍存在标签错误,10个数据集的平均错误率为3.4%
 

 MNIST也会出错?


即使是久经沙场,被无数论文作为基准测试过的MNIST数据集,在测试集中也包含15个(人工验证过的)标签错误。
 
不过大部分错误都属于有争议的结果,手写体写出来和看起来确实存在较大差距,例如0和6。
 
 

CIFAR-100迷惑性的标签


通过自然语言来定义标签,一个问题就是语言的「歧义性」。
 
下面三张标签中,图一过于抽象,并没有看出来是大象或是什么其他物种。

第二幅图被标注为「碗」,而被纠正为「茶杯」。cup与bowl之间的区别在于用途、大小。而根据图中比例来说,并无法分辨是碗还是杯子。

图三小编觉得更像是桌子,一个带花纹的桌子,可能纠正错了。


 QuickDraw数据集有10%都是错的?


QuickDraw共包含了五千万幅画,其中抽样测试集错误率约为10%,也就是说五百万个样例都是错误的。
 
例如下图中,眼睛被标注为了老虎,灯泡被标注为鳄鱼皮。
 
第三幅图笔画过于简单,想象空间比较大,数据集给出的标签是落地灯,众包人员认为是回旋镖,但还有许多其他的答案,例如大雁或者其他的具有翅膀的动物。
 
 
还有其他离谱的标注,天使被标注成三角形,鸟标注为火炉,苹果标注为衬衫,差的有点大吧?只能说标注人员脑洞开的真的很大!


 ImageNet也有5.83%不可信赖


ImageNet的错误分类有许多是动物类的,需要标注人员具有专业知识,能够准确区分各个动物。
 
花鸡、松鸦、夜莺之间的区分,对于小编来说太难了。
 
 
跑车和赛车之间的区别还是比较大的,图一难道不是「玩具车」?
 

纠正标签有什么作用?


图(a)显示,移除更多的错误标签,能够线性地提高ResNet-18的准确率。
图(b)和图(c)说明,当纠正更多的错误标签时,准确率也会上升。
 
 
当数据集中错误标签被纠正后,不同模型之间的排名也会发生较大变化。
 
 
人工标注是一个既客观又主观的事情,人在做图像识别任务的时候,也无法达到100%的准确率,错误无可避免。
 
训练集的错误标签同样会影响到模型在测试集上的表现,错误的标记可能会导致科研人员得出模型在现实世界中性能更佳的错误结论,从而破坏了机器学习系统的基准测试结果。
 
如何建立一个可依赖的公开数据库,或依赖半监督算法来有效清洗数据,也许是下一步研究方向。

参考资料:
https://l7.curtisnorthcutt.com/label-errors



推荐阅读


本科、硕士、博士的区别(终极版)

2021-04-11

如果不发论文,我们用什么证明自己的科研实力?

2021-04-10

有人统计了2万篇论文发现:想增加引用量,最好少说「黑话」

2021-04-09


# CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


△点击卡片关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k