AI科技评论

2022-09-03

103

导读：“我们都在阴沟里，但仍有人仰望星空。”——奥斯卡·王尔德（Oscar Wilde）

从ImageNet到ResNet：一场改变AI进程的革命

一部科幻经典如何启蒙了人工智能的数据革命

“我们都在阴沟里，但仍有人仰望星空。”——奥斯卡·王尔德

作者 | 陈鹭伊

编辑 | 岑峰

1968年上映的科幻电影《2001：太空漫游》（2001: A Space Odyssey）曾让观众困惑不解，却最终成为影史经典。导演库布里克用一根抛向空中的骨头切换到宇宙飞船的画面，浓缩了百万年人类文明的科技跃迁[1]。这一意象不仅影响了几代创作者，也在现实中催生了AI领域的一场数据革命。

（电影《太空漫游》的海报）

著名科幻作家刘慈欣曾坦言：“我所有作品都是对《太空漫游》的拙劣模仿。”他更借小说《朝闻道》中“排险者”之口致敬那个经典镜头：

当生命意识到宇宙奥秘的存在时，距它最终解开这个奥秘只有一步之遥了。

1. 诞生：万里江山远

电影中的超级电脑HAL 9000被设定诞生于伊利诺伊大学香槟分校（UIUC）所在的厄巴纳市。巧合的是，日后推动人工智能发展的ImageNet数据集，其构想也源自这里。2006年，李飞飞在UIUC任助理教授期间萌生了构建大规模视觉数据集的想法[1]。

当时计算机视觉研究受限于小规模数据集，难以实现有效泛化。李飞飞意识到，真正的突破需要海量标注数据支撑。受普林斯顿大学WordNet标签体系启发，她于2007年启动ImageNet项目，并借助Amazon Mechanical Turk平台完成图像标注的众包工作[1]。

尽管初期遭遇质疑——包括其学术“祖师爷”Jitendra Malik也曾怀疑该项目对终身教职的帮助——李飞飞仍坚持推动。2009年CVPR上发表的ImageNet论文反响平淡，质疑声集中在“数据规模并非领域关注重点”[1]。

为扩大影响力，李飞飞与PASCAL VOC合作，于2010年ICCV上举办首届ImageNet挑战赛（ILSVRC）。当时仅有11支队伍参赛，成绩差距悬殊。NEC与UIUC联合团队以28.2%的错误率夺冠，成为首任冠军[1]。

（李飞飞办公室贴有与Jitendra Malik的合影）

值得一提的是，NEC方面由余凯协调资源支持，而UIUC团队则汇聚了黄煦涛、杨建朝、周曦、曹亮亮等人才。这场合作不仅产出多篇高引论文，也为后续深度学习爆发埋下伏笔[1]。

（NEC-UIUC联队在首届ILSVRC挑战赛冠军团队成员）

2. 爆发：千峰晓色新

2012年，Geoffrey Hinton团队以AlexNet在ImageNet挑战赛中取得压倒性胜利，标志着深度学习时代的开启[1]。此后，ImageNet取代Pascal VOC，成为计算机视觉领域的权威 benchmark。

ImageNet历年成绩一览，图片来源：Quartz

2014年，微软亚洲研究院（MSRA）孙剑带领团队参赛。团队核心成员为何恺明、张祥雨、任少卿，形成后来被称为“ResNet四人组”的黄金组合[1]。

张祥雨率先完成AlexNet复现并自研深度学习框架，为后续创新打下基础。团队先以SPPNet参赛获2014年第三名，相关成果发表于ECCV[1]。

在研究VGGNet过程中，张祥雨提出解决梯度消失问题的初始化方法，后成为行业标准之一。2015年春节前，团队首次将分类错误率降至4.96%，低于人类水平的5.1%[1]。

为进一步突破，团队转向GoogleNet结构研究，发现“Shortcut”连接对训练深层网络至关重要。在极简思想指导下，他们构建出无参数、零层数的“最短路径”模型——ResNet[1]。

2015年，该团队以152层ResNet在ImageNet五项任务中全面夺冠。如果说AlexNet开启了深度学习从0到1的时代，ResNet则开启了从1到N的可能性[1]。

3. 收官：曲终人不散

2017年，ImageNet挑战赛官方宣布：本届为最后一届。这项持续八年的赛事功成身退，正如当年Pascal VOC的停办[1]。

其退出原因在于任务设定局限——单标签分类已趋近极限。2015年ResNet超越人类精度后，比赛的技术引领作用逐渐减弱。2016年各队成绩高度接近，进一步表明该赛道进入瓶颈期[1]。

然而，ImageNet的影响远未终结。它推动了深度学习在计算机视觉乃至整个AI领域的普及，催生了ResNet、AlexNet等里程碑模型，并为后续COCO、Open Images等更复杂数据集的发展奠定基础[1]。

从UIUC校园到全球AI实验室，从ImageNet到ResNet，这场始于对数据信念的探索，最终重塑了人工智能的技术版图。正如《太空漫游》中那根飞向星空的骨头，一个时代的工具，终将演化为下一个文明的起点[1]。

ImageNet落幕：一个时代的终章与视觉AI的新起点

从竞赛巅峰到技术演进，见证计算机视觉的变革之路

在最后一届ImageNet挑战赛中，中国团队表现抢眼，CUImage、Trimps-Soushen、CUvideo、HikVision、SenseCUSceneParsing和NUIST包揽六个项目冠军，创下赛事历史上首次由中国团队主导的辉煌战绩[k]。

然而，赛事的繁荣背后也引发广泛争议：新兴任务如场景解析与场景分类在预训练模型使用上存在分歧；多数优胜方案依赖高昂计算成本的模型集成（Ensemble Model）；大型机构凭借资源优势“刷榜”，偏离了推动技术创新的初衷。这些现象或成为主办方于2017年后停办比赛的重要原因[k]。

自2015年ResNet问世以来，诸多改进模型相继涌现，包括DenseNet、MobileNet及ResNeXt等，推动模型结构持续优化。尽管ResNeXt结构更简洁、计算效率更高，但在2016年ImageNet挑战赛中仍不敌集成模型，仅获一项亚军。直到2017年，颜水成团队提出的双通道网络DPN，结合ResNet与DenseNet优势，在降低200层ResNet计算量57%的同时夺得冠军，打破了“堆模型”的局面[k]。

颜水成早于2014年便率队赢得ImageNet目标检测冠军，其采用的Network in Network（NIN）结构中1×1卷积已成为现代视觉模型的标准组件，并影响GoogleNet、ResNet等经典架构[k]。

自2010年起，颜水成共斩获10项计算机视觉重要赛事冠亚军，包括2012年Pascal VOC最后一届冠军。他亲历了2012年AlexNet的崛起，自此投身深度学习研究[k]。

颜水成曾于微软亚洲研究院实习，师从张宏江，同期实习生余凯、孙剑等人日后也成为ImageNet冠军团队核心成员。2006年赴UIUC黄煦涛门下从事博士后研究，受其“Just be yourself”理念影响，确立以ICCV、CVPR顶级会议发表与视觉竞赛为抓手的发展路径。至2015年进入产业界前，其领导的新加坡国立大学机器学习与视觉实验室（NUS-LV）已跻身全球顶尖视觉团队之列[k]。

DPN正是颜水成结合产业需求、注重低能耗落地的成果。他强调，比赛意义在于验证创新思想，而非单纯追求排名。AlexNet、GoogleNet、VGG、ResNet、DPN等源自ImageNet的基础模型，对视觉领域产生了深远影响[k]。

谈及ImageNet挑战赛的终结，颜水成认为，每一项赛事都承载技术发展的期望，但数据集终有局限。尽管竞赛落幕，物体检测等任务的研究仍将延续[k]。

2017年7月，CVPR在美国夏威夷召开，最后一届ImageNet挑战赛研讨会同步举行。李飞飞发表题为《ImageNet—Where have we been？Where are we going？》的主题演讲，回顾赛事八年历程[k]。

李飞飞指出，ImageNet最大的贡献在于转变研究范式——数据成为推动人工智能发展的核心要素。“数据重新定义了我们对模型的思考方式。”她强调，尽管挑战赛终止，ImageNet数据集的维护与研究将持续推进[k]。

随着单标签图像识别问题趋于解决，李飞飞正致力于构建面向视觉理解、视觉关系预测等更复杂任务的新数据集，探索视觉AI的下一站[k]。

ImageNet的谢幕，标志着一个时代的结束，也开启了视觉研究的新征程。正如亚瑟·克拉克所言：人，掌握了过去，接着要探索未来。[k]。

【声明】内容源于网络

AI科技评论

聚焦AI前沿研究，关注AI工程落地。

内容 8490

粉丝 0

AI科技评论聚焦AI前沿研究，关注AI工程落地。

总阅读112.7k

粉丝0

内容8.5k

ImageNet 挑战赛风云