

算法竞赛知多少？盘点算法竞赛的全过程

极市平台

2024-05-11

↑ 点击蓝字关注极市平台

作者丨Rocky Ding

来源丨WeThinkIn

编辑丨极市平台

极市导读

复盘整个AI算法竞赛的整理逻辑和各环节重心，跳出参赛者的个体看看全局。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

写在前面

大家好，我是Rocky。之前Rocky总结过很多关于AI算法竞赛的方法论、经验思考以及细节注意事项等方面的内容。虽然写了不同维度的文章，但是感觉比较零散，故Rocky在本文中将之前分享的核心观点和对AI算法竞赛最新的思考进行整合梳理，力求通过本文能让大家不再惧怕AI算法竞赛，并且在紧张的厮杀中能从容，能有收获。

----【目录】----

为什么要参加AI算法竞赛
AI算法竞赛的赛题挖掘
AI算法竞赛厮杀方法论
分类/分割/检测算法竞赛中的实用Tricks
打完AI算法竞赛的日子

为什么要参加AI算法竞赛

参加AI算法竞赛的底层逻辑，Rocky这里主要总结以下几点：

学生时期

通过参加AI算法竞赛来入场AI领域，以赛代学，赛中学，学中赛。
丰富简历，为实习/升学/校招做准备。
增加实验室课题组的AI影响力。
赚取奖金。
热爱竞赛氛围，渴望提升技术能力。

工作时期

AI竞赛工具化，作为业务扩展的demo。
提升公司的AI影响力&AI软实力。
参与学术分享，提升行业内的知名度。
AI Lab的常规业务。
工作之余，赚取奖金。

AI算法竞赛的赛题挖掘

Rocky认为，AI算法竞赛的赛题本质通常是成熟领域+创新领域的混合模式。

成熟领域包括图像分类，图像分割，目标检测，目标追踪，对抗攻防等。

创新领域则一般是在成熟领域中再往前走一到两步，主要表现形式如下：

结合实际场景，如智慧城市，智慧安防，智慧工业，智慧电商，智慧硬件等。
成熟领域中的难点方向，如规则限制，条件约束，细分场景（细粒度，小样本，多任务结合等），引入前沿概念（“以数据为中心”，“元宇宙”，“大模型”等）。
结合新兴研究方向（扩散模型，AIGC，可信AI，Transformer等）

当然，除此之外，还包括一些热身赛，入门赛等赛题形式，这些赛题往往比较直观简单，在此就不做赘述。

AI算法竞赛厮杀方法论

“优质AI算法竞赛就是算法领域的天下第一武道大会。” —— Rocky Ding（中国）

一个有足够资源背书，竞赛赛题切实新颖，参赛队伍卧虎藏龙，并有顶级学术会议分享机制的AI竞赛，可以称得算上优质。如果我们能在这样的AI竞赛中全力以赴，深度参与，那么最后一定会有比较丰富的收获与感悟。

为了帮助大家更好的参与“天下第一武道大会”，Rocky从工业界的角度出发，结合自身的多年竞赛厮杀经验，总结了一套全方位的AI算法竞赛厮杀方法论：

数据EDA（Exploratory Data Analysis）

磨刀不误砍柴工，对数据进行分析挖掘，从而对数据整体特征有更好的把握。我们可以从下面几个维度入手：

数据量级和基本信息
是否存在噪声数据/脏数据
是否存在小目标
是否存在类别不均衡问题
理解不同类别的数据特征
是否存在难样本

模型Baseline

一般选择SOTA模型或者竞赛打榜热门模型做baseline入场，再针对竞赛赛题的特点对模型结构进行针对性的优化。

比如在成熟领域，图像分类任务先上类ResNet模型，图像分割任务先上类U-Net模型，目标检测任务先上类YOLO模型。

我们可以直接将上述模型的预训练权重进行微调，一般会有不错的效果。搭建模型的框架推荐使用PyTorch，它本身代码比较轻量级，代码逻辑清晰，撰写方便，更重要的是，很多竞赛支持开源库（Fast.ai，Albumentations等）与预训练模型都有PyTorch的API，这让我们的idea能高效实现与验证。

在有了入场模型之后，接着再进行模型的替换，模型结构优化，多模型级联等尝试。