小视科技夺冠！大模型竞赛“一冠一季”收入囊中 | CVPR 2023 VIZWIZ Grand Challenge- 大数跨境

首页

小视科技夺冠！大模型竞赛“一冠一季”收入囊中 | CVPR 2023 VIZWIZ Grand Challenge

小视科技Minivision

2023-07-04

导读：基于视觉大模型，加速小视算法在更多复杂场景落地应用。

近日，CVPR 2023 VIZWIZ Grand Challenge Workshop 竞赛成绩公布。小视科技参赛团队在显著性目标检测赛道获得第一名，在视觉问答赛道中获得第三名。

小视团队夺得显著性目标检测赛道冠军。

小视团队夺得视觉问答赛道季军。

VizWiz Grand Challenge

双赛道获“一冠一季”

CVPR是世界顶级的计算机视觉会议三大顶会之一，由IEEE主办，有着计算机视觉领域“奥斯卡”的美誉。本届VIZWIZ Grand Challenge Workshop 是由微软、苹果和科罗拉多大学博尔德分校等共同在CVPR上举办的国际性赛事。

这项比赛旨在解决视力障碍人群提出的需求，通过提升视觉算法的精度，满足他们对感知周围环境的需求，进而促使计算机视觉社区合作开发辅助技术的算法。

显著性目标检测赛道

小视冠军方案

显著性目标检测是CV领域的一项重要任务，旨在识别图片中最具显著性的目标物体或区域，让计算机理解图像中的哪些部分是人们关注的重点。

官方提供的数据集，图片均由视障人士拍摄。

官方数据集包括训练集19116张图片、验证集6105张图片、测试集6779张图片。

我们使用多模态模型预测得到显著图像的描述，如下图food，扩散模型根据描述在对应的位置生成目标，再分割得到生成图像对应的mask。利用这种方式能够有效的生成大量高质量的数据，增加数据的多样性。

生成图像及其mask的流程

我们以SelfReFormer作为基础框架，利用视觉大模型预训练权重提升了图像编码器（ImageEncoder）特征提取的能力。

图像编码器参数量对比

SelfReformer模型架构图

通过加入T2T模块的转化，将多个尺度特征进行融合，增加了模型对显著性目标的鉴别能力，带来了稳定的涨点。

T2T模块多尺度示意图

除此之外，我们利用投票机制进行模型选择，最终融合了SwinTransFormerv2和Dinov2两个编码器的结果。其他的trick比如二值化阈值调整、不同尺寸的腐蚀操作都会有微小的涨点。

我们的方案共有Sm、Em、Iou三项指标位列第一，总排名第一。

视觉问答赛道

小视季军方案

视觉问答任务要求模型理解问题的语义、图像的视觉内容以及两者之间的关系，回答基于图像的问题。

VIZWIZ VQA数据集中，每个问题都收集了10个人的回答。采集的图片存在拍摄场景不完整、模糊或不清晰，收集的问题和回答也较为口语化。

官方提供了20523个图片-问题对作为训练集，4319个作为验证集，8000个作为测试集。

官方数据集

数据增广上，我们使用与显著性赛道相似的方式增加数据的多样性，使用多模态大模型生成对应的问题-答案对，有效扩充了图片和语料数据。

我们以Blip2作为基础框架。对语料进行了prompt增强，对视觉和语言大模型结合的部分Q-Former进行微调，LLM部分适配T5，VIT-L, VIT-G等多种大模型预测回答的结果，最终基于投票机制对多个模型的预测结果进行融合。

Blip2模型架构图

在本次比赛中，我们不仅丰富了在视觉大模型领域的技术栈，更是基于大模型强大的特征表示和模式识别能力，提升了生产算法在目标检测、追踪、分类，分割任务上的精度和场景泛化性，加速了我们的算法在各种复杂场景下的落地和实际应用能力。

比赛落幕，小视团队在全球AI开发者面前充分展示了自身的技术硬实力。

“一冠一季”的好成绩收入囊中后，小视团队希望能为计算机视觉技术的发展，尤其是大模型应用探索更多的落地空间，为AI惠及智慧城市、工业生产、机器人等领域积累更多技术储备。

往期精彩

首届CVPR 2023大模型挑战赛 | 小视位列“前三”，把脉智能交通难题

小视获奖 ACCV 2022 国际细粒度图像分析挑战赛 | 细粒度图像分类如何让机器看得更清？

多目标追踪MOT国际竞赛榜单出炉，小视科技荣登榜首，8项指标排名第一！

首届生成智能产业峰会召开，小视参编首个生成式AI标准

中国500强鹏飛集团煤业系统技术团队走访小视，共话煤矿智能化

全国智标委“标准贡献”选树结果出炉，小视收获应用实践奖

Mini Research | 小视联合南理工发表IEEE论文详解，如何实现更逼真的3D人脸重建？

小视科技简介

小视科技，是江苏省人工智能代表性企业，2015年成立于南京，定位“智慧视觉全场景生态服务商”，构建城市AI中枢，建设智慧城市之脑，为数字城市（智慧城市、社区、校园、工地、园区）、数字产业（矿山、煤焦化）、数字生活（互联网行业）等场景提供数字服务，业务覆盖全国23省、56个地市，其中在上海、江苏、辽宁、安徽、浙江等地，落地超10个智慧城市视觉中枢。

公司在多目标追踪MOT国际赛事中夺得MOT 17与 MOT-HT21双冠军，获得NIST国际人脸识别竞赛FRVT开放场景全球第二、国家级专精特新小巨人、江苏省计算机视觉工程研究中心、江苏省科学技术奖一等奖等荣誉，产品体系通过信创适配认证，软件工程研发能力成熟，通过CMMI-5国际认证，首批入选“可信人脸应用守护计划”成员；参与制定人工智能技术应用场景、智慧社区评价等多项国家标准；由院士团队、行业专家组成的技术团队，联合相关科研院校，共建人工智能研究院及创新应用基地，持续开展前沿人工智能技术研究，预研数字人、3D视觉等前沿技术。

小视科技产品与解决方案服务于多家政府单位，并成功落地全国大规模智慧社区等标杆性项目；与三大运营商、华为等行业知名头部公司合作，持续扩大市场份额；在重庆、辽宁、新疆、山西、浙江、上海、江西、安徽等地设有子公司。

【声明】内容源于网络

小视科技Minivision

小视科技，是国内人工智能领军企业，定位“智慧视觉行业全场景生态服务商”，为数字城市（智慧城市、社区、校园、工地、园区）、数字产业（智能制造）、数字生活（互联网行业）等场景提供数字服务。

内容 308

粉丝 0

小视科技Minivision 小视科技，是国内人工智能领军企业，定位“智慧视觉行业全场景生态服务商”，为数字城市（智慧城市、社区、校园、工地、园区）、数字产业（智能制造）、数字生活（互联网行业）等场景提供数字服务。

总阅读109

粉丝0

内容308