CLEVR 多模态(Multimodal)
下载链接:http://eu5bx.ensl.cn/4f
合成的图像问答数据集,专注于测试模型的推理能力,如计数、比较、逻辑关系等。
Visual Genome
下载链接:http://eu5ba.ensl.cn/ad
Visual Genome 是一个数据集、一个知识库,是将结构化图像概念与语言联系起来的持续努力。
-
108,077 Images 108,077 张图片 -
540 万个区域描述 -
170 万个视觉问答 -
380 万个对象实例 -
280 万个属性 -
230 万个关系 -
映射到 Wordnet Synset 的所有内容
Pangea
下载链接:http://eu5bd.ensl.cn/9c
Pangea-7B,这是一种完全开放的多语言多模态语言模型 (MLLM),旨在弥合视觉理解任务中的多语言和多文化差距。 Pangea-7B 在 PangeaIns 上进行训练,PangeaIns 是一个跨越 39 种语言的多样化 6M 指令数据集。 Pangea-7B 在 PangeaBench 上进行评估,PangeaBench 是一个整体评估套件,包含 14 个数据集,涵盖 47 种语言。
MultiCaRe
下载链接:http://eu5be.ensl.cn/36
是一个开源临床病例数据集,用于医学图像分类和多模态 AI 应用程序:
-
它包含来自 PubMed Central 的超过 72K 病例报告的开放访问和去标识化数据,总结了超过 93K 临床病例和 130K 图像 -
该数据集包含来自不同医学专业的图像和病例,例如肿瘤学、心脏病学、外科和病理学 -
其医学图像分类法包括 140 多个类,这些类以分层结构组织,它们之间具有不同类型的逻辑约束(例如相互排他性)
Touch-Vision-Language Dataset
下载链接:http://eu5b8.ensl.cn/20
触觉视觉语言 (TVL) 数据集,它将成对的触觉和视觉观察与人工注释和 VLM 生成的触觉语义标签相结合。
作者使用手持式 3D 打印采集设备收集数据。 使用 DIGIT 传感器收集触觉数据:一种紧凑的开源触觉传感器,以可变形内表面的 RGB 图像形式提供观察结果。 图像数据来自 Logitech BRIO 网络摄像头,其位置使触觉传感器和接触点在其视野内。 然后,对收集的数据进行时间同步,并用触觉的语言描述进行标记,以生成对齐的触觉-视觉-语言示例数据集。
WIT 多模态(Multimodal)
下载链接:http://eu5bu.ensl.cn/b2
基于 Wikipedia 的图像文本 (WIT) 数据集是一个大型多模态数据集 多语言数据集。WIT 由一组精选的 3760 万个实体组成 丰富的图像文本示例,在 108 个维基百科中具有 1150 万张唯一图像 语言。它的大小使 WIT 可以用作 多模态机器学习模型。
悟空数据集
下载链接:http://eu5br.ensl.cn/8f
Wukong 数据集是一个大规模的多模态中文数据集。
-
数据集包含 1 亿<图像、文本>对 -
数据集中的图像根据大小(两个尺寸> 200px)和纵横比(1/3 ~ 3)进行过滤 -
数据集中的文本根据其语言、长度和频率进行筛选。隐私和敏感词也被考虑在内。
MINT-1T
数据集链接:http://edvvz.ensl.cn/c3
MINT-1T 是一个开源的 M终极模态 INTerleaved 数据集,具有 1 万亿个文本标记和 34 亿张图像,比现有开源数据集扩展了10 倍。
WuDaoCorpora Text文本预训练数据集
数据集链接:http://edvvt.ensl.cn/ce
WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。
Conceptual Captions
数据集链接:http://edvv7.ensl.cn/09
Conceptual Captions 数据集有超过 300 万张配对图像 带有自然语言字幕。
SBU Captions Dataset
数据集链接:http://edvvj.ensl.cn/76
100 万张带标题的照片描述图像
MiniGPT-4
数据集链接:http://edvv5.ensl.cn/7a
用于MiniGPT-4模型的第二阶段微调,包含高质量的图文对数据。
Ego-Exo4D
数据集链接:https://ego-exo4d-data.org/
Ego-Exo4D 呈现三种精心同步的自然 与视频配对的语言数据集。(1) 专家评论, 揭示细微的技能。(2) 参与者提供 Narrate-and-act 描述。(3) 支持浏览的一句话原子作描述, 挖掘数据集,并解决 视频语言学习
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

