大数跨境
0
0

多模态方向开源数据集资源汇总

多模态方向开源数据集资源汇总 极市平台
2025-06-03
4
↑ 点击蓝字 关注极市平台
编辑丨极市平台

CLEVR 多模态(Multimodal)

下载链接:http://eu5bx.ensl.cn/4f

合成的图像问答数据集,专注于测试模型的推理能力,如计数、比较、逻辑关系等。

Visual Genome

下载链接:http://eu5ba.ensl.cn/ad

Visual Genome 是一个数据集、一个知识库,是将结构化图像概念与语言联系起来的持续努力。

  • 108,077 Images 108,077 张图片
  • 540 万个区域描述
  • 170 万个视觉问答
  • 380 万个对象实例
  • 280 万个属性
  • 230 万个关系
  • 映射到 Wordnet Synset 的所有内容

Pangea

下载链接:http://eu5bd.ensl.cn/9c

Pangea-7B,这是一种完全开放的多语言多模态语言模型 (MLLM),旨在弥合视觉理解任务中的多语言和多文化差距。 Pangea-7B 在 PangeaIns 上进行训练,PangeaIns 是一个跨越 39 种语言的多样化 6M 指令数据集。 Pangea-7B 在 PangeaBench 上进行评估,PangeaBench 是一个整体评估套件,包含 14 个数据集,涵盖 47 种语言。

MultiCaRe

下载链接:http://eu5be.ensl.cn/36

是一个开源临床病例数据集,用于医学图像分类和多模态 AI 应用程序:

  • 它包含来自 PubMed Central 的超过 72K 病例报告的开放访问和去标识化数据,总结了超过 93K 临床病例和 130K 图像
  • 该数据集包含来自不同医学专业的图像和病例,例如肿瘤学、心脏病学、外科和病理学
  • 其医学图像分类法包括 140 多个类,这些类以分层结构组织,它们之间具有不同类型的逻辑约束(例如相互排他性)

Touch-Vision-Language Dataset

下载链接:http://eu5b8.ensl.cn/20

触觉视觉语言 (TVL) 数据集,它将成对的触觉和视觉观察与人工注释和 VLM 生成的触觉语义标签相结合。

作者使用手持式 3D 打印采集设备收集数据。 使用 DIGIT 传感器收集触觉数据:一种紧凑的开源触觉传感器,以可变形内表面的 RGB 图像形式提供观察结果。 图像数据来自 Logitech BRIO 网络摄像头,其位置使触觉传感器和接触点在其视野内。 然后,对收集的数据进行时间同步,并用触觉的语言描述进行标记,以生成对齐的触觉-视觉-语言示例数据集。

WIT 多模态(Multimodal)

下载链接:http://eu5bu.ensl.cn/b2

基于 Wikipedia 的图像文本 (WIT) 数据集是一个大型多模态数据集 多语言数据集。WIT 由一组精选的 3760 万个实体组成 丰富的图像文本示例,在 108 个维基百科中具有 1150 万张唯一图像 语言。它的大小使 WIT 可以用作 多模态机器学习模型。

悟空数据集

下载链接:http://eu5br.ensl.cn/8f

Wukong 数据集是一个大规模的多模态中文数据集。

  • 数据集包含 1 亿<图像、文本>对
  • 数据集中的图像根据大小(两个尺寸> 200px)和纵横比(1/3 ~ 3)进行过滤
  • 数据集中的文本根据其语言、长度和频率进行筛选。隐私和敏感词也被考虑在内。

MINT-1T

数据集链接:http://edvvz.ensl.cn/c3

MINT-1T 是一个开源的 M终极模态 INTerleaved 数据集,具有 1 万亿个文本标记和 34 亿张图像,比现有开源数据集扩展了10 倍。

WuDaoCorpora Text文本预训练数据集

数据集链接:http://edvvt.ensl.cn/ce

WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。

Conceptual Captions

数据集链接:http://edvv7.ensl.cn/09

Conceptual Captions 数据集有超过 300 万张配对图像 带有自然语言字幕。

图片

SBU Captions Dataset

数据集链接:http://edvvj.ensl.cn/76

100 万张带标题的照片描述图像

图片

MiniGPT-4

数据集链接:http://edvv5.ensl.cn/7a

用于MiniGPT-4模型的第二阶段微调,包含高质量的图文对数据。

图片

Ego-Exo4D

数据集链接:https://ego-exo4d-data.org/

Ego-Exo4D 呈现三种精心同步的自然 与视频配对的语言数据集。(1) 专家评论, 揭示细微的技能。(2) 参与者提供 Narrate-and-act 描述。(3) 支持浏览的一句话原子作描述, 挖掘数据集,并解决 视频语言学习

图片


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

图片

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读8.7k
粉丝0
内容8.2k